對于依賴深度學(xué)習(xí)作為自動駕駛關(guān)鍵的自動駕駛汽車 (AV) 供應(yīng)商而言,數(shù)據(jù)就是一切——在許多方面,它是唯一的東西。
數(shù)據(jù)是 AV 公司在公共道路上積累數(shù)英里的測試經(jīng)驗、記錄和儲存數(shù) PB 的道路知識的原因。例如,Waymo 在 7 月份聲稱在現(xiàn)實世界中行駛了超過 1000 萬英里,在模擬中行駛了 100 億英里。
但還有一個行業(yè)不喜歡問的問題:
假設(shè) AV 公司已經(jīng)在真實道路上收集了 PB 甚至 EB 的數(shù)據(jù)。該數(shù)據(jù)集有多少已被標記?也許更重要的是,被注釋的數(shù)據(jù)有多準確?
Edge Case Research 的聯(lián)合創(chuàng)始人兼首席技術(shù)官 Phil Koopman 在最近接受 EE Times 采訪時斷言,“沒有人可以為所有這些貼上標簽。”
數(shù)據(jù)標注:費時費力
注釋通常需要專業(yè)的人眼觀看短視頻剪輯,然后在每輛車、行人、路標、交通燈或任何其他可能與自動駕駛算法相關(guān)的項目周圍繪制和標記框。這個過程不僅耗時而且成本很高。
Medium 上最近的一篇題為“數(shù)據(jù)注釋:人工智能突破背后的十億美元業(yè)務(wù)”的報道說明了“托管數(shù)據(jù)標記服務(wù)”的迅速出現(xiàn),該服務(wù)旨在提供特定領(lǐng)域的標記數(shù)據(jù),并強調(diào)質(zhì)量控制。故事指出:
除了內(nèi)部數(shù)據(jù)標記團隊,科技公司和自動駕駛初創(chuàng)公司也嚴重依賴這些托管標記服務(wù)……一些自動駕駛公司每月向數(shù)據(jù)標記公司支付數(shù)百萬美元。
在幾年前來自 IEEE Spectrum 的另一個故事中,Drive.ai 的聯(lián)合創(chuàng)始人兼總裁 Carol Reiley 被引述說:
成千上萬的人在物品周圍貼上標簽。每行駛一小時,標記大約需要 800 小時。這些團隊都會掙扎。我們的速度已經(jīng)快了很多,而且我們還在不斷優(yōu)化。
一些公司,例如 Drive,正在使用深度學(xué)習(xí)來增強注釋數(shù)據(jù)的自動化,以此來加速繁瑣的數(shù)據(jù)標記過程。
讓我們使用未標記的數(shù)據(jù)
然而,Koopman 認為還有另一種方法可以“從積累的數(shù)據(jù)中榨取價值”。“不標記大多數(shù) PB 的記錄數(shù)據(jù)”如何完成此任務(wù)?
他解釋說,Edge Case Research 在設(shè)計一種允許 AV 行業(yè)加速開發(fā)更安全的感知軟件的方法時“偶然發(fā)現(xiàn)”了這一點。Edge Case Research 將其稱為“Hologram”,本質(zhì)上是為 AV 設(shè)計的“AI 感知壓力測試和風險分析系統(tǒng)”。
更具體地說,正如 Koopman 解釋的那樣,“Hologram 使用未標記的數(shù)據(jù)”,系統(tǒng)會兩次運行相同的未標記數(shù)據(jù)。
首先,它在現(xiàn)成的正常感知引擎上運行基線未標記數(shù)據(jù)。然后,對于相同的未標記數(shù)據(jù),應(yīng)用全息圖,添加非常輕微的擾動——噪聲。事實證明,通過對系統(tǒng)施加壓力,Hologram 可以暴露 AI 算法感知的潛在弱點。
例如,如果在視頻剪輯中添加一點顆粒,人類可能會感知到“那里有東西,但我不知道它是什么”。
但是一個人工智能驅(qū)動的感知系統(tǒng),在壓力下,要么完全錯過一個未知的物體,要么把它踢過門檻,把它放進不同的分類箱。
當 AI 仍在學(xué)習(xí)時,了解它的置信度(因為它決定了它所看到的)是有用的。但是當人工智能在世界上應(yīng)用時,置信水平并不能告訴我們太多。人工智能通常是“猜測”或簡單地“假設(shè)”。
換句話說,人工智能是在偽造它。
根據(jù)設(shè)計,全息圖可以“戳”人工智能驅(qū)動的感知軟件。它揭示了人工智能系統(tǒng)失敗的地方。例如,一個有壓力的系統(tǒng)通過神秘地讓一個物體從場景中消失來解決它的困惑。
也許,更有趣的是,Hologram 還可以在噪聲下識別人工智能“幾乎失敗”但猜對了的地方。Koopman 說,全息圖在視頻剪輯中披露了人工智能驅(qū)動系統(tǒng)“可能會走運”的區(qū)域。
Koopman 說,無需標記 PB 數(shù)據(jù)但運行兩次,Hologram 可以通過收集更多數(shù)據(jù)或進行更多培訓(xùn)來提供一個提示,即事情看起來“可疑”,以及“你最好回去再看一遍”的區(qū)域。 .
這當然是全息圖的一個非常簡化的版本,因為該工具本身實際上“帶有許多由大量工程支持的秘密調(diào)味料,”庫普曼說。但是,如果 Hologram 可以告訴用戶“只有好的部分”值得人工審查,那么它可以帶來一種非常有效的方式,從當前鎖定的數(shù)據(jù)中獲取真正的價值。
“機器非常擅長與系統(tǒng)博弈,”Koopman 指出。或者“做'p-hacking'之類的事情。” P-hacking 是一種偏見,當研究人員收集或選擇數(shù)據(jù)或統(tǒng)計分析,直到非顯著結(jié)果變得顯著時,才會出現(xiàn)這種偏見。例如,機器可以在不存在的數(shù)據(jù)中找到相關(guān)性。
開源數(shù)據(jù)集
當被問及這對 Edge Case Research 是否是個好消息時,Koopman 說:“不幸的是,這些數(shù)據(jù)集僅供研究界使用。不用于商業(yè)用途。”
此外,即使您使用這樣的數(shù)據(jù)集來運行 Hologram,您也應(yīng)該使用用于收集數(shù)據(jù)的相同感知引擎,以了解一個人的 AI 系統(tǒng)中的薄弱環(huán)節(jié)。
全息圖的屏幕截圖
下面是一個屏幕截圖,顯示了最新的全息圖商業(yè)版本的工作原理。
全息圖引擎發(fā)現(xiàn)感知系統(tǒng)未能識別此停車標志的實例,并為分析人員提供強大的工具來發(fā)現(xiàn)觸發(fā)條件,例如嘈雜的背景。(來源:邊緣案例研究)
通過添加噪聲,Hologram 會尋找使 AI 系統(tǒng)幾乎錯過停車標志(橙色條)或完全無法識別停車標志(向下紅色條)的觸發(fā)條件。
橙色條通過收集更多數(shù)據(jù)來警告 AI 設(shè)計人員需要重新訓(xùn)練 AL 算法的特定領(lǐng)域。紅條讓 AI 設(shè)計師可以探索和推測觸發(fā)條件:是什么導(dǎo)致 AI 錯過了停車標志?標志是不是離電線桿太近了?是否有嘈雜的背景或沒有足夠的可見對比度?Edge Case Research 的產(chǎn)品經(jīng)理 Eben Myers 解釋說,當積累了足夠多的觸發(fā)條件示例時,就有可能識別出特定的觸發(fā)條件。
Hologram 幫助 AV 設(shè)計人員找到他們的感知軟件表現(xiàn)出奇怪的、潛在的不安全行為的邊緣情況。(來源:邊緣案例研究)
與 Ansys 合作
本周早些時候,Ansys 宣布與 Edge Case Research 達成合作協(xié)議。Ansys 計劃將 Hologram 集成到其仿真軟件中。Ansys 將集成視為設(shè)計“業(yè)界首個用于開發(fā) AV 的整體仿真工具鏈”的關(guān)鍵基礎(chǔ)組件。Ansys 正在與 BMW 合作,后者已承諾在 2021 年交付其首款 AV。
ANSYS 和 BMW 為自動駕駛創(chuàng)建仿真工具鏈(來源:Ansys)
— Junko Yoshida,AspenCore Media 全球聯(lián)合主編,EE Times首席國際記者
審核編輯 黃昊宇
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7068瀏覽量
89106 -
人工智能
+關(guān)注
關(guān)注
1791文章
47349瀏覽量
238732 -
AV
+關(guān)注
關(guān)注
2文章
268瀏覽量
44516 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13838瀏覽量
166525
發(fā)布評論請先 登錄
相關(guān)推薦
評論