這項技術的創始人之一表示,基于攝像機的計算機視覺技術效率極低,促使人們需要替代解決方案。
計算機視覺是否會再次自我改造?
匹茲堡大學眼科教授、CMU 機器人研究所兼職教授 Ryad Benosman 認為確實如此。作為基于事件的視覺技術的創始人之一,Benosman 預計神經形態視覺——基于基于事件的相機的計算機視覺——是計算機視覺的下一個方向。
“計算機視覺已經被改造了很多很多次,”他說。“我已經看到它至少重新發明了兩次,從零開始,從零開始。”
Ryad Benosman(來源:匹茲堡大學)
Benosman 引用了 1990 年代從帶有一點攝影測量的圖像處理到基于幾何的方法的轉變,然后是今天機器學習的快速變化。盡管發生了這些變化,現代計算機視覺技術仍然主要基于圖像傳感器——產生類似于人眼所見圖像的相機。
根據 Benosman 的說法,在圖像傳感范式不再有用之前,它會阻礙替代技術的創新。這種影響因 GPU 等高性能處理器的發展而延長,延遲了尋找替代解決方案的需要。
“我們為什么將圖像用于計算機視覺?這是一個價值百萬美元的問題,”他說。“我們沒有理由使用圖像,這只是因為歷史的動力。甚至在沒有相機之前,圖像就有動力。”
圖像相機
自公元前五世紀針孔相機出現以來,圖像相機就一直存在到 1500 年代,藝術家們建造了房間大小的設備,用于在畫布上追蹤房間外的人或風景的圖像。多年來,這些畫被替換為膠片來記錄圖像。數碼攝影等創新最終使圖像相機很容易成為現代計算機視覺技術的基礎。
然而,Benosman 認為,基于圖像相機的計算機視覺技術效率極低。他的類比是中世紀城堡的防御系統:位于城墻周圍的守衛向各個方向尋找接近的敵人。鼓手穩定地敲打,每一個鼓點,每個守衛都會大聲喊出他們所看到的。在所有的呼喊聲中,聽到一個守衛在遙遠的森林邊緣發現敵人是多么容易?
21世紀的鼓聲硬件等價物是電子時鐘信號,而守衛是像素——大量數據被創建并且必須在每個時鐘周期進行檢查,這意味著存在大量冗余信息和大量信息。需要不必要的計算。
Prophesee 與索尼合作開發的 DVS 傳感器評估套件。Benosman 是 Prophesee 的聯合創始人(來源:Prophesee)
“人們正在燃燒如此多的能量,它占用了城堡的整個計算能力來保護自己,”貝諾斯曼說。如果發現一個有趣的事件,在這個類比中以敵人為代表,“你必須四處走走收集無用的信息,到處都是人在尖叫,所以帶寬很大……現在想象你有一座復雜的城堡. 所有這些人都必須被聽到。”
進入神經形態視覺。基本思想受到生物系統工作方式的啟發,即檢測場景動態的變化,而不是連續分析整個場景。在我們的城堡類比中,這意味著讓守衛保持安靜,直到他們看到感興趣的東西,然后喊出他們的位置以發出警報。在電子版中,這意味著讓單個像素決定他們是否看到相關的東西。
“像素可以自行決定他們應該發送什么信息,而不是獲取系統信息,他們可以尋找有意義的信息——特征,”他說。“這就是與眾不同的地方。”
與固定頻率的系統采集相比,這種基于事件的方法可以節省大量電力并減少延遲。
“你想要一些更具適應性的東西,這就是[基于事件的視覺]的相對變化給你的東西,一個適應性的采集頻率,”他說。“當你觀察幅度變化時,如果某些東西移動得非常快,我們就會得到很多樣本。如果某些東西沒有改變,你會得到幾乎為零,所以你正在根據場景的動態調整你的采集頻率。這就是它帶來的東西。這就是為什么它是一個好的設計。”
Benosman 于 2000 年進入神經形態視覺領域,他堅信先進的計算機視覺永遠無法發揮作用,因為圖像不是正確的方法。
“最大的轉變是說我們可以在沒有灰度和沒有圖像的情況下進行視覺,這在 2000 年底是異端——完全是異端,”他說。
Benosman 提出的技術——今天基于事件的傳感的基礎——是如此不同,以至于提交給當時最重要的 IEEE 計算機視覺期刊的論文未經審查就被拒絕了。事實上,直到 2008 年動態視覺傳感器 (DVS) 的開發,該技術才開始獲得動力。
神經科學靈感
神經形態技術是受生物系統啟發的技術,包括終極計算機、大腦及其計算元素神經元。問題是沒有人完全理解神經元是如何工作的。雖然我們知道神經元對傳入的稱為尖峰的電信號起作用,但直到最近,研究人員仍將神經元描述為相當草率,認為只有尖峰的數量很重要。這個假設持續了幾十年。最近的研究證明,這些尖峰的時間是絕對關鍵的,并且大腦的結構正在這些尖峰中產生延遲以編碼信息。
今天的尖峰神經網絡模擬大腦中看到的尖峰信號,是真實事物的簡化版本——通常是尖峰的二進制表示。“我收到一個 1,我醒來,我計算,我睡覺,”Benosman 解釋說。現實要復雜得多。當尖峰到來時,神經元開始隨著時間的推移對尖峰的值進行積分;神經元也有泄漏,這意味著結果是動態的。還有大約 50 種不同類型的神經元具有 50 種不同的集成配置文件。今天的電子版本缺少集成的動態路徑、神經元之間的連接以及不同的權重和延遲。
“問題是要制造一個有效的產品,你不能[模仿]所有的復雜性,因為我們不理解它,”他說。“如果我們有好的大腦理論,我們會解決它——問題是我們只是不知道[足夠]。”
今天,Bensoman 經營著一個獨特的實驗室,致力于了解皮層計算背后的數學,旨在創建新的數學模型并將其復制為硅設備。這包括直接監測來自真實視網膜的尖峰。
目前,貝諾斯曼反對忠實地復制生物神經元,稱這種方法過時。
“在硅中復制神經元的想法的產生是因為人們觀察了晶體管并看到了一個看起來像真正神經元的機制,所以一開始它背后有一些想法,”他說。“我們沒有細胞;我們有硅。你需要適應你的計算基板,而不是相反……如果我知道我在計算什么并且我有芯片,我可以優化這個方程式并以最低的成本、最低的功耗、最低的延遲運行它。”
處理能力
意識到沒有必要精確復制神經元,再加上 DVS 相機的發展,是當今神經形態視覺系統背后的驅動力。雖然今天的系統已經上市,但在我們擁有完全類似于人類的視覺可用于商業用途之前,還有很長的路要走。
最初的 DVS 相機具有“大而粗的像素”,因為光電二極管本身周圍的組件大大降低了填充因子。雖然對開發這些攝像機的投資加速了這項技術,但 Benosman 明確表示,今天的事件攝像機只是對早在 2000 年開發的原始研究設備的改進。來自索尼的最先進的 DVS 攝像機,三星和 Omnivision 擁有微小的像素,融合了 3D 堆疊等先進技術并降低了噪點。Benosman 擔心的是今天使用的傳感器類型能否成功擴大規模。
“問題是,一旦你增加像素數量,你就會得到大量數據,因為你的速度仍然非常快,”他說。“你可能仍然可以實時處理它,但是你會從太多的像素中得到太多的相對變化。這現在正在殺死所有人,因為他們看到了潛力,但他們沒有合適的處理器來支持它。”
通用神經形態處理器落后于 DVS 相機對應物。一些業內最大的參與者(IBM Truenorth、英特爾 Loihi)的努力仍在進行中。Benosman 表示,正確的處理器和正確的傳感器將是無與倫比的組合。
“[今天的 DVS] 傳感器速度極快,帶寬超低,動態范圍大,因此您可以在室內和室外看到,”Benosman 說。“這是未來。它會起飛嗎?絕對地!”
“誰能把處理器放在那里并提供完整的堆棧,誰就贏了,因為它將是無與倫比的,”他補充道。
審核編輯 黃昊宇
-
傳感器
+關注
關注
2550文章
51035瀏覽量
753077 -
DVS
+關注
關注
0文章
18瀏覽量
9622 -
神經
+關注
關注
0文章
46瀏覽量
12518 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45976
發布評論請先 登錄
相關推薦
評論