視覺是我們最重要的感官之一。在過去的十年中,受生物啟發(fā)的機(jī)器視覺得到了迅速的發(fā)展,以至于人工系統(tǒng)可以從圖像和視頻中“看到”有價值的信息,盡管人類的視覺仍然有效得多。Mennel等人在《自然》雜志上發(fā)表的文章報道了一種視覺系統(tǒng)的設(shè)計,該視覺系統(tǒng)與大腦一樣,可以訓(xùn)練以納秒為單位對簡單圖像進(jìn)行分類。
現(xiàn)代圖像傳感器,如數(shù)碼相機(jī)中的圖像傳感器,是基于半導(dǎo)體(固態(tài))技術(shù),在20世紀(jì)70年代初發(fā)展起來的;它們分為兩種主要類型,即電荷耦合器件和有源像素傳感器。這些傳感器可以忠實地從環(huán)境中捕獲視覺信息,但會生成大量冗余數(shù)據(jù)。通常將大量的光學(xué)信息轉(zhuǎn)換為數(shù)字電子格式,然后傳遞到計算單元進(jìn)行圖像處理。
在傳感器和處理單元之間產(chǎn)生的大量數(shù)據(jù)移動導(dǎo)致延遲(延遲)和高功耗。隨著成像速度和像素數(shù)量的增長,帶寬限制使得很難將所有信息迅速地發(fā)送回中央或基于云的計算機(jī),以便進(jìn)行實時處理和決策,這對于諸如無人駕駛汽車、機(jī)器人或工業(yè)制造等延遲敏感應(yīng)用尤其重要。
一個更好的解決方案是將一些計算任務(wù)轉(zhuǎn)移到計算機(jī)系統(tǒng)外部邊緣的感知設(shè)備上,減少不必要的數(shù)據(jù)移動。而且,由于傳感器通常會產(chǎn)生模擬(連續(xù)變化)輸出,模擬處理比數(shù)字處理更可取:眾所周知,模擬-數(shù)字轉(zhuǎn)換非常耗時耗力。
為了模仿大腦對信息的有效處理,受到生物學(xué)啟發(fā)的神經(jīng)形態(tài)工程采用了一種計算架構(gòu),該架構(gòu)具有高度互連的元素(神經(jīng)元,通過突觸連接),可以進(jìn)行并行計算(圖1a)。這些人工神經(jīng)網(wǎng)絡(luò)可以通過迭代從周圍的環(huán)境中學(xué)習(xí),例如:學(xué)習(xí)在顯示已知示例后對事物進(jìn)行分類(監(jiān)督學(xué)習(xí)),或從輸入數(shù)據(jù)中識別對象的特征結(jié)構(gòu)而無需額外信息(監(jiān)督學(xué)習(xí))。在學(xué)習(xí)過程中,算法會反復(fù)進(jìn)行預(yù)測,并增強(qiáng)或削弱網(wǎng)絡(luò)中的每個突觸,直到達(dá)到最佳設(shè)置。
圖1 |在視覺傳感器內(nèi)進(jìn)行計算,實現(xiàn)智能,高效的預(yù)處理。a,在傳統(tǒng)的人工智能(AI)視覺傳感器中,從光響應(yīng)傳感器收集信號,將其從模擬形式轉(zhuǎn)換為數(shù)字形式(ADC,模數(shù)轉(zhuǎn)換器),放大后作為輸入提供給外部人工神經(jīng)網(wǎng)絡(luò)(ANN)-互連計算單元(圓圈)的層,可以調(diào)整其連接,從而可以訓(xùn)練網(wǎng)絡(luò)執(zhí)行諸如圖像分類之類的任務(wù)。ANN的輸入層接收編碼簡單物理元素(此處由點和線表示)的信號;在隨后的層中,這些被優(yōu)化為中級特征(簡單形狀);并在輸出層(3D形狀)上形成精細(xì)的圖像。總體響應(yīng)可能很慢且耗能。b,Mennel等人[3]報告了一種系統(tǒng),其中芯片上的互連傳感器(正方形)不僅可以收集信號,而且還可以作為ANN來識別簡單特征,從而減少了傳感器和外部電路之間的冗余數(shù)據(jù)移動。
Mennel和同事直接在他們的圖像傳感器中實現(xiàn)了一個人工神經(jīng)網(wǎng)絡(luò)。在芯片上,他們構(gòu)建了一個光電二極管網(wǎng)絡(luò)——微小的光敏元件,每一個都由幾個鎢二硒化物原子層組成。這種半導(dǎo)體對光的響應(yīng)可以通過改變外加電壓來增加或減少,因此每個二極管的靈敏度可以單獨調(diào)諧。實際上,這將使光傳感器網(wǎng)絡(luò)變成一個神經(jīng)網(wǎng)絡(luò)(圖1b),并允許它執(zhí)行簡單的計算任務(wù)。改變光電二極管的光響應(yīng)度會改變網(wǎng)絡(luò)中的連接強(qiáng)度——突觸重量。因此,該設(shè)備結(jié)合了光學(xué)傳感和神經(jīng)形態(tài)計算。
作者將光電二極管排列成9個像素的正方形陣列,每個像素有3個二極管。當(dāng)圖像投射到芯片上時,產(chǎn)生、組合和讀取各種二極管電流。硬件陣列提供了一種模擬計算形式:每個光電二極管產(chǎn)生一個與入射光強(qiáng)度成比例的輸出電流,根據(jù)基爾霍夫定律(電路中電流的一個基本規(guī)則),所得電流沿行或列求和。
然后訓(xùn)練陣列執(zhí)行任務(wù)。芯片外分析陣列產(chǎn)生的電流與預(yù)測電流(如果陣列對圖像做出正確響應(yīng),對于給定任務(wù),將產(chǎn)生的電流)之間的差異,并用于調(diào)整下一個訓(xùn)練周期的突觸重量。這個學(xué)習(xí)階段占用了時間和計算資源,但是,一旦訓(xùn)練好,芯片就會快速地執(zhí)行設(shè)定的任務(wù)。
使用不同的神經(jīng)網(wǎng)絡(luò)算法,作者證明了兩個神經(jīng)形態(tài)函數(shù)。第一種是分類:他們的3?×?3像素數(shù)組可以將圖像分類為對應(yīng)于三個簡化字母的三個類中的一個,從而以納秒為單位確定它是哪一個字母。這個相對簡單的任務(wù)只是一個概念的證明,如果陣列尺寸增大,可以擴(kuò)展到識別更復(fù)雜的圖像。
第二個功能是自動編碼:即使在存在信號噪聲的情況下,傳感器陣列中的計算也可以通過學(xué)習(xí)圖像的關(guān)鍵特征來生成處理圖像的簡化表示。編碼版本只包含最基本的信息,但可以解碼以重建接近原始的圖像。
這項前沿技術(shù)可以用于實際應(yīng)用之前,還有許多工作要做。用于自動駕駛車輛和機(jī)器人的神經(jīng)形態(tài)視覺系統(tǒng)將需要捕獲具有三個維度并具有廣闊視野的動態(tài)圖像和視頻。當(dāng)前使用的圖像捕獲技術(shù)通常將3D現(xiàn)實世界轉(zhuǎn)換為2D信息,從而丟失運動信息和深度。現(xiàn)有圖像傳感器陣列的平面形狀也限制了廣角相機(jī)的發(fā)展。
作者描述的設(shè)備很難在昏暗的光線下成像。需要重新設(shè)計以改善薄半導(dǎo)體中的光吸收并增加可以檢測到的光強(qiáng)度范圍。此外,所報道的設(shè)計需要高電壓并消耗大量功率。相比之下,在生物神經(jīng)網(wǎng)絡(luò)中,每項操作的能耗為亞飛焦耳級(10-15至10-13焦耳)。擴(kuò)展對紫外線和紅外光的響應(yīng),以捕獲可見光譜中不可用的信息也是有用的。
所使用的薄半導(dǎo)體難以在大面積上均勻地生產(chǎn),并且難以加工,因此它們可以與硅電子器件集成在一起,例如用于讀出或反饋控制的外部電路。使用這些傳感器的設(shè)備的速度和能源效率將不取決于圖像捕獲過程,而是取決于傳感器和外部電路之間的數(shù)據(jù)移動。而且,盡管傳感器計算單元在模擬域中收集和計算數(shù)據(jù),減少了模數(shù)轉(zhuǎn)換,但是外圍電路仍然遭受其他固有延遲的困擾。傳感器和外部電路將需要共同開發(fā),以減少整個系統(tǒng)的等待時間。
Mennel及其同事的“傳感器中計算”系統(tǒng)應(yīng)激發(fā)對人工智能(AI)硬件的進(jìn)一步研究。幾家公司已經(jīng)開發(fā)了基于硅電子產(chǎn)品的AI視覺芯片,但是這些芯片的固有數(shù)字架構(gòu)會導(dǎo)致延遲和電源效率問題。
更廣泛地講,作者的策略不僅限于視覺系統(tǒng)。它可以擴(kuò)展到用于聽覺,觸覺,熱感或嗅覺的其他物理輸入。此類智能系統(tǒng)的開發(fā)以及5G快速無線網(wǎng)絡(luò)的到來,應(yīng)會在將來允許進(jìn)行實時邊緣(低延遲)計算。
原文標(biāo)題:新的視覺系統(tǒng)可以在傳感器內(nèi)計算,無需將信息轉(zhuǎn)換成數(shù)字格式
文章出處:【微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
傳感器
+關(guān)注
關(guān)注
2552文章
51237瀏覽量
754794 -
機(jī)器視覺
+關(guān)注
關(guān)注
162文章
4389瀏覽量
120450
原文標(biāo)題:新的視覺系統(tǒng)可以在傳感器內(nèi)計算,無需將信息轉(zhuǎn)換成數(shù)字格式
文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論