今年1月初,瑞典初創公司Terranet宣布斬獲了來自汽車產業巨頭戴姆勒梅賽德斯奔馳的Voxelflow原型采購訂單,訂單價值31000歐元。這筆采購訂單是Terranet和戴姆勒于2020年10月簽署的諒解備忘錄(MoU)的延續,雙方的諒解備忘錄涉及ADAS和防撞解決方案的原型驗證、產品開發和產業化。下一步是將VoxelFlow集成到奔馳的測試車輛中。
實際Terranet的核心是基于事件的圖像傳感器(Event-based Camera Sensor,或Event-driven Camera Sensor,下文簡稱事件相機)。事件相機主要有兩種,DVS(Dynamic Vision Sensor)以及DAVIS(Dynamic and ActivePixel Vision Sensor)。DVS是普通的事件相機,而DAVIS就是在回傳事件的同時還可以回傳灰度圖。
事件相機的靈感來自人眼和動物的視覺,也有人稱之為硅視網膜。生物的視覺只針對有變化的區域才敏感,比如眼前突然掉下來一個物體,那么人眼會忽視背景,會將注意力集中在這個物體上,事件相機就是捕捉事件的產生或者說變化的產生。在傳統的視覺領域,相機傳回的信息是同步的,所謂同步,就是在某一時刻t,相機會進行曝光,把這一時刻所有的像素填在一個矩陣里回傳,一張照片就誕生了。一張照片上所有的像素都對應著同一時刻。
至于視頻,不過是很多幀的圖片,相鄰圖片間的時間間隔可大可小,這便是我們常說的幀率(frame rate),也稱為時延(time latency)。事件相機類似于人類的大腦和眼睛,跳過不相關的背景,直接感知一個場景的核心,創建純事件而非數據。
實際上自動駕駛領域99%的視覺數據在AI處理中是無用的背景。這就好像檢測鬼探頭,變化的區域是很小一部分,但傳統的視覺處理仍然要處理99%的沒有出現變化的背景區域,這不僅浪費了大量的算力,也浪費了時間。亦或者像在沙礫里有顆鉆石,AI芯片和傳統相機需要識別每一顆沙粒,篩選出鉆石,但人類只需要看一眼就能檢測到鉆石,AI芯片和傳統相機耗費的時間是人類的100倍或1000倍。
事件相機的工作機制是,當某個像素所處位置的亮度發生變化達到一定閾值時,相機就會回傳一個上述格式的事件,其中前兩項為事件的像素坐標,第三項為事件發生的時間戳,最后一項取值為極性(polarity)0、1(或者-1、1),代表亮度是由低到高還是由高到低,也常被稱作Positive or Negative Event,又被稱作On or Off Event。
就這樣,在整個相機視野內,只要有一個像素值變化,就會回傳一個事件,這些所有的事件都是異步發生的(再小的時間間隔也不可能完全同時),所以事件的時間戳均不相同,由于回傳簡單,所以和傳統相機相比,它具有低時延的特性,可以捕獲很短時間間隔內的像素變化。延遲是微秒級的。
除了冗余信息減少和幾乎沒有延遲的優點外,事件相機的優點還有由于低時延,在拍攝高速物體時傳統相機會發生模糊(由于會有一段曝光時間),而事件相機幾乎不會。再就是真正的高動態范圍,由于事件相機的特質,在光強較強或較弱的環境下(高曝光和低曝光),傳統相機均會“失明”,但像素變化仍然存在,所以事件相機仍能看清眼前的東西。
傳統相機
事件相機
傳統相機的動態范圍是無法做寬的,因為放大器會有線性范圍,照顧了低照度就無法適應強光,反過來適應了強光就無法顧及低照度。 事件相機在目標追蹤、動作識別等領域具備壓倒性優勢,尤其適合自動駕駛領域。 空中一個球的軌跡
扔一個球,看看兩種相機的軌跡記錄
傳統相機的幀記錄
事件相機的軌跡記錄
事件相機的出現對高算力AI芯片是致命打擊,它只需要傳統高算力AI芯片1%甚至0.1%的算力就可完美工作,功耗是毫瓦級。并且它是基于流水線時間戳方式處理數據,而不是一幀幀地平面處理各個像素。傳統卷積算法可能無用,AI芯片最擅長的乘積累加運算可能沒有用武之地。
像特斯拉目前最頂配的FSD,8個攝像頭的分辨率只有130萬像素,就已經需要144TOPS的算力,而目前英偉達的自動駕駛試驗車型用的攝像頭已經是800萬像素,因此1000TOPS的算力是必須的,如此大的算力不僅帶來高成本,還有高熱量。除非能挖礦,否則是太浪費了。即便如此,高算力和安全也沒有關系,攝像頭的幀率一般是30Hz,注定了至少有33毫秒的延遲,這個哪怕你的算力達到1億TOPS也于事無補。
為了準確檢測行人并預測其路徑,需要多幀處理,至少是10幀,也就是330毫秒。這意味著相關系統可能需要數百毫秒才能實現有效探測,而對于一輛以60公里每小時行進中的車輛來說,330毫秒的時間就能行駛5.61米。
而事件相機理論上不超過1毫秒。 視頻即靜止圖像序列,計算機視覺一直朝著“視頻攝像頭+計算機+算法=機器視覺”的主流方向,卻很少人質疑用圖像序列(視頻)表達視覺信息的合理性,更少人質疑是否憑借該計算機視覺算法就能實現真正機器視覺。人類視覺系統具有低冗余、低功耗、高動態及魯棒性強等優勢,可以高效地自適應處理動態與靜態信息,且具有極強地小樣本泛化能力和全面的復雜場景感知能力。
1990 年Mead 首次在《Proceedings of IEEE》上提出神經形態(Neuromorphic)的概念,利用大規模集成電路來模擬生物神經系統。1991 年 Mahowald 和Mead在《Scientific American》的封面刊登了一只運動的貓,標志了第一款硅視網膜的誕生,其模擬了視網膜上視錐細胞、水平細胞以及雙極細胞的生物功能,正式點燃了神經形態視覺傳感器這一新興領域。
Mahowald解釋稱,“模仿人類視網膜,這種‘硅視網膜’通過從圖像中減去平均強度水平,只報告空間和時間變化,從而減少了帶寬?!?993 年 Mahowald團隊為了解決集成電路的稠密三維連線的問題,提出了一種新型的集成電路通信協議,即地址事件協議(Address-Event Representation, AER ),實現了事件的異步讀出。2003年Culurciello 等人設計了一種 AER 方式的積分發放的脈沖模型,將像素光強編碼為頻率或脈沖間隔,稱為章魚視網膜(Octopus Retina)。2005年 Delbruck 團隊研制出動態視覺傳感器(Dynamic Vision Sensor, DVS),以時空異步稀疏的事件表示像素光強變化,其商業化具有里程牌的意義。
然而,DVS無法捕捉自然場景的精細紋理圖像。2008 年 Posh 等人提出了一種基于異步視覺的圖像傳感器(Asynchronous Time-based Image Sensor, ATIS),引入了基于事件觸發的光強測量電路來重構變化處的像素灰度。
分型視覺采樣
硅視網膜這種靈感推動了動態視覺傳感器背后的概念,使蘇黎世聯邦理工學院成為該技術的創新中心,并孕育了像Prophesee、Insightness等無數初創企業。瑞士創新公司iniVation也是其中之一
。百度則資助了CelePixel,后來韋爾股份收購了Celepixel。還有中科創星和聯想創投聯合投資的銳思智芯。 目前主要是索尼和三星在激烈競爭。初創公司不得不和這些傳感器巨頭合作,如Prophesee和索尼,iniVation和三星。
2019年12月,索尼悄悄收購了總部位于蘇黎世的Insightness公司。三星為其移動和平板電腦應用的動態視覺傳感器(Dynamic Vision Sensor, DVS)技術提交了商標申請。 Prophesee和索尼是目前最接近商業化的。2020年2月,總部位于巴黎的Prophesee公司在完成2800萬美元額外融資后不久,和索尼一起在美國舊金山舉行的國際固態電路會議(International Solid-State Circuits Conference)上聯合發布了這個130萬像素的事件相機圖像傳感器。
新款基于事件的圖像傳感器分辨率為1280 x 720像素,填充系數為77%,300MEPS版本的功耗為73mW。當基于幀的圖像傳感器根據幀速率以固定的間隔輸出整幅圖像時,基于事件的圖像傳感器使用“行選擇仲裁電路”異步選擇像素數據。通過在亮度發生變化的像素地址中添加1μs精度的時間信息,以確保具有高時間分辨率的事件數據讀出。通過有效壓縮事件數據,即每個事件的亮度變化極性、時間和x/y坐標信息,實現了1.066Geps的高輸出事件發生率。
事件相機圖像傳感器并不復雜,每個像素都包含一個檢測亮度變化的電路。
理念非常簡潔,但是要商業化就要注意控制成本,對芯片來說,面積越大意味著成本越高,檢測亮度變化的電路增加了面積,這意味著事件相機的像素會隨著分辨率的增加而成本大增。索尼的BSI技術是關鍵,將背照式CMOS圖像傳感器部分(頂部芯片)和邏輯電路(底部芯片)堆疊時,通過連接的銅焊盤提供電連續性的技術。
與硅通孔(Through Silicon Via, TSV)布線相比,通過在像素區域周圍穿透電極來實現連接,與之相比,此方法在設計上具有更大的自由度,提高了生產率,縮小了尺寸并提高了性能。索尼于2016年12月在舊金山舉行的國際電子設備會議(IEDM)上宣布了這項技術。也靠這項技術穩居圖像傳感器霸主位置。
通過在像素芯片(頂部)只放置背光像素和N型MOS晶體管的一部分,將光孔進光率提高到77%,從而實現業界最高的124dB HDR性能(或更高)。索尼在CMOS圖像傳感器開發過程中經年累積的高靈敏度/低噪聲技術使得事件檢測能在微光條件下(40mlx)進行。像素芯片(頂部)和邏輯芯片(底部)結合信號處理電路,檢測亮度變化基于異步增量調制法分別排列。兩個單獨芯片的每個像素都使用Cu-Cu連接以堆疊配置進行電連接。除了業界較小的4.86μm像素尺寸,該傳感器通過采用精細的40nm邏輯工藝實現高密度集成,為1/2英寸,1280x720高清分辨率。
事件相機仍然無法取代激光雷達或雙目系統,因為它無法提供深度信息,因此事件相機必須配合激光雷達才能實現完美的3D感知。這就回到了文章開頭,Terranet的秘密武器就是事件相機,Terranet用事件相機增強激光雷達的性能,這就是Terranet開發的所謂VoxelFlow,Terranet認為現在很多環境感知系統所使用的攝像頭和傳感器并不比蘋果iPhone的標準配置強多少,而iPhone的FaceID每幀也只能產生33000個光點。
Terranet公司目前正在開發的基于事件的傳感技術VoxelFlow,能夠憑借很低的算力,以極低的延時對動態移動物體進行分類。VoxelFlow技術每秒可以生成1000萬個3D點云,提供沒有運動模糊的快速邊緣檢測?;谑录膫鞲衅鞯某脱訒r性能,能夠確保車輛及時應對“鬼探頭”問題,采取緊急制動、加速或繞過突然出現在車輛后方的物體以避免碰撞事故。Voxelflow是一種新型的計算機視覺解決方案,它由三個基于事件的攝像頭和一個激光掃描儀組成。Voxelflow用主動照明技術通過3D三角測量,創建帶時間戳的點云(x、y、z)光柵圖像。
現在的AI本質上還是一種蠻力計算,依靠海量數據和海量算力,對數據集和算力的需求不斷增加,這顯然離初衷越來越遠,文明的每一次進步都帶來效率的極大提高,唯有效率的提高才是進步,而依賴海量數據和海量算力的AI則完全相反,效率越來越低,事件相機才是正確的方向。
編輯:jq
-
芯片
+關注
關注
456文章
50892瀏覽量
424324 -
AI
+關注
關注
87文章
31000瀏覽量
269333 -
自動駕駛
+關注
關注
784文章
13839瀏覽量
166551
原文標題:自動駕駛感知領域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論