“市面上現有的AI大模型雖然頭腦逐漸發達,卻無法與物理世界產生交互。”肇觀電子創始人馮歆鵬告訴高工移動機器人,要真正實現交互,還有大量的問題沒有被解決,當前AI只能解決1%不到的問題,還有99%的問題亟待空間智能解決。
空間智能:讓機器理解世界
“人類智能可以簡要歸納為兩大智能,‘語言智能’和‘空間智能’。雖然語言智能備受關注,但空間智能將對 AI 產生巨大影響。”AI教母李飛飛曾在演講中提到:世界是3D 的,空間智能是視覺智能的發展方向。
她認為,人工智能正處于一個激動人心的階段,而空間智能技術使機器能夠與人,以及真實或想象中的三維世界進行互動。
英偉達高級計算機科學家 Jim Fan 也稱,空間智能,是計算機視覺和實體智能體的下一個前沿。
2024年4月份,李飛飛被曝創業——投身純視覺的“空間智能”。
直到2024年12月,其初創公司 World Labs 終于官宣了空間智能模型:僅用一張簡單的圖片就能生成一個3D世界。
值得注意的是,里面所有場景都能在瀏覽器中實時渲染,還能實現可控的相機效果、可調節的模擬景深。
這讓很多人看到了空間智能的希望——能顯著提升游戲、教育等行業的效率和體驗。然而,空間智能的未來遠不止此。
空間智能到底是什么?
按照World Labs 聯合創始人賈斯汀的說法,空間智能是指機器在三維空間和時間中感知、推理和行動的能力。也就是讓機器理解物體和事件在三維空間和時間中的位置,以及世界中的交互如何影響這些三維位置,從而完成感知、推理、生成、交互等任務,真正將機器從大型機或數據中心中解放出來,讓它進入現實世界,并理解這個豐富多彩的三維、四維世界。
簡單來說,就是讓機器能像人類一樣,能夠理解世界,擁有復雜的視覺感知推理能力。
這很難,僅靠純視覺+AI 真的能完成嗎?
肇觀電子:成為端側英偉達
肇觀電子創始人馮歆鵬給出了答案:要讓智能設備看得懂世界,首先得看得見世界和看得清楚世界。
對于智能設備來說,世界反饋的信息是爆炸式的,要理解一張圖片或者一段視頻,背后的算力需求極其龐大,因此芯片異常重要。
作為前AMD芯片研發總監,馮歆鵬主導和參與設計了50余款數千萬量級的頂尖CPU和GPU芯片。他清楚傳統的CPU、GPU芯片面對海量的像素信息無法高效滿足實時處理需求,因此,選擇了研發VPU芯片,即視覺處理器。
它區別于傳統芯片,可以實時處理端側數據、聚焦光子到比特的問題,從大量信息中提取有價值的少量信息,專門解決像素爆炸的痛點。
讓智能設備通過“光電轉換的Sensor+VPU” 的硅基系統看世界,就像人通過“視網膜+大腦的視神經皮層” 的碳基系統看世界一樣,智能設備也能理解物理世界中的關鍵信息。
“AI 其實是模擬人的代碼。人的大腦分為兩部分思維方式,一部分是想象,即從少量信息生成多量信息這個過程,在AI里對應GPU;另一部分是從大量信息中抽取少量信息,這部分對應VPU。也就是說,VPU+GPU共同構成AI。”
馮歆鵬接著說道,目前做GPU的企業像英偉達已經跑出了近4萬億美金的市值,而視覺作為智能的基礎,重要性更高,可以說,解決視覺問題就是解決一半的人工智能問題。
“將來VPU市場一定會誕生萬億美元的公司,這是一條值得耕耘百年甚至更久的賽道。”馮歆鵬表示,肇觀電子的目標,是成為“端側的英偉達”。
五大技術助力空間智能實現
肇觀電子成立于2016年,專注于人工智能計算機視覺處理芯片設計和終端應用,是空間智能的核心供應商。
“市面上現有的AI大模型雖然頭腦逐漸發達,卻無法與物理世界產生交互。”馮歆鵬告訴高工移動機器人,要真正實現交互,還有大量的問題沒有被解決,當前 AI 只能解決1%不到的問題,還有99%的問題亟待空間智能解決。
在不斷助力空間智能實現的路上,肇觀電子已有所成就。
針對像素處理的效率問題、算力帶來的能源問題、低延時的必要性以及VPU和GPU的互補性等,肇觀電子堅持給每一代產品應用五大底層技術——成像、3D、AI、VSLAM加速以及SoC,幫助智能設備感知真實世界。
成像
芯片自帶ISP圖像處理,可以解決強光、弱光和逆光等各種特殊光照條件下的成像問題,HDR與極暗光照成像效果業界領先;并且精調80多種sensor,適配性強。
3D
3D幾何計算引擎設計領先,利用空間和時間相關性信息計算輸出高精度深度圖,反過來推算出自身在空間環境中的位置,和其他物體進行互動。
AI
支持包括Transformer在內的各類神經網絡模型,支持INT8并同時支持 FP16 ,硬件引擎利用率業界領先。
VSLAM
VSLAM-lib可實現視覺實時三維重建加速,和定位及構圖硬件加速,使得設備能夠在三維空間中精準定位和空間建模。
SoC
采用SoC單芯片方案,高度集成上述多種能力,單顆芯片集成了30個小芯片,具備性能高、功耗低、成本低、系統復雜度低的特點。并且接口豐富,軟件完全自主可控,支持客戶靈活開發。
基于這五大底層技術,肇觀電子目前已成功發布具備先進視覺處理能力的V系列、D系列、N系列芯片及模組,廣泛應用于輔助駕駛、工業和機器人等領域。
在泛機器人領域,肇觀電子的產品廣泛應用于工業機器人、服務機器人、割草機器人、無人機以及人形機器人,是多家移動機器人頭部企業的合作商。
其代表產品費曼系列相機,基于自主研發的NE-D163A 主控SoC人工智能視覺芯片,籍由NE-D163A 強大的ISP、DSP、CNN 和 Depth 處理能力,能夠提供主動雙目立體視覺感知能力,在室內外各種場景,均能生成高幀率和高精度的深度圖,同時支持端側實時智能AI算法的部署。
下圖為費曼相機的真實成像,馮歆鵬介紹道,跟Intel RealSense 相比,費曼相機生成的深度圖噪點更少,而且擁有AI加持。
目前,費曼系列相機已經被廣泛使用在AGV/AMR、機械臂、各類移動機器人、無人機、工業檢測等生產的各個場景,累計出貨5萬套以上并快速增長。
最后
雖然目前離李飛飛所言的空間智能還有一定距離,但其基本技術——純視覺的落地應用已有廣泛布局。
像特斯拉就是純視覺堅定的支持者;近年來大興的人形機器人因著數據收集及學習的需要,應用的技術也大多是純視覺;多家移動機器人及汽車廠商也應用了純視覺技術。
高工機器人產業研究所(GGII)數據顯示,2023年中國機器視覺市場規模185.12億元(該數據未包含自動化集成設備規模),同比增長8.49%。
相信未來技術成熟之時,空間智能定能如馮歆鵬預測那般,成長為萬億美元市場。
—END—
-
計算機
+關注
關注
19文章
7525瀏覽量
88319 -
AI
+關注
關注
87文章
31294瀏覽量
269645 -
人工智能
+關注
關注
1792文章
47514瀏覽量
239231
原文標題:空間智能,視覺智能的下一個前沿
文章出處:【微信號:gaogongrobot,微信公眾號:高工機器人】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論