電子發燒友網報道(文/吳子鵬)前有AI落地難,如今AI大模型的落地也遇到了一些挑戰。雖然各大企業推出了非常多的行業垂直大模型,不過這些模型基本上還是基于云端去實現。在終端,目前AI智能手機和AI PC是最熱門的兩大應用。
我們簡單看一下AI智能手機行業,已經有數家廠商推出了配置在手機端的大模型。以vivo的藍心大模型為例,可以通過抓取屏幕中的內容,智能且直接地完成日程添加的操作,使用戶體驗更為便捷。還有榮耀MagicOS 8,大模型讓榮耀手機能夠捕獲用戶的意圖。在AI PC方面,道理大抵是相通的。
那么,除了原本就比較智能且出貨量較大的智能手機和PC之外,AI大模型還有什么終端方向值得去探索呢?OpenAI 給出的答案是機器人。
把ChatGPT裝進機器人的大腦
近日,機器人初創公司Figure發布了自己第一個OpenAI大模型加持的機器人demo。視頻內容顯示,當一個1.7米左右的機器人被植入GPT大模型之后,智能化水平顯著提升,不僅能夠和人類無違和對話,而且也具有非常強的動手能力。
根據demo內容,這個搭載GPT的機器人能夠非常準確地描述自己所見的內容,比如面前的蘋果和杯子,以及演示人員手部的動作。并且,當演示人員讓這個機器人遞些吃的東西過去時,它能夠在幾乎不需要反應時間的情況下將蘋果遞給演示人員。這個demo顯示出,搭載GPT的機器人已經具有非常高的“意識自主性”,雖然有些對話需要時間反應,不過他最終都能夠做出正確的舉措。
據悉,機器人初創公司Figure擁有一個豪華的技術團隊,創始人Adcock重金從波士頓動力、特斯拉、谷歌等公司挖了大量的人才。再加上有了GPT的加持,Figure 01機器人可以自主做計劃、執行任務、有記憶、聽懂人話,離具身智能的程度更近一步。
上一個引起行業廣泛關注的機器人是VIMA(Vision-and-Language Navigation with Multi-Modal Transformers)。VIMA由李飛飛教授及來自斯坦福大學、加州理工、清華大學和英偉達的幾位學者組成的團隊聯合打造,是一個使用多模態提示執行各類任務的機械體操作系統。根據介紹,VIMA是一個帶有機械臂的LLM,可以接受多模態提示詞,單個的文本、圖像、視頻或這些信息的結合。
太平洋證券曾在研報中指出,雖然當前人形機器人的智能AI系統還不夠成熟,但當前ChatGPT的出現已展現了生成式AI具備較強理解和生成對話能力,結合OpenAI投資人形機器人賽道,以及特斯拉等巨頭的入局,看好未來人形機器人更快商業化落地。
無疑,Figure 01機器人展示出當下具身智能機器人的最新進展。具身智能機器人要求機器人能夠像人類一樣與環境交互、感知、規劃、決策、行動、執行任務。英偉達創始人黃仁勛在 ITF World 2023 半導體大會上就大談特談具身智能。他認為,具身智能是能理解、推理、并與物理世界互動的智能系統,是人工智能的下一個浪潮。
相信隨著AI大模型技術越來越成熟,這種大模型和機器人的融合會更加成熟,到時候機器人可能會無縫融入人類社會。
大模型融入機器人的挑戰
不過,憧憬是美好的,過程總是很艱辛。針對AI大模型和機器人的融合,當前還有很多困難需要克服,就像Figure 01機器人一樣,它還有很多細節問題無法很平滑地處理。
在2023年底舉辦的中國信通院人工智能論壇上,很多專家就談到了AI大模型的終端落地難題,其中一些問題實際上也是適用于機器人行業的。
比如,第一個是算力和存儲問題,當AI大模型在云端訓練時,相對算力還是比較充沛的,不過當部署到終端的時候,模型受限于算力和存儲能力的顯著下降就需要做瘦身。這就牽連出第二個問題,由于實際應用經驗嚴重匱乏,目前大部分AI大模型的瘦身都是“拍腦袋式”的,這也是為什么Figure 01機器人在一些問題上應對非常好,在一些問題上卻需要很久的推理思考。因此,在硬件問題上,成本就會是個大麻煩,成本太低的話,AI大模型受影響就會非常嚴重,成本太高的話就無法廣泛普及。
第二個是數據的問題,以機器人來說,最終落地到終端會有比較明確的場景。然而,就需要利用這類場景數據對AI大模型進行二次訓練,如何對這些數據進行高質量清洗,另外如何微調數據以達到更好的部署效果,這些都是巨大的挑戰,因為有太多經驗空白區。有人會問,竟然要求具身智能,要像人類一樣,那么不是應該具有廣泛的知識嗎?理想形態當然是這樣,甚至是機器人在一些能力上超過人類,但是受限于硬件,短期看這是不現實的。
第三個是仿真和部署的問題。我們都知道,具身智能的機器人需要和物理世界接觸并融入物理世界。這就遇到了一個問題,智能體是基于虛擬仿真環境進行設計的,不過智能體部署之后,現實世界要復雜很多,如何將虛擬世界和物理世界耦合是一個更大的挑戰。這不僅要求智能體模型具有非常好的可擴展性和成長性,還需要一個強大的通用智能本體平臺??赡苡腥艘呀浵氲搅擞布阅苋哂啵贿^考慮到可靠性和成本問題,單純性能冗余明顯是不夠的,特定場景通用走向社會性通用的過程中,硬件平臺架構創新是非常關鍵的。
目前,頭部企業實現AI大模型和機器人融合的方式有一些差異性。微軟公司使用ChatGPT大型語言模型 (LLM) 將人的語言快速轉換為機器人的高層控制代碼,然后轉化為機器人的控制;谷歌PaLM-E模型則是一種視覺路線,能夠觀察物理實體世界的信息,由大模型進行分析理解,再將決策結果反饋至物理世界;特斯拉則是打通FSD和機器人的底層模塊,實現一定的算法復用,特斯拉利用大規模的數據集訓練模型,可以提高算法在復雜環境下的性能,并認為自動駕駛的本質就是機器人。
從結果來看,目前AI大模型+機器人已經實現了一些功能,但是離通用智能和規模部署還有一段路要走。
結語
AI大模型如何在終端落地?這是一個困擾行業的問題,將本身就智能的智能手機和PC升級,這當然是一個路徑。不過,具身智能的機器人會有更大的想象空間,當然這條路道阻且長。
-
機器人
+關注
關注
211文章
28379瀏覽量
206914 -
AI大模型
+關注
關注
0文章
315瀏覽量
305
發布評論請先 登錄
相關推薦
評論