“通用人工智能將打造智能汽車的‘智慧飛輪’,讓人、車和模型之間產生更多有效交互,打通三者之間的互動閉環,讓AI更精準地理解人的需求,帶來更好的駕乘體驗?!?商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛在2023中國電動汽車百人會智能汽車論壇上說。
上周,由中國電動汽車百人會主辦,清華大學、中國汽車工程學會、中國汽車工業協會、中國汽車技術研究中心、中國汽車工程研究院協辦的2023中國電動汽車百人會論壇在北京成功舉辦。 商湯科技聯合創始人王曉剛教授受邀出席會議,并發表《通用人工智能下的智能汽車》主旨演講,為人們描繪了通用人工智能(AGI)賦能人機共智的美好未來。
以下為王曉剛教授演講內容梳理。
通用人工智能引發新一輪范式革新
新年伊始,ChatGPT 、GPT-4 掀起了通用人工智能的熱潮,這是一場新的技術革命。 非常有幸與大家一起探討通用人工智能和多模態大模型為智能汽車帶來的機遇和挑戰。
2022年以來,新的通用人工智能開始以更加高效的方式解決海量的開放式任務。 它更加接近人的智能,而且能夠產生有智慧的內容,也帶來了新的研究范式——基于一個非常強大的多模態基模型,通過強化學習和人的反饋,不斷解鎖模型的新能力。
那么,什么是通用人工智能? 它與現有的人工智能系統有哪些區別?
其實,現有的人工智能系統也能夠接收多模態數據,但輸出的任務都是事先定義好的,若為系統增加一個新任務,就要對其進行重新設計,還要采集大量樣本。
而在通用人工智能時代,人們通過輸入提示詞和多模態內容,便可生成多模態數據。 更重要的是,它可以用自然語言方式生成任務描述,以非常靈活的方式應對大量長尾問題和開放性任務,甚至是一些主觀的描述。
比如,在做一些特定場景的檢索任務時,一個現有的人工智能系統可能有幾十個標簽。 商湯做過實驗,如果用自然語言描述可能會有1萬多個詞,通過它們的組合去描述各種任務,實際上是非常強大且靈活的。
舉個例子,給定一張自動駕駛場景中的圖片,判斷是否需要減速。 通過現有的 AI系統,首先要做物體檢測,然后在物體框里做文字識別,最后做決策,整個過程每一個模塊都是事先定義好的任務。
而在通用人工智能技術下,給定圖像,人們只需用自然語言去問圖像問題,比如“這個圖標是什么意思? ”“接下來應該做什么?” 模型本身不會發生變化,輸出端通過自然語言的方式給出一系列邏輯推理,最后得出結論。 比如,它會告訴你“限速30公里”“前面100米是學校的區域”“有小孩”“應該小心駕駛”“需將車速降到30公里以下”等操作。
可以看到,這都是一些開放式的新任務,可以對人工智能系統帶來非常大的變革。
從“數據飛輪”到“智慧飛輪
通用人工智能還有非常強的一點,它能夠產生內容,而且是有智慧的內容。
自動駕駛/智能汽車領域有“數據飛輪”說法,即模型能夠加持終端,采取高質量的數據對模型進行更新,然后再從終端提升數據的量和質。
通用人工智能時代則會產生“智慧飛輪”,人和模型之間可以產生互動。 當人們為模型輸入Align With Human Intention時,雖然模型很強大,但它并不知道人們需要什么樣的能力,不過通過人的反饋,它就能更好地理解人需要它展示什么樣的能力而去解鎖更多的技能,同時模型為人輸出有智慧的內容,從而激發人們更多的創作智慧,隨后又會產生新的“智慧飛輪”。
值得一提的是,AGI對算力的需求非常大。 ChatGPT具備1750億參數, 需要3000~5000張A100訓練卡,一次訓練的成本上千萬美金。 直到今天,它的推理成本每天也高達幾百萬美金。
2021年,商湯提前布局,在上海臨港建立了人工智能計算中心(AIDC)。 作為SenseCore商湯 AI大裝置的算力基座,AIDC基于2.7萬塊GPU的并行計算系統實現了5.0 exaFLOPS的算力輸出,可支持最多20個千億參數量超大模型(以千卡并行)同時訓練。
從2019年開始,商湯從10億參數的視覺模型研發,到今天有320億參數全球最大規模的通用視覺模型。 在NLP領域,商湯當前也有接近2000億參數的大模型,有能力去訓練1800億參數的多模態大模型。 所以,未來通用人工智能基于多模態的基模型可以做視覺感知、語言理解、內容生成和推理決策。
通用人工智能賦能絕影駕、艙、云三位一體產品體系
商湯絕影是商湯旗下的智能汽車業務板塊,堅持駕、艙、云三位一體的發展策略,希望通過駕艙融合帶來更好的駕乘體驗。
商湯AI云能夠為自動駕駛提供數據閉環服務,能夠使智能座艙成為第三生活空間。 同時,AI云也為通用人工智能賦能智能駕駛和智能座艙奠定了非常強大的基礎。
在自動駕駛領域,BEV是當前主流的技術路線,未來可以朝著多模態、通用智能的方向發展。
通過AIGC可生成困難樣本,在模型中輸入多模態數據,同時自動駕駛多模態大模型可以做到感知和決策一體化。 在輸出端,通過環境解碼器可對3D環境進行重建,實現環境的可視化理解; 行為解碼可生成完整的路徑規劃; 同時,動機解碼器可以用自然語言描述推理的過程,進而使自動駕駛系統變得可以解釋。
商湯基于多模態大模型,可做到數據的感知閉環和決策閉環。 從前端自動采集高質量的數據,到利用大模型進行自動化的數據標注和產品檢測,能夠幾百倍地提升模型迭代的效率并降低成本。
在智能座艙板塊,通用人工智能可以使基模型具備對空間環境理解、用戶狀態感知、多模態指令解析及多輪邏輯對話、內容生成等一系列能力,進而賦能包括情緒感知、智能助手、基于情感的對話、創意內容生成、個性交互等一系列功能,不斷地提升座艙的個性化體驗。
同時,應用場景也可以從上車、行車、停車、離車,進而拓展到娛樂、辦公、購物、休息等等。
實際上,智能汽車是通用人工智能實現閉環的一個理想場景,人類已經可以做到人機共駕。 未來,車和模型之間能夠產生更有效的互動,從而完成從人到車、到模型的互動閉環,通用人工智能可為人們提供更好的駕乘體驗,解鎖無限的想象空間。
商湯愿與客戶及合作伙伴共同邁向通用人工智能時代!
審核編輯:湯梓紅
-
人工智能
+關注
關注
1800文章
48083瀏覽量
242163 -
智能汽車
+關注
關注
30文章
2929瀏覽量
107774 -
商湯科技
+關注
關注
8文章
527瀏覽量
36318
原文標題:商湯絕影智能汽車事業群總裁王曉剛:通用人工智能下的智能汽車
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
嵌入式和人工智能究竟是什么關系?
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
risc-v在人工智能圖像處理應用前景分析
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新
報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI
FPGA在人工智能中的應用有哪些?
大模型應用之路:從提示詞到通用人工智能(AGI)

評論