作者簡介: Dr. Luo,東南大學工學博士,英國布里斯托大學博士后,是復睿微電子英國研發中心GRUK首席AI科學家,常駐英國劍橋。Dr. Luo長期從事科學研究和機器視覺先進產品開發,曾在某500強ICT企業擔任機器視覺首席科學家。
元宇宙是人類社會網絡化和虛擬化,通過對實體對象對應生成數字”智能體”來構建一個人機共存的新社會形態。元宇宙零距離社會里的社會計算,是一種數據行為的社會計算和人機交互的社交計算。
對于生成式AI行業,我們也許可以將其核心演進趨勢定義為人機智能的社交計算,簡單表述為通過完成類似通用的問題答問Q&A系統任務,以及特定內容的高清圖像生成,來促進各行業轉型升級,尤其是數字內容生產,人機交互與問答(聊天,教育和金融服務,醫療診療,自動駕駛等)行業,從而進一步打通元宇宙中真實世界與虛擬世界的社交溝通能力。 ? 對于自動駕駛ADS行業,我們也許可以將其核心演進趨勢定義為群體智能的社會計算,簡單表述為,用GPU/NPU大算力和去中心化計算來虛擬化駕駛環境,通過數字化智能體(自動駕駛車輛AV)的多模感知交互(社交)決策,以及車車協同,車路協同,車云協同,通過跨模數據融合、高清地圖重建、云端遠程智駕等可信計算來構建元宇宙中ADS的社會計算能力。
生成式AI
生成式AI大模型,包括近兩年推出的ChatGPT和Stable Diffusion,能夠比較滿意地完成類似通用的問題答問Q&A系統任務,以及特定內容的高清圖像生成。對各個行業來說,呈現著一定程度的顛覆性意義和充滿未來想象的商業空間,可以促進各行業轉型升級,尤其是數字內容生產,人機交互與問答(聊天,教育和金融服務,醫療診療,自動駕駛等)行業。 ?
圖1:?生成式大模型發布時間軸(G-Brizuela, 2023)
如圖1所示,2021-2022年,我們很幸運地迎來了DNN大模型的一輪大爆炸,即所謂的生成式AI(AIGC)浪潮。在演進中的生成式AI大模型包括:
Text-to-Texts:ChatGPT3, PEER, LaMDA, Speech From Brain
Text-to-Image: Starry A.I.(GAN-based), DALLE-2 (Diffusion-based), Stable Diffusion,Muse, Imagen
Text-to-3D-Image: Dreamfusion, Majic3D
Image-to-Text: Flamingo, VisualGPT
Text-to-Video: Phenaki, Soundify
Text-to-Audio: AudioLM, Jukebox, Whisper
Text-to-Code: Codex, Alphacode
Text-to-Scientific: Galactica, AlphaTensor, Mineva, GATO
上述的主流生成式AI大模型,如果從開發到最終擁有關系角度,可以簡單分類如下:
OpenAI: DALLE-2, ChatGPT3, Jukebox, Whisper
Google: Imagen, DreamFusion, Minerva, LaMDA, Muse, Phenaki, AudioLM
DeepMind: Flamingo, AlphaTensor, AlphaCode, GATO
Meta AI: PEER, Galctica, Speech From Brian
Runway: Stable Diffusion, Soundify
nVidia: Magic3D
從上述幾個生成式AI大模型的能力對比分析(G-Brizuela, 2023),以及圖2中ChatGPT在不同場景的邏輯錯誤對比,我們也許可以簡單總結以下:
創造性任務:Text-to-Text, Text-to-Image, Text-to-Video
???準確率仍然遠低于預期,有待成熟完善。
個性化任務:Text-to-Audio
???有限數據集問題,大規模參數訓練困難,有待成熟完善。
科學類任務:Text-to-Science, Text-to-code
???有限數據集問題,大規模參數訓練困難,準確率低于預期。
圖2: ChatGPT在不同場景下的邏輯錯誤對比
ChatGPT
ChatGPT(Generative Pre-trained Transformer)是OpenAI開發的一款生成式AI模型,它結合了監督學習和強化學習方法,通過對話的方式來進行交互:依據用戶的文本輸入來做多種語言的智能回復,簡文或者長文模式,其中可以包括不同類型的問題答復,翻譯,評論,行業分析,代碼生成與修改,以及撰寫各類計劃書與命題書籍等等。各類生成式AI模型也可以聯合調用來提供豐富的人機對話的能力。生成式AI模型多需要海量的參數,來完成復雜的特征學習和記憶推理,例如ChatGPT模型參數為1750億。
圖3:?ChatGPT模型的訓練流程(G-Brizuela, 2023)
如圖3所示,ChatGPT模型結合了監督學習和強化學習方法,采用了基于人類反饋的強化學習RLHF訓練方法,與此同時采用了遷移學習(或者叫自監督學習)的訓練方法,即通過預訓練方式加上人工監督進行調優(近端策略優化PPO算法)。RLHF訓練方法確實可以通過輸出的調節,對結果進行更有理解性的排序,這種激勵反饋的機制,可以有效提升訓練速度和性能。在實際對話過程中,如果給出答案不對(這是目前最讓人質疑的地方,可能會錯誤地引導使用者),可以通過反饋和連續談話中對上下文的理解,主動承認錯誤,通過優化來調整輸出結果。給出錯誤問答的其中一個主要原因是缺乏對應的訓練數據,有意思的是,雖然缺乏該領域的常識知識和推廣能力,但模型仍然能夠胡編亂造出錯誤或者是是而非的解答。ChatGPT的另外一個主要缺陷是只能基于已有知識進行訓練學習,通過海量的參數(近100層的Transformer層)和已有的主題數據來進行多任務學習,目前來看仍缺乏持續學習或者叫做終身學習的機制,也許下一代算法能夠解決這個難題,這也需要同步解決采用終身學習新知識引發的災難性遺忘難題等等。
自動駕駛:多智能體間的社交決策
在真實的交通場景里,一個理性的人類司機在復雜的和擁擠的行駛場景里,通過與周圍環境的有效協商,包括揮手給其它行駛車輛讓路,設置轉向燈或閃燈來表達自己的意圖,來做出一個個有社交共識的合理決策。而這種基于交通規則+常識的動態交互,可以在多樣化的社交/交互駕駛行為分析中,通過對第三方駕駛者行為和反應的合理期望,來有效預測場景中動態目標的未來狀態。這也是設計智能車輛AV安全行駛算法的理論基礎,即通過構建多維感知+行為預測+運動規劃的算法能力來實現決策安全的目的。而會影響到車輛在交互中的決策控制的駕駛行為包括駕駛者(人或AV)的社會層面交互和場景的物理層面交互兩個方面:
社會層面交互:案例包括行駛車輛在并道、換道、或讓道時的合理決策控制,主車道車輛在了解其它車輛的意圖后自我調速,給需要并換道的車輛合理讓路來避免可能的沖突和危險。
物理層面交互:案例包括靜態物理障礙(靜態停車車輛,道路可行駛的邊界,路面障礙物體)和動態物理線索(交通標識,交通燈和實時狀態顯示,行人和運動目標)。
ADS群體智能的社會計算,對這種交互/社交行為,可以在通常的定義上擴展,也就是道路使用者或者行駛車輛之間的社交/交往,即通過彼此間的信息交換、協同或者博弈,實現各自利益最大化和獲取最低成本,這一般包括三個屬性(Wang 2022):
動態Dynamics:個體之間間和個體與環境之間的閉環反饋(State,Action, Reward),駕駛人/智能體AV對總體環境動態做出貢獻,也會被總體環境動態所影響。
度量Measurement:信息交換,包括跨模數據發布與共享,駕駛人/智能體AV對道路使用者傳遞各自的社交線索和收集識別外部線索。
決策Decision:利益/利用最大化,理性來說道路使用者追求的多是個體的最大利益。
顯然,交通規則是不會完全規定和覆蓋所有駕駛行為的,其它方面可以通過個體之間的社交/交互來補充。人類司機總體來說也不會嚴格遵守交通規則,類似案例包括黃燈初期加速通過路口,讓路時占用部分其它道路空間來減少等待時間等等。ADS通過對這類社會行為的收集、學習與理解,可以部分模仿和社會兼容,通過Social-Aware和Safety-Assured決策,避免過度保守決策,同時提供算法模型的可解釋性、安全性能和控制效率。具體實現來說,可以采用類似人類司機的做法,依據駕駛任務的不同,使用環境中不同的關注區域ROI和關注時間點,以及直接或間接的社交/交互,采用類似概率圖模型和消息傳遞等機制來建模。
如何用生成式AI來提升自動駕駛ADS的產品競爭力
目前來看,生成式AI有可預期的未來,但依舊任重而道遠,尤其是數據的多樣性收集,如何從多模態海量知識里學習和融合各種知識,理解人類的使用需求,從上下文學習中,通過生成的方式來解決各類實際任務。對于跨行業技術推動而言,生成式AI采用的自監督學習訓練方法以及可以有效生成多類圖像視頻的能力,已經開始在機器視覺任務中和自動駕駛的感知決策任務中得到應用,可以有效填充自動駕駛場景覆蓋不足的Corner Case問題。下面將簡單列舉幾個典型應用案例來討論一下生成式AI采用的核心技術在機器視覺和自動駕駛行業的應用前景。
1、基于生成式AI的圖像數據拓展
機器視覺任務,包括自動駕駛領域,一個核心的挑戰是數據多樣性分布不平衡(Dataset Bias)問題。采用生成式AI模型,可以生成或者基于已有數據集進行有效拓展(Image Augmentation)。一個典型的應用案例,例如采用Stable Diffusion模型的語義指導的圖像拓展SIP模型,其架構如圖4所示。 ?
圖4:?采用Stable Diffusion模型的語義指導的圖像拓展案例(Li, 2023)
常用的圖像數據拓展多采用平移,變換,拷貝黏貼等策略,有像素級或者特征級等幾種類別,這些多數只是對圖像或者目標進行局部處理,很難在保持語義信息和多樣性之間找到平衡,而SIP模型的優勢可以通用的生成式AI大模型,通過圖像的標簽和標題來指導Image-To-Image高清圖片生成,對比常用處理算法而言,性能也會有幾個百分點提升。
2、行動(action)可解釋的自動駕駛
對于自動駕駛技術而言,DL-based方法由于模塊化的設計和海量數據貢獻,性能占優,但如何能夠提供安全能力和大規模部署,需要解決幾個挑戰:在保證性能基礎上改善可解釋性;在不同的駕駛個體,場景和態勢下繼續增強模型的推廣能力。 ? 顯然生成式AI是可以用來對自動駕駛的每個決策過程進行多任務的文本解釋。圖5是一個行為可感知可解釋的模型ADAPT設計架構案例。ADAPT算法模型為每個場景可以提供用戶友好的自然語言的描述和對于每個決策控制指令/行為的比較合理的一系列解釋和推斷。這種實時的行為的文字表述和推斷,某種意義上會讓乘客了解車輛的狀態,理解ADS決策如何以安全行駛為第一生產要素,以及決策的透明度和易于被使用者理解接受。
圖5:?ADAPT:Action-aware Driving Caption Transformer (Jin 2023)
ADAPT算法模型的量化分析如圖6所示。ADAPT所提供的基于語言的可解釋性,雖然只是一種簡單的嘗試,但未來對ADS能否被社會完全接受,有非常重要的意義。
圖6:?ADAPT算法模型的量化分析(Jin 2023)
參考文獻:
[1] R. G-Brizuela anetc., “ChatGPT is not all you need: a State of the Art Review of largeGenerative AI models”, https://arxiv.org/abs/2301.04655v1
[2] S. Frieder and etc., “Mathematical Capabilities of ChatGPT”,https://arxiv.org/pdf/2301.13867.pdf
[3] B. Li and etc., “Semantic-Guided Image Augmentation with Pre-trainedModels”, https://arxiv.org/pdf/2302.02070.pdf
[4] B. Jin and etc., “”, https://arxiv.org/pdf/2302.00673.pdf
[5] W. Wang, and etc., “Social Interactions for Autonomous Driving: A Reviewand Perspective”, https://arxiv.org/pdf/2208.07541.pdf
編輯:黃飛
?
評論
查看更多