作者:Dr. Luo,東南大學工學博士,英國布里斯托大學博士后,是復睿微電子英國研發(fā)中心GRUK首席AI科學家,常駐英國劍橋。Dr. Luo長期從事科學研究和機器視覺先進產(chǎn)品開發(fā),曾在某500強ICT企業(yè)擔任機器視覺首席科學家。
01?自動駕駛行業(yè)簡介
2022年可謂是ADS的L3自動駕駛元年。近幾年來,行業(yè)的數(shù)字化和行業(yè)的AI化,推動ADS向陽而生:從單車智能維度,L2部分功能已經(jīng)成為行業(yè)標配:2022年前五個月的搭載率25.5%,幾個主流車廠的新車款的搭載率甚至到70%以上。在硬件預埋(大算力芯片 + Multi-View Camera + LiDAR + Radar)的趨勢驅動和最新的ADS行業(yè)準入法規(guī)政策驅動下,L2+快速向L3演進已經(jīng)是大勢所驅,今明兩年,可以預測到城市級L3+將會在國內(nèi)迅速普及。軟件定義汽車,甚至是AI定義汽車,必然是當前的一個時代主流趨勢。 自動駕駛ADS主要是由高速場景向城市道路場景演進來落地領航輔助NOA功能,AI與場景的深度融合,推動ADS逐步實現(xiàn)從低速到高速,從載物到載人,從商用到民用,從階段一提供L2高級輔助駕駛和L3擁堵高速公路副駕駛,發(fā)展到階段二可以提供L3擁堵公路自動駕駛和L4高速公路自動駕駛,最終實現(xiàn)階段三的L4城郊與市區(qū)自動駕駛和L5商用無人駕駛等等。
02?ChatGPT行業(yè)簡介
生成式AI大模型,包括近兩年推出的ChatGPT和Stable Diffusion,能夠比較滿意地完成類似通用的問題答問Q&A系統(tǒng)任務,以及特定內(nèi)容的高清圖像生成。ChatGPT(Generative Pre-trained Transformer)是OpenAI開發(fā)的一款生成式AI模型,它結合了監(jiān)督學習和強化學習方法,通過對話的方式來進行交互:依據(jù)用戶的文本輸入來做多種語言的智能回復,簡文或者長文模式,其中可以包括不同類型的問題答復,翻譯,評論,行業(yè)分析,代碼生成與修改,以及撰寫各類計劃書與命題書籍等等。各類生成式AI模型也可以聯(lián)合調用來提供豐富的人機對話的能力。生成式AI模型多需要海量的參數(shù),來完成復雜的特征學習和記憶推理生成,例如ChatGPT模型參數(shù)為1750億。如圖 1所示,ChatGPT有兩個主要類別的應用:
改善我們的日常生活,做人類力所能及的語言文本圖像視頻類的分析而且可能會做得更好;
在行業(yè)AI化過程中通過模型的新訓練方法,數(shù)據(jù)/場景的生成以及可理解可解釋的輸出等功能來加速AI的開發(fā)進程。
圖 1 ChatGPT的典型行業(yè)應用場景和行業(yè)拓展能力 (Kocon 2023)
03?ChatGPT的底層技術分析
Transformer系列模型能夠成功應用到NLP和CV的一個主要原因是其編解碼器架構。其優(yōu)勢體現(xiàn)在:訓練與推理的并行能力強;關注機制模型帶來的全局感受域有利于捕獲文本圖像中的距離與語義關系表征;相同網(wǎng)絡層的簡單數(shù)量上堆疊使用可以快速構建大模型。當模型復雜到一定程度(例如600億以上參數(shù)),可以做為一個通用模型來針對下游的不同視覺任務,獲得與人類相當?shù)男阅?。而互?lián)網(wǎng)上輕松獲得的海量公開多模態(tài)數(shù)據(jù),結合大模型LLM的無監(jiān)督或自監(jiān)督學習,通過人工的數(shù)據(jù)清洗、預訓練和人類反饋強化學習,對提升性能也變得非常容易。
圖 2 ChatGPT模型的訓練流程(G-Brizuela, 2023)
如圖 2所示,ChatGPT模型結合了監(jiān)督學習和強化學習方法,采用了基于人類反饋的強化學習RLHF訓練方法,與此同時采用了遷移學習(或者叫自監(jiān)督學習)的訓練方法,即通過預訓練方式加上人工監(jiān)督進行調優(yōu)(近端策略優(yōu)化PPO算法)。RLHF訓練方法確實可以通過輸出的調節(jié),對結果進行更有理解性的排序,這種激勵反饋的機制,可以有效提升訓練速度和性能。在實際對話過程中,如果給出答案不對(這是目前最讓人質疑的地方,可能會錯誤地引導使用者),可以通過反饋和連續(xù)談話中對上下文的理解,主動承認錯誤,通過優(yōu)化來調整輸出結果。給出錯誤問答的其中一個主要原因是缺乏對應的訓練數(shù)據(jù),有意思的是,雖然缺乏該領域的常識知識和推廣能力,但模型仍然能夠胡編亂造出錯誤或者是是而非的解答。ChatGPT的另外一個主要缺陷是只能基于已有知識進行訓練學習,通過海量的參數(shù)(近100層的Transformer層)和已有的主題數(shù)據(jù)來進行多任務學習,目前來看仍缺乏持續(xù)學習或者叫做終身學習的機制,也許下一代算法能夠解決這個難題。
圖 3 GPT不同版本模型的演進趨勢 (Kocon 2023) 如圖 3所示,GPT不同版本模型的演進趨勢總結如下:
GPT-1: 對比Transformer基礎架構,GPT第一代模型只采用了Transformer Decoder Stack和單方向的自關注模型,可以很好的應用于文本翻譯、做摘要和回答問題。
GPT-2:GPT-2模型延申了這些設計理念,通過引入多任務學習來對模型的下游任務進行調優(yōu)訓練,與此同時,將輸入上下文的長度設置從512增加到1024,模型參數(shù)從117M(GPT)增加到1.5B(GPT-2),預訓練用的數(shù)據(jù)也增加到40GB。GPT-2成功顯示了,即使不用大量數(shù)據(jù)做監(jiān)督學習,模型也能夠處理應對很多新應用任務。
GPT-3:模型參數(shù)從1.5B(GPT-2)增加到175B(GPT-3), 預訓練用的文本數(shù)據(jù)也增加到45TB。數(shù)據(jù)驅動的大語言LLM模型成功演示了zero-shot和few-show場景的優(yōu)越 性能。
InstructGPT:由于訓練GPT-3用的海量互聯(lián)網(wǎng)公開數(shù)據(jù)存在的數(shù)據(jù)偏見和不可靠性問題,GPT-3有時會生成一些具有冒犯性的文本,輸出結果也經(jīng)常低于用戶的期望。對于如何能夠匹配用戶需求,InstructGPT采用了人類反饋做為獎勵信號,通過強化學習RLHF來更新模型參數(shù)。對于所謂的人類反饋, OpenAI第一步采用了特別的人工標注方式(即標注工作者的思路必須是高度一致),對不同的提示所對應的期望答案類型進行描述,第二步即模型隨后的調優(yōu)跟隨這個輸入,按照系統(tǒng)響應的排序來訓練獎勵模型。最后一步是采用近端策略優(yōu)化PPO算法來進一步提升模型質量。
ChatGPT:ChatGPT是InstructGPT的一個最近的迭代版本,它顯然采用了更多的用戶反饋來處理更多的多樣化任務,目來看公開細節(jié)不多,估計采用了非公開數(shù)據(jù)集。ChatGPT的基礎模型參數(shù)為3.5B,從對話任務的質量要好于有17.5B參數(shù)的GPT-3,這顯然與收集人類數(shù)據(jù)來做模型的監(jiān)督學習調優(yōu)有很大的關聯(lián)性。
對于如何評估ChatGPT,一種思路(Kocon 2023)是采用不同類別的公開數(shù)據(jù)集來評估模型的多樣性,包括多數(shù)人口的期待和少數(shù)民族/個人的敏感問題。但ChatGPT在專家領域(教育,醫(yī)學,法律等) 應用的一個主要限制,依舊是結果的可靠性和可解釋性,所以全面和系統(tǒng)的評估至關重要。如圖 4所示,一種簡單案例(Kocon 2023)是評估ChatGPT對不同任務中提問的辨別,即檢測問題是可以回答的還是不能回答的,可以看到,模型不能有效檢測到這類不能回答的問題導致給出錯誤回答的比例還是非常非常高的,需要通過用戶不停提示來糾偏。
圖 4 ChatGPT對于用戶問題的理解實驗分析(Kocon2023) LLM大語言模型,包括GPT-3,ChatGPT,其性能很大一部分依賴與任務相關的提示Prompt的質量。基于提示的學習范式,對于工程化實現(xiàn)落地和行業(yè)拓展,有非常大的挑戰(zhàn),這要求非常細致的提示的工程工作和提示微調。提示微調的方法或者通過對下游任務質量來驗證其相關性,或者直接約束范圍是可以用來評估模型的語言理解能力的。ChatGPT的優(yōu)勢是可以為其答案給出自解釋的理由的,即所謂的自解釋的AI(XAI),具體可以總結其中幾個要點如下(Kocon 2023):
ChatGPT可以為其決策提供合理的符合事實的澄清
ChatGPT看上去不太關注個人,反而比較注意態(tài)勢Situation
04?ChatGPT和自動駕駛的融合趨勢分析
圖 5 ChatGPT與SOTA專項NLP/CV 類任務的差別總結(Kocon2023) 如圖 5所示,ChatGPT與其它SOTA專項任務(包括NLP/CV)的差別對比,這里所說的專項任務,可以包括NLP,CV,以及自動駕駛的感知決策類模型任務,具體差別可以體現(xiàn)在:通用/專用,生成式/可重復生產(chǎn),高低精度,是否可解釋/可交互,等等。 從ChatGPT的行業(yè)拓展趨勢來說,需要解決超大模型部署的推理加速優(yōu)化問題。避開這個問題不談,提升ChatGPT性能的學習方法和訓練已經(jīng)開始在自動駕駛ADS等領域得到部分應用,包括模仿學習,在線和離線決策策略Policy學習,知識蒸餾用于模型壓縮和跨模態(tài)的知識遷移學習等等,ADS場景數(shù)據(jù)集自動生成等等。 ChatGPT當前的一個核心問題是模型的魯棒性問題,即對于不確定性輸入其性能的穩(wěn)定性,這對于安全至關重要的應用來說非常關鍵,這要求行業(yè)能夠交付有責任的AI (Responsible AI)。如圖 6所示,對于對抗性和Out-of-Distribution (OOD)分類任務評估來說,可以看出所有模型的絕對性能都遠低于期望,有很大的提升空間,包括ChatGPT。例如對偽造新聞的檢測來說,攻擊者可以通過添加噪聲和一定的內(nèi)容擾動可以輕松繞過AI檢測系統(tǒng),所有沒有魯棒性,系統(tǒng)的可靠性會很容易坍塌。而OOD的場景,也包括遮擋或者屏蔽場景,有時會很容易引入輸出結果的過度自信輸出。訓練一個基礎大模型的成本非常高(千萬美元級別/次),所以針對下游任務的零樣本zero-shot性能非常重要。
圖 6 LLM大語言模型的魯棒性評估(對抗與OOD分類任務):性能 vs 參數(shù)尺寸(wang 2023) 如圖 6所示,ChatGPT和其它基礎模型的對比如下(wang 2023):
優(yōu)勢:
o 對于對抗和OOD樣本有比較一致性的性能提升
o 翻譯任務能力強,在對抗性輸入下有合理的可讀的一致性響應
o 對于對話相關的文本有更強的意圖理解能力,這與學習方法和數(shù)據(jù)集處理有關
劣勢:
o 對于對抗和OOD樣本,整體性能低于預期
o 對于醫(yī)學相關的問題,難以提供確定性的答案,更多只是非正式的建議和分析,比較適合健康小助手的角色
做為一個大規(guī)模語言LLM模型,ChatGPT主要關注于多任務、多模態(tài)和多語言的性能,而當前ADS主要關注在4D時空場景下甚至是5D場景(+關注目標的自運動狀態(tài)等)下多任務、多模態(tài)的安全決策性能,未來引入語音文本輸入也是一種大趨勢。 業(yè)界針對ADS所采用的Vision Transformer(ViT)模型,通過類似方法來構建例如ViT-22B的大規(guī)模視覺LVM模型,在40億JET數(shù)據(jù)集上進行訓練,對圖片分類任務有很好的提升,但LVM模型未能呈現(xiàn)LLM大語言模型所呈現(xiàn)的浪涌效應“emergent abilities”。這里的浪涌效應是指語言模型突破到規(guī)模的臨界點:例如GPT-3 (130億參數(shù)),LaMDA (680億參數(shù)),模型的表現(xiàn)出現(xiàn)快速提升的態(tài)勢,能夠很好地從學會的知識的緊湊表達中去記憶和嘗試知識,理解應對本文中所提到的Zero-Shot或Few-Shot Prompting任意任務和多步推理Multi-Step Reasoning的應答能力。目前來說,浪涌效應的理論尚不清晰,LVM模型的臨界點在何方有待探索。模型的規(guī)模、結構,模型的訓練方法和學習方法,數(shù)據(jù)集的規(guī)模,以及人類反饋和任務提示的質量,對浪涌效應來說都是值得深度研究的。對于ADS系統(tǒng)來說,目標的交互關系、多模態(tài)環(huán)境元素的融合空間表達,目標利益的博弈關系,安全決策驅動下的感知融合,這些高維度的有效表征,對探索LVM的浪涌效應都是至關重要的。
參考文獻:
1. J. Kocon and etc., “ChatGPT: Jack of all trades, master of none”, https://arxiv.org/pdf/2302.10724.pdf
2. J. Wang, and etc., “On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective”, https://arxiv.org/pdf/2302.12095.pdf
編輯:黃飛
?
評論
查看更多