引言
距離上次的長(zhǎng)篇大論,已經(jīng)過去了半年有余。這段時(shí)間,對(duì)于AI業(yè)界甚至整個(gè)世界,都是驚心動(dòng)魄的。在這段時(shí)間里,最令人印象深刻的大事莫過于ChatGPT和GPT-4的發(fā)布。毫無疑問,GPT-4是有史以來最為強(qiáng)大的AI程序。在隨后發(fā)表的一篇論文[1]中,學(xué)者們將GPT-4稱為通用人工智能(AGI)誕生的火花。誠(chéng)然,每個(gè)人對(duì)于AGI的定義不盡相同,現(xiàn)階段的GPT也尚未真正解決AI領(lǐng)域的所有難題;然而,基于大模型的技術(shù),確實(shí)已經(jīng)接近完成NLP領(lǐng)域的大一統(tǒng),甚至讓人隱約看到了AGI的曙光?;蛟S,在3-5年內(nèi),我們就能夠看到馮諾伊曼架構(gòu)基礎(chǔ)之上的AGI計(jì)算架構(gòu);倘若如此,大模型將在其中占據(jù)核心位置。
除了GPT系列外,計(jì)算機(jī)視覺領(lǐng)域也好不熱鬧,幾個(gè)前沿方向都出現(xiàn)了令人驚嘆的進(jìn)展。對(duì)于公眾來說,感受最深的莫過于AI繪畫了。Stable Diffusion[2]和ControlNet[3]等技術(shù)的出現(xiàn),大幅降低了訓(xùn)練和應(yīng)用擴(kuò)散模型的門檻。在Midjourney等社區(qū)中,AI繪畫的發(fā)展速度可謂一日千里,許多技術(shù)困難(如AI不會(huì)畫手、不會(huì)數(shù)數(shù)等)也得到了初步改善。如今,只要有一塊入門級(jí)GPU或者交一點(diǎn)訂閱費(fèi)用,每個(gè)人都可以創(chuàng)作出自己的AI作品來。就連一段時(shí)間以來頗為平淡的視覺感知領(lǐng)域,也被一個(gè)叫做SAM[4]的方法攪動(dòng)起來:雖然SAM還存在諸多缺陷(如語義識(shí)別能力有限),但它讓人看到了視覺基礎(chǔ)模型的更多可能性。根據(jù)Google scholar的統(tǒng)計(jì),僅僅兩個(gè)月的時(shí)間里,SAM就得到了超過200次引用,足見關(guān)注程度之高、研究之內(nèi)卷。
面對(duì)如此沖擊,包括我在內(nèi)的許多研究者都會(huì)感到迷茫。很顯然,在NLP的引領(lǐng)下,發(fā)展大一統(tǒng)的任務(wù)和體系,將成為未來3-5年整個(gè)CV領(lǐng)域的核心課題。然而,CV是否已經(jīng)做好實(shí)現(xiàn)這個(gè)宏偉目標(biāo)的準(zhǔn)備?當(dāng)前的視覺基礎(chǔ)模型(包括最近的SAM)究竟做到了什么、沒有做到什么?這篇斷斷續(xù)續(xù)寫了兩個(gè)月的文章,就是我對(duì)于這些問題的思考。
文章的部分內(nèi)容,也被我整理成一篇微型survey,并與VALSE上報(bào)告的PPT一起,放在以下地址:
在這篇文章中,我將從AGI的定義說起。隨后,我將簡(jiǎn)要回顧NLP領(lǐng)域所經(jīng)歷的變革。基于大語言模型的GPT系列,為自然語言處理帶來了劃時(shí)代的改變,點(diǎn)燃了AGI的火花。接著,我將進(jìn)入CV領(lǐng)域的討論。作為AGI的下一個(gè)重要戰(zhàn)場(chǎng),CV領(lǐng)域正在走向大一統(tǒng)模型,但是面臨的困難還很大。我將回顧現(xiàn)有工作,分析本質(zhì)困難,并且在GPT的啟發(fā)下提出一種新的研究范式。最后,我還將分享一些個(gè)人觀點(diǎn)。
人工智能和通用人工智能
今天的人們,對(duì)于人工智能(AI)一詞并不陌生。現(xiàn)代意義上的AI誕生于1956年的達(dá)特茅斯會(huì)議,隨后經(jīng)歷了幾十年的發(fā)展,幾經(jīng)興衰。AI的根本目標(biāo),在于使用數(shù)學(xué)方法復(fù)現(xiàn)人類智能。近年來,在深度學(xué)習(xí)的帶動(dòng)下,AI領(lǐng)域取得了長(zhǎng)足進(jìn)步,也深刻地改變了人們的生產(chǎn)生活方式。
通用人工智能(AGI),是AI發(fā)展的最高目標(biāo)。關(guān)于AGI的定義有很多,其中最通俗的一種,即AGI是能夠具有任何人類和動(dòng)物所具有能力的算法。從早期的圖靈測(cè)試(早于達(dá)特茅斯會(huì)議)開始,關(guān)于AGI的追求和爭(zhēng)論從未停止。深度學(xué)習(xí)的出現(xiàn),大大加快了AGI的進(jìn)程;而近期的GPT系列,則被學(xué)者們認(rèn)為是點(diǎn)燃了AGI的火花[1]。深度學(xué)習(xí)本身提供了一種通用的方法論,使得人們可以在確定輸入和輸出形式的情況下,使用統(tǒng)計(jì)學(xué)習(xí)方法,構(gòu)建神經(jīng)網(wǎng)絡(luò)(一種層次化的數(shù)學(xué)函數(shù))來近似輸入和輸出之間的關(guān)系。只要有足夠多的數(shù)據(jù),深度學(xué)習(xí)就能夠應(yīng)用于CV、NLP、強(qiáng)化學(xué)習(xí)等諸多AI子領(lǐng)域。
GPT:點(diǎn)燃NLP領(lǐng)域的AGI火花
發(fā)布以來,GPT系列刷新了無數(shù)紀(jì)錄,其中就包括2個(gè)月內(nèi)達(dá)到1億用戶的神跡。這個(gè)紀(jì)錄的重要性在于,它表明了AI算法已經(jīng)具備面向普通用戶(to consumers,即2C)的能力,這在歷史上還是第一次。為了做到2C,AI算法必須具備極強(qiáng)的通用能力,能夠滿足用戶的絕大部分要求。令人吃驚的是,GPT做到了這一點(diǎn)。GPT基本上解決了NLP領(lǐng)域的常見問題。在許多問題(如編寫代碼)上,GPT的能力甚至超越了專門設(shè)計(jì)的算法。也就是說,GPT實(shí)現(xiàn)了NLP領(lǐng)域的大一統(tǒng):原先看似孤立的各個(gè)任務(wù),都可以在多輪對(duì)話任務(wù)下統(tǒng)一起來。誠(chéng)然,GPT還不完美,也會(huì)在許多問題上犯錯(cuò)或者胡言亂語,但是在可預(yù)見的范圍內(nèi),NLP的研究范式不會(huì)再發(fā)生大的變革了。這場(chǎng)曠日持久(從達(dá)特茅斯會(huì)議算起,已有近70年)的NLP戰(zhàn)爭(zhēng)已經(jīng)分出勝負(fù),接下來就是些打掃戰(zhàn)場(chǎng)的工作,比如解決垂直領(lǐng)域問題、邏輯推理、提高用戶體驗(yàn),等等。
關(guān)于GPT的能力展示,此處不再贅述,大家可以參考互聯(lián)網(wǎng)上浩如煙海的資料,或者“AGI火花”一文里系統(tǒng)詳盡的分析[1]。我只想引述GPT-4官方新聞的一句話:
As a result, our GPT-4 training run was (for us at least!) unprecedentedly stable, becoming our first large model whose training performance we were able to accurately predict ahead of time.
結(jié)果表明,GPT-4的訓(xùn)練過程(至少對(duì)我們來說)前所未有地穩(wěn)定,它也成為我們訓(xùn)練過的第一個(gè)能夠提前準(zhǔn)確預(yù)測(cè)效果的大模型。
換句話說,GPT-4的本質(zhì)是個(gè)神經(jīng)網(wǎng)絡(luò),是個(gè)概率模型;但是它表現(xiàn)出來的行為(不論是訓(xùn)練還是測(cè)試),已經(jīng)穩(wěn)定得不像個(gè)概率模型了。這著實(shí)是一次了不起的技術(shù)突破!
關(guān)于GPT系列的實(shí)現(xiàn)原理,許多優(yōu)秀的文章已經(jīng)做過分析,此處我不再贅述。簡(jiǎn)單地說,GPT訓(xùn)練分為兩個(gè)階段。第一階段被稱為生成式預(yù)訓(xùn)練,主要在無標(biāo)注的通用語料庫(kù)中進(jìn)行。大規(guī)模語言模型通過預(yù)測(cè)下一單詞,擬合通用文本的數(shù)據(jù)分布,并獲得in-context learning能力,能夠通過少量示例來適應(yīng)新任務(wù)。第二階段被稱為指令微調(diào),主要在有標(biāo)注的對(duì)話數(shù)據(jù)庫(kù)中進(jìn)行。在此過程中,大規(guī)模語言模型將通用文本分布對(duì)齊到問答數(shù)據(jù)中,顯著提升了針對(duì)性解決問題的能力。同時(shí),模型還可以從人類用戶的反饋中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),從而進(jìn)一步增強(qiáng)其滿足用戶偏好的能力。如果對(duì)更具體的分析感興趣,可以自行搜索ChatGPT的實(shí)現(xiàn)原理。
CV:AGI的下一個(gè)戰(zhàn)場(chǎng)
由于人類通過多種模態(tài)來理解世界,因此真正的AGI必須結(jié)合CV和NLP來實(shí)現(xiàn)。然而,在CV中實(shí)現(xiàn)AGI,比在NLP中實(shí)現(xiàn)AGI的難度大很多。根據(jù)前面的定義,真正的AGI應(yīng)該具有即解決通用問題、與環(huán)境互動(dòng)的能力,而不僅僅是完成萬物識(shí)別和多模態(tài)對(duì)話等初級(jí)任務(wù)。然而如圖2所示(示例圖源:UberNet[6]),相比于利用統(tǒng)一對(duì)話系統(tǒng)來解決所有問題的GPT,當(dāng)前CV的常用方法論還比較初步,大多局限于使用獨(dú)立的模型甚至算法來解決不同的問題,包括圖像分類、物體檢測(cè)、實(shí)例分割、注意力檢測(cè)、圖像描述、以文生圖等。
圖2:當(dāng)前CV主要使用獨(dú)立的算法解決問題。
艱難的CV大一統(tǒng)之路
為了接近GPT的水平,CV必須走向大一統(tǒng),也就是使用一套系統(tǒng),解決各種視覺問題。近來,業(yè)界出現(xiàn)了不少此類嘗試,我們將其分為五個(gè)主要方向。其中前三個(gè)方向主要解決任務(wù)形式的統(tǒng)一、第四個(gè)方向主要解決視覺任務(wù)邏輯的統(tǒng)一、最后一個(gè)方向主要解決視覺和語言交互的統(tǒng)一。以下我們簡(jiǎn)要綜述每個(gè)方向的代表性工作,并且分析它們的優(yōu)缺點(diǎn)。
開放域視覺識(shí)別:即要求算法不僅能夠識(shí)別訓(xùn)練集中出現(xiàn)過的概念,還能夠通過自然語言等方式識(shí)別訓(xùn)練集中未出現(xiàn)過的概念。當(dāng)前,開放域識(shí)別的主要奠基性工作為CLIP[7],它提供了文本和圖像間的跨模態(tài)特征對(duì)齊方法,使得人們能夠統(tǒng)一使用自然語言來指代目標(biāo)語義,從而完成了分類、檢測(cè)、分割、定位、按需識(shí)別等各類任務(wù)。雖然自然語言提供了足夠的靈活性,使得開放域識(shí)別成為可能,但自然語言難以指代視覺信號(hào)中的細(xì)粒度信息,從而在一定程度上限制了識(shí)別能力。
Segment Anything任務(wù):通過設(shè)計(jì)統(tǒng)一的prompt系統(tǒng)并且在標(biāo)注層面完成數(shù)據(jù)閉環(huán),SAM[4]能夠分割出圖像中的所有基礎(chǔ)單元,并且在相當(dāng)廣泛的視覺域中展現(xiàn)出了泛化能力。無需重新訓(xùn)練,SAM就能提供基礎(chǔ)語義單元,并應(yīng)用于分割3D物體、物體消除和填充、分割醫(yī)療影像或者隱藏物體,等。SAM傳遞出的重要思路是:通過降低視覺任務(wù)的難度(此處主要指無語義標(biāo)簽的分割),來統(tǒng)一視覺任務(wù)形式定義,增強(qiáng)模型的域間遷移能力。從形式看看,SAM很像通用的視覺識(shí)別流程中的一個(gè)部分,但如何構(gòu)建合理的上下游模塊來配合它(以構(gòu)建完整流程),依然是個(gè)開放問題。
通用視覺編碼:即一系列通過統(tǒng)一編碼形式,來整合多種任務(wù)的嘗試。它們雖然形式不同,但是都指向同一個(gè)目標(biāo),即通過把不同模態(tài)、不同任務(wù)的數(shù)據(jù)編碼為統(tǒng)一形態(tài),使得單個(gè)神經(jīng)網(wǎng)絡(luò)模型能夠完成盡可能多的任務(wù)。其中代表性的方法分為三類:首先是Gato[8],它驗(yàn)證了單個(gè)transformer模型能夠完成CV、NLP、強(qiáng)化學(xué)習(xí)等任務(wù);其次是pix2seq[9]和OFA[10],驗(yàn)證了不同視覺任務(wù)(如檢測(cè)、分割、描述)在自然語言形態(tài)下得到統(tǒng)一,從而送入單個(gè)模型進(jìn)行訓(xùn)練;最后是Painter[11]和SegGPT[12],借鑒了NLP中in-context learning的方式,將一系列視覺任務(wù)編碼為不同形式的圖像密集預(yù)測(cè)任務(wù),并訓(xùn)練單個(gè)純視覺模型來解決問題。相比于傳統(tǒng)視覺識(shí)別框架,這些方法更接近大一統(tǒng)的目標(biāo),也論證了當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型特別是transformer能夠適應(yīng)一大類跨模態(tài)任務(wù)。然而,這些僅僅追求形式上的統(tǒng)一,與多任務(wù)學(xué)習(xí)的邊界并不清晰,也并未充分展現(xiàn)出統(tǒng)一帶來的好處。
大語言模型引導(dǎo)的視覺理解:在語言模型的協(xié)助下,將復(fù)雜視覺問題拆解為統(tǒng)一的邏輯鏈,并分步解決問題。其實(shí)這類方法并非最近才出現(xiàn):至少在2017年,就出現(xiàn)了使用LSTM拆分問題并調(diào)用視覺模塊的嘗試[13]。只是大語言模型的出現(xiàn),使得這一方法論的通用性大大增強(qiáng)。最近出現(xiàn)的一系列工作,其共同特點(diǎn)是使用GPT將文本問題轉(zhuǎn)化為可分步執(zhí)行的邏輯。這種邏輯可以是代碼,可以對(duì)接搜索引擎,也可以表現(xiàn)為流程圖或者自然語言。必要時(shí),程序?qū)⒄{(diào)用視覺模塊,以提供檢測(cè)、計(jì)數(shù)、OCR、描述等基礎(chǔ)能力。這類方法充實(shí)了視覺問答的邏輯,也提升了答案的可解釋性,但它強(qiáng)烈地依賴于大語言模型和基礎(chǔ)視覺模塊。很多情況下,以檢測(cè)為代表的視覺任務(wù)本身也需要復(fù)雜邏輯來完成。很顯然,當(dāng)前的方法很難下探到這一深度。
多模態(tài)對(duì)話:在對(duì)話任務(wù)中引入圖像或視頻作為參考,從而允許通過對(duì)話任務(wù)來完成統(tǒng)一形式的視覺理解。在視覺、語言、跨模態(tài)預(yù)訓(xùn)練模型的基礎(chǔ)上,只需要微調(diào)很少部分的參數(shù),就能完成問答任務(wù)[14]。受到GPT系列的啟發(fā),研究者們將視覺標(biāo)注送入語言模型,在簡(jiǎn)單的提示下,生成了問答數(shù)據(jù)[15]。多模態(tài)對(duì)話模型在這些問答數(shù)據(jù)上微調(diào)之后,就具備了回答復(fù)雜問題的能力。目前,以此種方式產(chǎn)生的問答結(jié)果,已經(jīng)可以媲美GPT-4技術(shù)報(bào)告中提到的例子[16]。然而,當(dāng)前多模態(tài)對(duì)話系統(tǒng)的能力,大部分來自大語言模型。這也就意味著,與開放域識(shí)別一樣,多模態(tài)對(duì)話對(duì)于細(xì)粒度視覺信息的指代能力比較有限。在使用復(fù)雜圖像作為參考時(shí),算法很難針對(duì)其中某個(gè)特定的人或物進(jìn)行提問,從而也限制了解決具體問題的能力。
以上幾個(gè)方向的研究,將CV領(lǐng)域帶到了新的高度。以當(dāng)前進(jìn)展看,CV算法能夠在一定條件下完成視覺識(shí)別,也能夠進(jìn)行初步的多模態(tài)對(duì)話,但是距離大一統(tǒng)模型、距離通用的任務(wù)解決還有很遠(yuǎn)。而后者正是AGI所需要的能力。
于是我們不禁要問:為什么在CV中完成大一統(tǒng)如此困難?這個(gè)問題的答案,還要從NLP中去找。
NLP給CV帶來的啟發(fā)
我們嘗試從另一個(gè)視角來理解GPT所完成的事情。我們不妨想象自己像GPT一樣,生活在一個(gè)純文本的世界里。在這樣的世界里,多輪對(duì)話任務(wù)是充分且必要的:一方面,我們只能通過文字與其他智能體交流;另一方面,我們可以通過多輪對(duì)話去完成所有任務(wù)。也就是說,在NLP領(lǐng)域,學(xué)習(xí)環(huán)境是完備的:我們通過多輪對(duì)話來訓(xùn)練算法,而算法也只需要掌握多輪對(duì)話,就是一個(gè)能夠完成所有任務(wù)的AGI。我將這個(gè)性質(zhì)成為“所訓(xùn)即所需”——這個(gè)詞是模仿“所見即所得”造出來的。
這樣看來,GPT所定義的對(duì)話任務(wù),比起GPT的實(shí)現(xiàn)方法更加重要!這種定義使得AI算法能夠通過與環(huán)境互動(dòng)來學(xué)習(xí),恰好符合AGI的定義:與環(huán)境互動(dòng),并且最大化獎(jiǎng)勵(lì)。相較而言,CV就沒有形成清晰的路線:既沒有環(huán)境用于預(yù)訓(xùn)練,各種算法也并不能在實(shí)際環(huán)境中解決問題。顯然,這背離了CV和AGI的基本原則。事實(shí)上,早在1970年代,計(jì)算機(jī)視覺的先驅(qū)大衛(wèi)·馬爾就提出:視覺算法必須構(gòu)建真實(shí)世界的模型,并且從交互中學(xué)習(xí)[17];隨后也不乏其他學(xué)者指出交互的重要性。然而如今,大部分視覺算法并非研究如何與環(huán)境交互,而是研究如何在各種任務(wù)上提升精度。
這是為什么呢?當(dāng)然是環(huán)境構(gòu)建的難度太大!
代理任務(wù):理想向現(xiàn)實(shí)的妥協(xié)
要想構(gòu)建場(chǎng)景用于CV任務(wù),主要有兩種方法:
構(gòu)建真實(shí)環(huán)境:在真實(shí)世界中放置大量智能體,使其通過與包括人類在內(nèi)的其他智能體互動(dòng)學(xué)習(xí)。這種方式的缺點(diǎn)在于成本太高且難以確保安全。
構(gòu)建虛擬環(huán)境:通過視覺算法模擬或者重建3D環(huán)境,在虛擬世界中訓(xùn)練智能體。這種方式的缺點(diǎn)在于真實(shí)性不足,包括場(chǎng)景建模的真實(shí)性和智能體行為的真實(shí)性,從而訓(xùn)練的智能體難以有效遷移至真實(shí)世界中。
除此之外,對(duì)環(huán)境中其他智能體行為的模擬也很重要,這決定了CV算法在真實(shí)應(yīng)用場(chǎng)景中的適應(yīng)能力。如果希望環(huán)境與智能體互動(dòng)(例如在現(xiàn)實(shí)世界中放置一個(gè)真實(shí)的機(jī)器人),則收集數(shù)據(jù)的成本還會(huì)顯著上升。另一方面,環(huán)境中的智能體的行動(dòng)模式往往比較單一,難以模擬真實(shí)世界中豐富而開放(open-domain)的行為。
總的來說,目前所構(gòu)建的場(chǎng)景,還不足以滿足大規(guī)模訓(xùn)練CV算法的需要。在無法模擬環(huán)境情況下,人們只能退而求其次,不直接與環(huán)境互動(dòng),而從真實(shí)環(huán)境中采樣大量的數(shù)據(jù),并且將與環(huán)境互動(dòng)可能需要的能力定義為一系列代理任務(wù)(即通過完成任務(wù),接近最終的目標(biāo)),如物體識(shí)別、追蹤等。人們假設(shè),通過提升這些代理任務(wù)的精度,就能夠讓CV算法更接近AGI。
可問題是,這個(gè)假設(shè)對(duì)嗎?
圖3表達(dá)了我們的觀點(diǎn)。在深度學(xué)習(xí)出現(xiàn)之前,CV的算法還比較弱,代理任務(wù)的精度也不高。當(dāng)時(shí),對(duì)于代理任務(wù)的追求,很大程度上推進(jìn)了AGI的發(fā)展。然而過去十年,隨著深度學(xué)習(xí)的發(fā)展,各項(xiàng)代理任務(wù)都已經(jīng)高度飽和。在ImageNet-1K數(shù)據(jù)集上,top-1分類精度已經(jīng)從前深度學(xué)習(xí)時(shí)代的50%以下提升到了90%以上。此時(shí),繼續(xù)提升代理任務(wù)的精度,有可能無法逼近AGI,甚至與之背道而馳。GPT的出現(xiàn),進(jìn)一步印證了這個(gè)觀點(diǎn):在接近AGI的模型出現(xiàn)后,原本孤立的NLP代理任務(wù),如翻譯和命名實(shí)體抽取,就變得不再重要了。
代理將死!
圖3:CV的代理任務(wù)正在失去意義,甚至使我們遠(yuǎn)離AGI。
未來范式:從環(huán)境中學(xué)習(xí)
我們?cè)O(shè)想的學(xué)習(xí)流程如圖4(圖源:Habitat[18]和ProcTHOR[19])所示,分為如下階段:
第0階段,環(huán)境構(gòu)建。通過各種方式構(gòu)建虛擬環(huán)境,盡可能地增強(qiáng)環(huán)境的豐富性、真實(shí)性,可交互性。
第1階段,生成式預(yù)訓(xùn)練。讓智能體探索環(huán)境,結(jié)合自身行動(dòng),預(yù)測(cè)未來將會(huì)看到的畫面。這對(duì)應(yīng)于GPT的預(yù)訓(xùn)練階段,任務(wù)是預(yù)測(cè)下一個(gè)單詞。在這個(gè)過程中,CV算法記憶了現(xiàn)實(shí)世界的分布,并做好了通過少量樣本學(xué)習(xí)任務(wù)的能力。
第2階段:指令微調(diào)。訓(xùn)練智能體完成具體任務(wù),如尋找特定物體,甚至與其他智能體交互。這對(duì)應(yīng)于GPT的指令微調(diào)任務(wù),同樣建立在豐富的任務(wù)描述和人工指令數(shù)據(jù)基礎(chǔ)上。在這個(gè)過程中,CV算法為了完成任務(wù),必須掌握各種視覺概念,并習(xí)得按需處理視覺信號(hào)的能力。
下游階段(可選)??梢杂没趐rompt的方式,將AGI模型用于傳統(tǒng)視覺任務(wù)。
圖4:設(shè)想中的未來CV訓(xùn)練流程,在環(huán)境探索、完成任務(wù),并遷移到下游感知任務(wù)。
需要注意的是,在這樣一個(gè)流程中,代理任務(wù)只是算法在通用任務(wù)上訓(xùn)練過后,“順手”習(xí)得的能力。而現(xiàn)在的大部分CV研究,卻將代理任務(wù)作為唯一的追求,屬實(shí)是本末倒置了。
要想實(shí)現(xiàn)上述流程,面臨的困難有很多。我們從三個(gè)階段來分析。
更復(fù)雜的虛擬環(huán)境。當(dāng)前構(gòu)建虛擬環(huán)境的方法主要有兩種。一是基于真實(shí)數(shù)據(jù)產(chǎn)生的虛擬環(huán)境:收集實(shí)際場(chǎng)景數(shù)據(jù),并將其建模為點(diǎn)云、面片(mesh)、神經(jīng)輻射場(chǎng)(NeRF)等數(shù)據(jù)結(jié)構(gòu),并支持高速、大規(guī)模的渲染。這種做法的成本還比較高,難以規(guī)?;a(chǎn)環(huán)境。當(dāng)前可用的3D數(shù)據(jù)集(如Habitat[18]),相比于2D數(shù)據(jù)集,規(guī)模要小好幾個(gè)數(shù)量級(jí),且依然局限于某些特殊場(chǎng)景(如室內(nèi)或者街景)。二是通過仿真學(xué)方法構(gòu)建虛擬環(huán)境:通過3D建模、生成式算法(包括GAN和擴(kuò)散模型)等方式,直接采樣虛擬數(shù)據(jù)并渲染3D環(huán)境。這種做法雖然能夠批量生成環(huán)境(如ProcTHOR[19]),但它不易還原真實(shí)世界的數(shù)據(jù)分布。一方面,圖像上通常包含影響算法學(xué)習(xí)的artifacts(即使肉眼難以觀察出來),從而難以保證在虛擬數(shù)據(jù)上訓(xùn)練的模型的遷移能力。然而不論是哪種方法,虛擬環(huán)境的大小和真實(shí)度還不能滿足要求,且難以允許AI算法與環(huán)境中的其他智能體互動(dòng)。
更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。NLP的數(shù)據(jù)結(jié)構(gòu)比較簡(jiǎn)單,它天然具備“單詞”這樣基本、不可分的[20]語義單元,也自然地設(shè)計(jì)出了transformer這樣的架構(gòu)來處理這些離散單元;在任務(wù)層面上,NLP將預(yù)訓(xùn)練定義為上下文生成(俗稱完形填空),同時(shí)也將所有下游任務(wù)也建模為上下文生成。如此渾然一體的框架,使得NLP的預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間gap很小。然而CV的數(shù)據(jù)結(jié)構(gòu)就要復(fù)雜得多:這種復(fù)雜不僅體現(xiàn)在圖像的維度更高,而且體現(xiàn)在圖像的基本語義單元難以定義。在這種情況下,一味地“抄作業(yè)”,強(qiáng)行把圖像切分為tokens以套用transformer架構(gòu),顯然不是最優(yōu)方案。當(dāng)前,我越來越傾向于認(rèn)為,token只是一種假象、一種權(quán)宜之法,真正適合視覺表征的數(shù)學(xué)性質(zhì),還需要更多工作來揭示。
更復(fù)雜的實(shí)際任務(wù)。顯然,引入CV信號(hào)后,智能體通過與環(huán)境互動(dòng),能夠完成更多、更復(fù)雜的任務(wù)。與NLP的多輪對(duì)話相比,這些任務(wù)的形式更復(fù)雜、數(shù)據(jù)模態(tài)更豐富、多樣性也更顯著??梢灶A(yù)期,如果采用指令微調(diào)的方式,就需要收集更多的數(shù)據(jù),甚至引入真實(shí)智能體的行為模式。這對(duì)于數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度等方面,都有更高的要求。
最近,我們關(guān)注到一些令人欣喜的工作。其中一個(gè)工作是PaLM-E[21],它使用跨模態(tài)基礎(chǔ)模型來指導(dǎo)具身視覺算法,增強(qiáng)其能力。另一個(gè)不如PaLM-E有名,但卻更讓人振奮的工作則是ENTL[22],它將環(huán)境建模和指令學(xué)習(xí)都建模為序列預(yù)測(cè)的形式,實(shí)現(xiàn)了上述框架的雛形。這些工作照亮了在環(huán)境中學(xué)習(xí)的道路;在此基礎(chǔ)上,伴隨著系統(tǒng)設(shè)計(jì)和工程優(yōu)化,我們將會(huì)看到CV大一統(tǒng)的光明未來。
小結(jié)
在達(dá)特茅斯會(huì)議的提議書中,AI的先驅(qū)者們寫下了一個(gè)看似平凡,卻無比困難的問題:如何讓計(jì)算機(jī)學(xué)會(huì)使用人類語言?經(jīng)過幾十年的努力,研究者們終于在NLP領(lǐng)域看到了AGI的曙光,但是CV領(lǐng)域距離這個(gè)目標(biāo)還有很遠(yuǎn)。造成CV當(dāng)前困境的本質(zhì)原因,在于CV領(lǐng)域沒有構(gòu)建起“從環(huán)境中學(xué)習(xí)”的范式,因而只能采樣環(huán)境、設(shè)計(jì)代理任務(wù),無法形成系統(tǒng)層面的閉環(huán)。未來,為了實(shí)現(xiàn)CV的大一統(tǒng),我們必須拋棄現(xiàn)有框架,設(shè)計(jì)全新的具身范式,讓CV算法在與環(huán)境的交互中增強(qiáng)能力,不斷進(jìn)化。
一些感性的思考
最近一段時(shí)間,我看到了許多稍顯浮躁的論調(diào)。其中最為常見的,莫過于AI將要革新一切,甚至消滅大部分AI從業(yè)者,最終達(dá)到共同失業(yè)(劃掉最后一句)。作為理智的從業(yè)人員,我知道CV算法的能力還比較有限,硬骨頭還有很多。不過有一點(diǎn)是確定的:大規(guī)模語言模型(LLM)已經(jīng)具備了強(qiáng)大的意圖理解和初步的邏輯推理能力,因而達(dá)到了成為AI與人類溝通的“中樞系統(tǒng)”的條件。一旦如此,這條技術(shù)路線就會(huì)固化下來,在未來3-5年甚至更長(zhǎng)的時(shí)間內(nèi),業(yè)界要做的事情只有兩件:繼續(xù)強(qiáng)化中樞系統(tǒng)(增強(qiáng)LLM或者構(gòu)建其多模態(tài)的變種、以模塊化的形式完善其各項(xiàng)能力),并且將這種范式復(fù)刻到CV領(lǐng)域里去。如今,再討論大模型是否是未來已經(jīng)沒有意義,我們要做的,就是為CV真正用上大模型做好鋪墊和準(zhǔn)備。
目前看來,大模型很可能會(huì)成為與深度學(xué)習(xí)本身相媲美的革命性技術(shù),我們很可能正在經(jīng)歷一場(chǎng)技術(shù)革命。在大模型定義的新時(shí)代里,我們每個(gè)人都是初學(xué)者。以代理任務(wù)為代表的舊時(shí)代遺存,將很快失去價(jià)值;而不能勇敢地?fù)肀路椒ǖ娜?,也將隨著代理任務(wù)一并消亡。
附錄
以下文字,是對(duì)上述觀點(diǎn)的補(bǔ)充,也是一些暫時(shí)還沒有形成體系的思考。
再談CV的根本困難
在去年的那篇文章里,我闡述了CV的三大根本困難,即信息稀疏性、域間差異性、無限粒度性,并且指出它們正是采樣+代理任務(wù)的范式所帶來的副作用。文章鏈接如下:關(guān)于視覺識(shí)別領(lǐng)域發(fā)展的個(gè)人觀點(diǎn)
其中的關(guān)鍵段落摘抄如下:
從根本上說,自然語言是人類創(chuàng)造出來,用于存儲(chǔ)知識(shí)和交流信息的載體,所以必然具有高效和信息密度高的特性;而圖像則是人類通過各種傳感器捕捉的光學(xué)信號(hào),它能夠客觀地反映真實(shí)情況,但相應(yīng)地就不具有強(qiáng)語義,且信息密度可能很低。從另一個(gè)角度看,圖像空間比文本空間要大得多,空間的結(jié)構(gòu)也要復(fù)雜得多。這就意味著,如果希望在空間中采樣大量樣本,并且用這些數(shù)據(jù)來表征整個(gè)空間的分布,采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個(gè)數(shù)量級(jí)。順帶一提,這也是為什么自然語言預(yù)訓(xùn)練模型比視覺預(yù)訓(xùn)練模型用得更好的本質(zhì)原因——我們?cè)诤竺孢€會(huì)提到這一點(diǎn)。根據(jù)上述分析,我們已經(jīng)通過CV和NLP的差別,引出了CV的第一個(gè)基本困難,即語義稀疏性。而另外兩個(gè)困難,域間差異性和無限粒度性,也多少與上述本質(zhì)差別相關(guān)。正是由于圖像采樣時(shí)沒有考慮到語義,因而在采樣不同域(即不同分布,如白天和黑夜、晴天和雨天等場(chǎng)景)時(shí),采樣結(jié)果(即圖像像素)與域特性強(qiáng)相關(guān),導(dǎo)致了域間差異性。同時(shí),由于圖像的基本語義單元很難定義(而文本很容易定義),且圖像所表達(dá)的信息豐富多樣,使得人類能夠從圖像中獲取近乎無限精細(xì)的語義信息,遠(yuǎn)遠(yuǎn)超出當(dāng)前CV領(lǐng)域任何一種評(píng)價(jià)指標(biāo)所定義的能力,這就是無限粒度性[23]。
進(jìn)一步分析,我們就會(huì)得到一個(gè)有趣的結(jié)論:CV的本質(zhì)困難在于人類對(duì)視覺信號(hào)的理解十分有限。人類從來就沒有真正掌握視覺信號(hào)的結(jié)構(gòu),乃至為其定義某種專用語言,而只能通過自然語言來指代和表示視覺信號(hào)。許多明顯的證據(jù)都能夠表達(dá)這一點(diǎn):大部分人在沒有經(jīng)過訓(xùn)練的情況下,很難畫出具有真實(shí)感的圖像(這表明人類沒有掌握?qǐng)D像的數(shù)據(jù)分布);同時(shí),大部分人很難通過語言交流,向另外一個(gè)人準(zhǔn)確地表達(dá)圖像上的意思——即使兩人在語音通話,且看著電腦上的同一張圖,要想通過純語言交流指代圖中的某些細(xì)節(jié)元素,也未必總是容易的。
如果重新審視CV的三大根本困難,就會(huì)發(fā)現(xiàn)它們可以統(tǒng)一起來,體現(xiàn)為視覺信號(hào)的表征粒度具有主觀性和不確定性,或者追求客觀的視覺信號(hào)與追求簡(jiǎn)潔的語義信號(hào)之間的矛盾。當(dāng)表征粒度較大(即追求語義信號(hào)的簡(jiǎn)潔性)時(shí),人類可以用較為簡(jiǎn)潔的方式表達(dá)視覺信息,于是認(rèn)為視覺信號(hào)具有語義稀疏性;當(dāng)表征粒度較小(即追求視覺信號(hào)的客觀性)時(shí),人類又能夠識(shí)別出圖像中豐富的視覺信息,于是認(rèn)為視覺信號(hào)具有無限粒度性;當(dāng)表征粒度不確定時(shí),人類很難將連續(xù)變化的視覺信號(hào)與離散的語義空間對(duì)應(yīng)起來,于是在視覺信號(hào)改變而語義不變的范圍內(nèi),就產(chǎn)生了域間差異性[24]。
此外需要特別指出的是,信息稀疏性和無限粒度性之間的矛盾,主要體現(xiàn)在傳統(tǒng)的代理任務(wù)中。此時(shí),如果追求表征的高效性(如使用信息壓縮作為指標(biāo)),就難以保證識(shí)別的細(xì)粒度和準(zhǔn)確率。為了規(guī)避這樣的矛盾,唯一的方案是構(gòu)建真實(shí)的交互環(huán)境,允許智能體根據(jù)任務(wù)來調(diào)整視覺信號(hào)的粒度。
再次對(duì)比CV和NLP,就會(huì)發(fā)現(xiàn),NLP很好地避免了粒度不確定的問題。由于NLP處理的文本信號(hào)是人為創(chuàng)造的,它的粒度就是文字本身的粒度。雖然這個(gè)粒度可變(例如用語言描述一個(gè)物體或者場(chǎng)景時(shí),既可以描述得很精確,也可以描述得很粗略),但人類確定了這個(gè)粒度,并且保證它與實(shí)際需求相吻合。
既然NLP的粒度比較明確,是否可以幫助CV完成任務(wù)?我們發(fā)現(xiàn),以往幾乎所有CV方法,都使用NLP的方式來定義粒度。其中典型的例子有兩個(gè):基于分類的任務(wù)以及語言指代的任務(wù)。這兩種方式各自存在的缺陷,我在之前的文章中也分析過,摘錄如下。
基于分類的方法:這包括傳統(tǒng)意義上的分類、檢測(cè)、分割等方法,其基本特點(diǎn)是給圖像中的每個(gè)基本語義單元(圖像、box、mask、keypoint等)賦予一個(gè)類別標(biāo)簽。這種方法的致命缺陷在于,當(dāng)識(shí)別的粒度增加時(shí),識(shí)別的確定性必然下降,也就是說,粒度和確定性是沖突的。舉例說,在ImageNet中,存在著“家具”和“電器”兩個(gè)大類;顯然“椅子”屬于“家具”,而“電視機(jī)”屬于“家電”,但是“按摩椅”屬于“家具”還是“家電”,就很難判斷——這就是語義粒度的增加引發(fā)的確定性的下降。如果照片里有一個(gè)分辨率很小的“人”,強(qiáng)行標(biāo)注這個(gè)“人”的“頭部”甚至“眼睛”,那么不同標(biāo)注者的判斷可能會(huì)不同;但是此時(shí),即使是一兩個(gè)像素的偏差,也會(huì)大大影響IoU等指標(biāo)——這就是空間粒度的增加引發(fā)的確定性的下降。語言驅(qū)動(dòng)的方法:這包括CLIP帶動(dòng)的視覺prompt類方法,以及存在更長(zhǎng)時(shí)間的visual grounding問題等,其基本特點(diǎn)是利用語言來指代圖像中的語義信息并加以識(shí)別。語言的引入,確實(shí)增強(qiáng)了識(shí)別的靈活性,并帶來了天然的開放域性質(zhì)。然而語言本身的指代能力有限(想象一下,在一個(gè)具有上百人的場(chǎng)景中指代某個(gè)特定個(gè)體),無法滿足無限細(xì)粒度視覺識(shí)別的需要。歸根結(jié)底,在視覺識(shí)別領(lǐng)域,語言應(yīng)當(dāng)起到輔助視覺的作用,而已有的視覺prompt方法多少有些喧賓奪主的感覺。
說了這么多,還是回到開始的那個(gè)根本癥結(jié):視覺沒有定義好自己的語言。當(dāng)前可見的方法,都是用NLP的方式來定義CV。這些方法可以解決CV的初級(jí)問題,但要深入探索下去,就要碰得頭破血流!
CV所處的發(fā)展階段
很顯然,GPT范式在NLP領(lǐng)域的大獲成功,讓CV研究者有些心癢難耐。遵循NLP的發(fā)展路徑看,NLP在GPT-1階段構(gòu)建了大模型,在GPT-3階段觀察到了能力涌現(xiàn),進(jìn)而在ChatGPT階段采用了指令學(xué)習(xí)來解決具體任務(wù)。
于是一個(gè)很重要的問題是:當(dāng)前的CV研究,到底發(fā)展到了什么階段?
4月底,我參加了一次VALSE線上研討會(huì)的panel環(huán)節(jié),其中一個(gè)問題就是:SAM是否解決了計(jì)算機(jī)視覺問題,或者是否達(dá)到了GPT-3的水平(以致于可以在此基礎(chǔ)上構(gòu)建強(qiáng)大的CV算法)。我給出的結(jié)論很悲觀:SAM沒有達(dá)到GPT-3的水平,甚至離GPT-1還很遠(yuǎn)。其中最重要的原因,就是CV沒有構(gòu)建合適的學(xué)習(xí)環(huán)境。前面說到,NLP構(gòu)建了對(duì)話環(huán)境,并且針對(duì)對(duì)話任務(wù),設(shè)計(jì)了完形填空配合指令微調(diào)的學(xué)習(xí)范式。如果CV要仿照這套流程,就應(yīng)當(dāng)也構(gòu)建交互任務(wù),并且設(shè)計(jì)相應(yīng)的預(yù)訓(xùn)練和微調(diào)任務(wù)。很顯然,當(dāng)前的CV學(xué)習(xí)范式并沒有做到這一點(diǎn),因此我們總感覺CV的上下游任務(wù)是脫節(jié)的:即使當(dāng)前效果最好的MIM方法,似乎也和下游任務(wù)關(guān)系不大。要解決這個(gè)問題,很可能要從源頭下手,構(gòu)建起真正的學(xué)習(xí)環(huán)境來。
接著我們討論能力涌現(xiàn)的問題。關(guān)于NLP的大模型為什么能夠觀察到能力涌現(xiàn),業(yè)界似乎還存有疑問。我自己有一個(gè)大膽的假說:能力涌現(xiàn)的前提,是預(yù)訓(xùn)練數(shù)據(jù)已經(jīng)覆蓋了現(xiàn)實(shí)世界的一定比例。在這種情況下,預(yù)訓(xùn)練模型不必?fù)?dān)心過擬合,因?yàn)樗娜蝿?wù)就是記憶數(shù)據(jù)分布,某種意義上就是過擬合——這個(gè)假說也同時(shí)揭示了為什么NLP可以追求大模型:因?yàn)樵诓粨?dān)心過擬合的情況下,大模型的擬合能力要更強(qiáng)。在這里,NLP的特征空間小、數(shù)據(jù)形態(tài)簡(jiǎn)單的優(yōu)勢(shì)就體現(xiàn)出來,而CV要想達(dá)到這樣的狀態(tài),還需要更多的數(shù)據(jù)和更大的算力。
我有一個(gè)不嚴(yán)格的類比:NLP好比國(guó)際象棋,CV好比圍棋。1996年,超級(jí)計(jì)算機(jī)深藍(lán)通過啟發(fā)式搜索的方式,在國(guó)際象棋中戰(zhàn)勝了人類世界冠軍,但是相似的方法無法在圍棋中復(fù)現(xiàn),因?yàn)閲宓臓顟B(tài)空間要遠(yuǎn)遠(yuǎn)超過國(guó)際象棋。后來,在深度學(xué)習(xí)的幫助下,圍棋的啟發(fā)式函數(shù)得到了非平凡的改進(jìn),終于能夠支撐起更復(fù)雜的狀態(tài)空間的探索。如果沒有深度學(xué)習(xí),也許人類要再過幾十年,才能夠通過超大計(jì)算量的堆砌,達(dá)成同樣的成就。深度學(xué)習(xí)的出現(xiàn)極大地加速了這個(gè)過程。
回到CV的發(fā)展上來。誠(chéng)然,按照當(dāng)前數(shù)據(jù)收集和計(jì)算量提升的速度,或許再過足夠長(zhǎng)的時(shí)間,CV也能夠跌跌撞撞地達(dá)到當(dāng)前NLP的水平。不過我相信,在此之前,一定會(huì)有某項(xiàng)技術(shù)突破,加速CV趕超NLP的過程。而我們CV研究者的使命,就是找到這項(xiàng)技術(shù),或者至少找對(duì)正確的方向。
對(duì)未來研究方向的展望
經(jīng)過上面的討論,未來CV的pipeline已經(jīng)有了雛形:基于交互環(huán)境的生成式預(yù)訓(xùn)練和指令微調(diào)方法。這未必是唯一的路線,只是在NLP的啟發(fā)下催生出來的最有可能的路線。實(shí)現(xiàn)它的困難有很多,但只要認(rèn)準(zhǔn)了方向,當(dāng)前的困難恰恰對(duì)應(yīng)于最有前景的研究方向。
退一步說,如果上述pipeline在短期內(nèi)難以實(shí)現(xiàn),那么CV就應(yīng)當(dāng)盡可能吸收NLP的能力,以期提升通用能力。很顯然,純粹基于圖像信號(hào)的CV研究將越來越少,融合語言的跨模態(tài)研究將成為絕對(duì)主流:只要使用了CLIP或者類似的多模態(tài)基礎(chǔ)模型用于特征抽取,就相當(dāng)于接受了跨模態(tài)的思想。在這條路線上,最重要的研究方向可以概括為“找到圖像與自然語言的交互方式”,或者更進(jìn)一步地說,“找到圖像本身的語言”:這一點(diǎn)對(duì)于交互類任務(wù)也是至關(guān)重要的。
責(zé)任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7085瀏覽量
89215 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46033 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15439 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22058
原文標(biāo)題:VALSE 2023 | 走向計(jì)算機(jī)視覺的通用人工智能:GPT和大語言模型帶來的啟發(fā)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論