亚洲无线码在线一区观看,香蕉久久精品,色婷婷久久综合中文久久一本

引言

距離上次的長(zhǎng)篇大論，已經(jīng)過去了半年有余。這段時(shí)間，對(duì)于AI業(yè)界甚至整個(gè)世界，都是驚心動(dòng)魄的。在這段時(shí)間里，最令人印象深刻的大事莫過于ChatGPT和GPT-4的發(fā)布。毫無疑問，GPT-4是有史以來最為強(qiáng)大的AI程序。在隨后發(fā)表的一篇論文[1]中，學(xué)者們將GPT-4稱為通用人工智能（AGI）誕生的火花。誠(chéng)然，每個(gè)人對(duì)于AGI的定義不盡相同，現(xiàn)階段的GPT也尚未真正解決AI領(lǐng)域的所有難題；然而，基于大模型的技術(shù)，確實(shí)已經(jīng)接近完成NLP領(lǐng)域的大一統(tǒng)，甚至讓人隱約看到了AGI的曙光?；蛟S，在3-5年內(nèi)，我們就能夠看到馮諾伊曼架構(gòu)基礎(chǔ)之上的AGI計(jì)算架構(gòu)；倘若如此，大模型將在其中占據(jù)核心位置。

除了GPT系列外，計(jì)算機(jī)視覺領(lǐng)域也好不熱鬧，幾個(gè)前沿方向都出現(xiàn)了令人驚嘆的進(jìn)展。對(duì)于公眾來說，感受最深的莫過于AI繪畫了。Stable Diffusion[2]和ControlNet[3]等技術(shù)的出現(xiàn)，大幅降低了訓(xùn)練和應(yīng)用擴(kuò)散模型的門檻。在Midjourney等社區(qū)中，AI繪畫的發(fā)展速度可謂一日千里，許多技術(shù)困難（如AI不會(huì)畫手、不會(huì)數(shù)數(shù)等）也得到了初步改善。如今，只要有一塊入門級(jí)GPU或者交一點(diǎn)訂閱費(fèi)用，每個(gè)人都可以創(chuàng)作出自己的AI作品來。就連一段時(shí)間以來頗為平淡的視覺感知領(lǐng)域，也被一個(gè)叫做SAM[4]的方法攪動(dòng)起來：雖然SAM還存在諸多缺陷（如語義識(shí)別能力有限），但它讓人看到了視覺基礎(chǔ)模型的更多可能性。根據(jù)Google scholar的統(tǒng)計(jì)，僅僅兩個(gè)月的時(shí)間里，SAM就得到了超過200次引用，足見關(guān)注程度之高、研究之內(nèi)卷。

面對(duì)如此沖擊，包括我在內(nèi)的許多研究者都會(huì)感到迷茫。很顯然，在NLP的引領(lǐng)下，發(fā)展大一統(tǒng)的任務(wù)和體系，將成為未來3-5年整個(gè)CV領(lǐng)域的核心課題。然而，CV是否已經(jīng)做好實(shí)現(xiàn)這個(gè)宏偉目標(biāo)的準(zhǔn)備？當(dāng)前的視覺基礎(chǔ)模型（包括最近的SAM）究竟做到了什么、沒有做到什么？這篇斷斷續(xù)續(xù)寫了兩個(gè)月的文章，就是我對(duì)于這些問題的思考。

文章的部分內(nèi)容，也被我整理成一篇微型survey，并與VALSE上報(bào)告的PPT一起，放在以下地址：

在這篇文章中，我將從AGI的定義說起。隨后，我將簡(jiǎn)要回顧NLP領(lǐng)域所經(jīng)歷的變革。基于大語言模型的GPT系列，為自然語言處理帶來了劃時(shí)代的改變，點(diǎn)燃了AGI的火花。接著，我將進(jìn)入CV領(lǐng)域的討論。作為AGI的下一個(gè)重要戰(zhàn)場(chǎng)，CV領(lǐng)域正在走向大一統(tǒng)模型，但是面臨的困難還很大。我將回顧現(xiàn)有工作，分析本質(zhì)困難，并且在GPT的啟發(fā)下提出一種新的研究范式。最后，我還將分享一些個(gè)人觀點(diǎn)。

人工智能和通用人工智能

今天的人們，對(duì)于人工智能（AI）一詞并不陌生。現(xiàn)代意義上的AI誕生于1956年的達(dá)特茅斯會(huì)議，隨后經(jīng)歷了幾十年的發(fā)展，幾經(jīng)興衰。AI的根本目標(biāo)，在于使用數(shù)學(xué)方法復(fù)現(xiàn)人類智能。近年來，在深度學(xué)習(xí)的帶動(dòng)下，AI領(lǐng)域取得了長(zhǎng)足進(jìn)步，也深刻地改變了人們的生產(chǎn)生活方式。

通用人工智能（AGI），是AI發(fā)展的最高目標(biāo)。關(guān)于AGI的定義有很多，其中最通俗的一種，即AGI是能夠具有任何人類和動(dòng)物所具有能力的算法。從早期的圖靈測(cè)試（早于達(dá)特茅斯會(huì)議）開始，關(guān)于AGI的追求和爭(zhēng)論從未停止。深度學(xué)習(xí)的出現(xiàn)，大大加快了AGI的進(jìn)程；而近期的GPT系列，則被學(xué)者們認(rèn)為是點(diǎn)燃了AGI的火花[1]。深度學(xué)習(xí)本身提供了一種通用的方法論，使得人們可以在確定輸入和輸出形式的情況下，使用統(tǒng)計(jì)學(xué)習(xí)方法，構(gòu)建神經(jīng)網(wǎng)絡(luò)（一種層次化的數(shù)學(xué)函數(shù)）來近似輸入和輸出之間的關(guān)系。只要有足夠多的數(shù)據(jù)，深度學(xué)習(xí)就能夠應(yīng)用于CV、NLP、強(qiáng)化學(xué)習(xí)等諸多AI子領(lǐng)域。

GPT：點(diǎn)燃NLP領(lǐng)域的AGI火花

發(fā)布以來，GPT系列刷新了無數(shù)紀(jì)錄，其中就包括2個(gè)月內(nèi)達(dá)到1億用戶的神跡。這個(gè)紀(jì)錄的重要性在于，它表明了AI算法已經(jīng)具備面向普通用戶（to consumers，即2C）的能力，這在歷史上還是第一次。為了做到2C，AI算法必須具備極強(qiáng)的通用能力，能夠滿足用戶的絕大部分要求。令人吃驚的是，GPT做到了這一點(diǎn)。GPT基本上解決了NLP領(lǐng)域的常見問題。在許多問題（如編寫代碼）上，GPT的能力甚至超越了專門設(shè)計(jì)的算法。也就是說，GPT實(shí)現(xiàn)了NLP領(lǐng)域的大一統(tǒng)：原先看似孤立的各個(gè)任務(wù)，都可以在多輪對(duì)話任務(wù)下統(tǒng)一起來。誠(chéng)然，GPT還不完美，也會(huì)在許多問題上犯錯(cuò)或者胡言亂語，但是在可預(yù)見的范圍內(nèi)，NLP的研究范式不會(huì)再發(fā)生大的變革了。這場(chǎng)曠日持久（從達(dá)特茅斯會(huì)議算起，已有近70年）的NLP戰(zhàn)爭(zhēng)已經(jīng)分出勝負(fù)，接下來就是些打掃戰(zhàn)場(chǎng)的工作，比如解決垂直領(lǐng)域問題、邏輯推理、提高用戶體驗(yàn)，等等。

關(guān)于GPT的能力展示，此處不再贅述，大家可以參考互聯(lián)網(wǎng)上浩如煙海的資料，或者“AGI火花”一文里系統(tǒng)詳盡的分析[1]。我只想引述GPT-4官方新聞的一句話：

As a result, our GPT-4 training run was (for us at least!) unprecedentedly stable, becoming our first large model whose training performance we were able to accurately predict ahead of time.
結(jié)果表明，GPT-4的訓(xùn)練過程（至少對(duì)我們來說）前所未有地穩(wěn)定，它也成為我們訓(xùn)練過的第一個(gè)能夠提前準(zhǔn)確預(yù)測(cè)效果的大模型。

換句話說，GPT-4的本質(zhì)是個(gè)神經(jīng)網(wǎng)絡(luò)，是個(gè)概率模型；但是它表現(xiàn)出來的行為（不論是訓(xùn)練還是測(cè)試），已經(jīng)穩(wěn)定得不像個(gè)概率模型了。這著實(shí)是一次了不起的技術(shù)突破！

關(guān)于GPT系列的實(shí)現(xiàn)原理，許多優(yōu)秀的文章已經(jīng)做過分析，此處我不再贅述。簡(jiǎn)單地說，GPT訓(xùn)練分為兩個(gè)階段。第一階段被稱為生成式預(yù)訓(xùn)練，主要在無標(biāo)注的通用語料庫(kù)中進(jìn)行。大規(guī)模語言模型通過預(yù)測(cè)下一單詞，擬合通用文本的數(shù)據(jù)分布，并獲得in-context learning能力，能夠通過少量示例來適應(yīng)新任務(wù)。第二階段被稱為指令微調(diào)，主要在有標(biāo)注的對(duì)話數(shù)據(jù)庫(kù)中進(jìn)行。在此過程中，大規(guī)模語言模型將通用文本分布對(duì)齊到問答數(shù)據(jù)中，顯著提升了針對(duì)性解決問題的能力。同時(shí)，模型還可以從人類用戶的反饋中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)，從而進(jìn)一步增強(qiáng)其滿足用戶偏好的能力。如果對(duì)更具體的分析感興趣，可以自行搜索ChatGPT的實(shí)現(xiàn)原理。

CV：AGI的下一個(gè)戰(zhàn)場(chǎng)

由于人類通過多種模態(tài)來理解世界，因此真正的AGI必須結(jié)合CV和NLP來實(shí)現(xiàn)。然而，在CV中實(shí)現(xiàn)AGI，比在NLP中實(shí)現(xiàn)AGI的難度大很多。根據(jù)前面的定義，真正的AGI應(yīng)該具有即解決通用問題、與環(huán)境互動(dòng)的能力，而不僅僅是完成萬物識(shí)別和多模態(tài)對(duì)話等初級(jí)任務(wù)。然而如圖2所示（示例圖源：UberNet[6]），相比于利用統(tǒng)一對(duì)話系統(tǒng)來解決所有問題的GPT，當(dāng)前CV的常用方法論還比較初步，大多局限于使用獨(dú)立的模型甚至算法來解決不同的問題，包括圖像分類、物體檢測(cè)、實(shí)例分割、注意力檢測(cè)、圖像描述、以文生圖等。

圖2：當(dāng)前CV主要使用獨(dú)立的算法解決問題。

艱難的CV大一統(tǒng)之路

為了接近GPT的水平，CV必須走向大一統(tǒng)，也就是使用一套系統(tǒng)，解決各種視覺問題。近來，業(yè)界出現(xiàn)了不少此類嘗試，我們將其分為五個(gè)主要方向。其中前三個(gè)方向主要解決任務(wù)形式的統(tǒng)一、第四個(gè)方向主要解決視覺任務(wù)邏輯的統(tǒng)一、最后一個(gè)方向主要解決視覺和語言交互的統(tǒng)一。以下我們簡(jiǎn)要綜述每個(gè)方向的代表性工作，并且分析它們的優(yōu)缺點(diǎn)。

開放域視覺識(shí)別：即要求算法不僅能夠識(shí)別訓(xùn)練集中出現(xiàn)過的概念，還能夠通過自然語言等方式識(shí)別訓(xùn)練集中未出現(xiàn)過的概念。當(dāng)前，開放域識(shí)別的主要奠基性工作為CLIP[7]，它提供了文本和圖像間的跨模態(tài)特征對(duì)齊方法，使得人們能夠統(tǒng)一使用自然語言來指代目標(biāo)語義，從而完成了分類、檢測(cè)、分割、定位、按需識(shí)別等各類任務(wù)。雖然自然語言提供了足夠的靈活性，使得開放域識(shí)別成為可能，但自然語言難以指代視覺信號(hào)中的細(xì)粒度信息，從而在一定程度上限制了識(shí)別能力。

Segment Anything任務(wù)：通過設(shè)計(jì)統(tǒng)一的prompt系統(tǒng)并且在標(biāo)注層面完成數(shù)據(jù)閉環(huán)，SAM[4]能夠分割出圖像中的所有基礎(chǔ)單元，并且在相當(dāng)廣泛的視覺域中展現(xiàn)出了泛化能力。無需重新訓(xùn)練，SAM就能提供基礎(chǔ)語義單元，并應(yīng)用于分割3D物體、物體消除和填充、分割醫(yī)療影像或者隱藏物體，等。SAM傳遞出的重要思路是：通過降低視覺任務(wù)的難度（此處主要指無語義標(biāo)簽的分割），來統(tǒng)一視覺任務(wù)形式定義，增強(qiáng)模型的域間遷移能力。從形式看看，SAM很像通用的視覺識(shí)別流程中的一個(gè)部分，但如何構(gòu)建合理的上下游模塊來配合它（以構(gòu)建完整流程），依然是個(gè)開放問題。

通用視覺編碼：即一系列通過統(tǒng)一編碼形式，來整合多種任務(wù)的嘗試。它們雖然形式不同，但是都指向同一個(gè)目標(biāo)，即通過把不同模態(tài)、不同任務(wù)的數(shù)據(jù)編碼為統(tǒng)一形態(tài)，使得單個(gè)神經(jīng)網(wǎng)絡(luò)模型能夠完成盡可能多的任務(wù)。其中代表性的方法分為三類：首先是Gato[8]，它驗(yàn)證了單個(gè)transformer模型能夠完成CV、NLP、強(qiáng)化學(xué)習(xí)等任務(wù)；其次是pix2seq[9]和OFA[10]，驗(yàn)證了不同視覺任務(wù)（如檢測(cè)、分割、描述）在自然語言形態(tài)下得到統(tǒng)一，從而送入單個(gè)模型進(jìn)行訓(xùn)練；最后是Painter[11]和SegGPT[12]，借鑒了NLP中in-context learning的方式，將一系列視覺任務(wù)編碼為不同形式的圖像密集預(yù)測(cè)任務(wù)，并訓(xùn)練單個(gè)純視覺模型來解決問題。相比于傳統(tǒng)視覺識(shí)別框架，這些方法更接近大一統(tǒng)的目標(biāo)，也論證了當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型特別是transformer能夠適應(yīng)一大類跨模態(tài)任務(wù)。然而，這些僅僅追求形式上的統(tǒng)一，與多任務(wù)學(xué)習(xí)的邊界并不清晰，也并未充分展現(xiàn)出統(tǒng)一帶來的好處。

大語言模型引導(dǎo)的視覺理解：在語言模型的協(xié)助下，將復(fù)雜視覺問題拆解為統(tǒng)一的邏輯鏈，并分步解決問題。其實(shí)這類方法并非最近才出現(xiàn)：至少在2017年，就出現(xiàn)了使用LSTM拆分問題并調(diào)用視覺模塊的嘗試[13]。只是大語言模型的出現(xiàn)，使得這一方法論的通用性大大增強(qiáng)。最近出現(xiàn)的一系列工作，其共同特點(diǎn)是使用GPT將文本問題轉(zhuǎn)化為可分步執(zhí)行的邏輯。這種邏輯可以是代碼，可以對(duì)接搜索引擎，也可以表現(xiàn)為流程圖或者自然語言。必要時(shí)，程序?qū)⒄{(diào)用視覺模塊，以提供檢測(cè)、計(jì)數(shù)、OCR、描述等基礎(chǔ)能力。這類方法充實(shí)了視覺問答的邏輯，也提升了答案的可解釋性，但它強(qiáng)烈地依賴于大語言模型和基礎(chǔ)視覺模塊。很多情況下，以檢測(cè)為代表的視覺任務(wù)本身也需要復(fù)雜邏輯來完成。很顯然，當(dāng)前的方法很難下探到這一深度。

多模態(tài)對(duì)話：在對(duì)話任務(wù)中引入圖像或視頻作為參考，從而允許通過對(duì)話任務(wù)來完成統(tǒng)一形式的視覺理解。在視覺、語言、跨模態(tài)預(yù)訓(xùn)練模型的基礎(chǔ)上，只需要微調(diào)很少部分的參數(shù)，就能完成問答任務(wù)[14]。受到GPT系列的啟發(fā)，研究者們將視覺標(biāo)注送入語言模型，在簡(jiǎn)單的提示下，生成了問答數(shù)據(jù)[15]。多模態(tài)對(duì)話模型在這些問答數(shù)據(jù)上微調(diào)之后，就具備了回答復(fù)雜問題的能力。目前，以此種方式產(chǎn)生的問答結(jié)果，已經(jīng)可以媲美GPT-4技術(shù)報(bào)告中提到的例子[16]。然而，當(dāng)前多模態(tài)對(duì)話系統(tǒng)的能力，大部分來自大語言模型。這也就意味著，與開放域識(shí)別一樣，多模態(tài)對(duì)話對(duì)于細(xì)粒度視覺信息的指代能力比較有限。在使用復(fù)雜圖像作為參考時(shí)，算法很難針對(duì)其中某個(gè)特定的人或物進(jìn)行提問，從而也限制了解決具體問題的能力。

以上幾個(gè)方向的研究，將CV領(lǐng)域帶到了新的高度。以當(dāng)前進(jìn)展看，CV算法能夠在一定條件下完成視覺識(shí)別，也能夠進(jìn)行初步的多模態(tài)對(duì)話，但是距離大一統(tǒng)模型、距離通用的任務(wù)解決還有很遠(yuǎn)。而后者正是AGI所需要的能力。

于是我們不禁要問：為什么在CV中完成大一統(tǒng)如此困難？這個(gè)問題的答案，還要從NLP中去找。

NLP給CV帶來的啟發(fā)

我們嘗試從另一個(gè)視角來理解GPT所完成的事情。我們不妨想象自己像GPT一樣，生活在一個(gè)純文本的世界里。在這樣的世界里，多輪對(duì)話任務(wù)是充分且必要的：一方面，我們只能通過文字與其他智能體交流；另一方面，我們可以通過多輪對(duì)話去完成所有任務(wù)。也就是說，在NLP領(lǐng)域，學(xué)習(xí)環(huán)境是完備的：我們通過多輪對(duì)話來訓(xùn)練算法，而算法也只需要掌握多輪對(duì)話，就是一個(gè)能夠完成所有任務(wù)的AGI。我將這個(gè)性質(zhì)成為“所訓(xùn)即所需”——這個(gè)詞是模仿“所見即所得”造出來的。

這樣看來，GPT所定義的對(duì)話任務(wù)，比起GPT的實(shí)現(xiàn)方法更加重要！這種定義使得AI算法能夠通過與環(huán)境互動(dòng)來學(xué)習(xí)，恰好符合AGI的定義：與環(huán)境互動(dòng)，并且最大化獎(jiǎng)勵(lì)。相較而言，CV就沒有形成清晰的路線：既沒有環(huán)境用于預(yù)訓(xùn)練，各種算法也并不能在實(shí)際環(huán)境中解決問題。顯然，這背離了CV和AGI的基本原則。事實(shí)上，早在1970年代，計(jì)算機(jī)視覺的先驅(qū)大衛(wèi)·馬爾就提出：視覺算法必須構(gòu)建真實(shí)世界的模型，并且從交互中學(xué)習(xí)[17]；隨后也不乏其他學(xué)者指出交互的重要性。然而如今，大部分視覺算法并非研究如何與環(huán)境交互，而是研究如何在各種任務(wù)上提升精度。

這是為什么呢？當(dāng)然是環(huán)境構(gòu)建的難度太大！

代理任務(wù)：理想向現(xiàn)實(shí)的妥協(xié)

要想構(gòu)建場(chǎng)景用于CV任務(wù)，主要有兩種方法：

構(gòu)建真實(shí)環(huán)境：在真實(shí)世界中放置大量智能體，使其通過與包括人類在內(nèi)的其他智能體互動(dòng)學(xué)習(xí)。這種方式的缺點(diǎn)在于成本太高且難以確保安全。

構(gòu)建虛擬環(huán)境：通過視覺算法模擬或者重建3D環(huán)境，在虛擬世界中訓(xùn)練智能體。這種方式的缺點(diǎn)在于真實(shí)性不足，包括場(chǎng)景建模的真實(shí)性和智能體行為的真實(shí)性，從而訓(xùn)練的智能體難以有效遷移至真實(shí)世界中。

除此之外，對(duì)環(huán)境中其他智能體行為的模擬也很重要，這決定了CV算法在真實(shí)應(yīng)用場(chǎng)景中的適應(yīng)能力。如果希望環(huán)境與智能體互動(dòng)（例如在現(xiàn)實(shí)世界中放置一個(gè)真實(shí)的機(jī)器人），則收集數(shù)據(jù)的成本還會(huì)顯著上升。另一方面，環(huán)境中的智能體的行動(dòng)模式往往比較單一，難以模擬真實(shí)世界中豐富而開放（open-domain）的行為。

總的來說，目前所構(gòu)建的場(chǎng)景，還不足以滿足大規(guī)模訓(xùn)練CV算法的需要。在無法模擬環(huán)境情況下，人們只能退而求其次，不直接與環(huán)境互動(dòng)，而從真實(shí)環(huán)境中采樣大量的數(shù)據(jù)，并且將與環(huán)境互動(dòng)可能需要的能力定義為一系列代理任務(wù)（即通過完成任務(wù)，接近最終的目標(biāo)），如物體識(shí)別、追蹤等。人們假設(shè)，通過提升這些代理任務(wù)的精度，就能夠讓CV算法更接近AGI。

可問題是，這個(gè)假設(shè)對(duì)嗎？

圖3表達(dá)了我們的觀點(diǎn)。在深度學(xué)習(xí)出現(xiàn)之前，CV的算法還比較弱，代理任務(wù)的精度也不高。當(dāng)時(shí)，對(duì)于代理任務(wù)的追求，很大程度上推進(jìn)了AGI的發(fā)展。然而過去十年，隨著深度學(xué)習(xí)的發(fā)展，各項(xiàng)代理任務(wù)都已經(jīng)高度飽和。在ImageNet-1K數(shù)據(jù)集上，top-1分類精度已經(jīng)從前深度學(xué)習(xí)時(shí)代的50%以下提升到了90%以上。此時(shí)，繼續(xù)提升代理任務(wù)的精度，有可能無法逼近AGI，甚至與之背道而馳。GPT的出現(xiàn)，進(jìn)一步印證了這個(gè)觀點(diǎn)：在接近AGI的模型出現(xiàn)后，原本孤立的NLP代理任務(wù)，如翻譯和命名實(shí)體抽取，就變得不再重要了。

代理將死！

圖3：CV的代理任務(wù)正在失去意義，甚至使我們遠(yuǎn)離AGI。

未來范式：從環(huán)境中學(xué)習(xí)

我們?cè)O(shè)想的學(xué)習(xí)流程如圖4（圖源：Habitat[18]和ProcTHOR[19]）所示，分為如下階段：

第0階段，環(huán)境構(gòu)建。通過各種方式構(gòu)建虛擬環(huán)境，盡可能地增強(qiáng)環(huán)境的豐富性、真實(shí)性，可交互性。

第1階段，生成式預(yù)訓(xùn)練。讓智能體探索環(huán)境，結(jié)合自身行動(dòng)，預(yù)測(cè)未來將會(huì)看到的畫面。這對(duì)應(yīng)于GPT的預(yù)訓(xùn)練階段，任務(wù)是預(yù)測(cè)下一個(gè)單詞。在這個(gè)過程中，CV算法記憶了現(xiàn)實(shí)世界的分布，并做好了通過少量樣本學(xué)習(xí)任務(wù)的能力。

第2階段：指令微調(diào)。訓(xùn)練智能體完成具體任務(wù)，如尋找特定物體，甚至與其他智能體交互。這對(duì)應(yīng)于GPT的指令微調(diào)任務(wù)，同樣建立在豐富的任務(wù)描述和人工指令數(shù)據(jù)基礎(chǔ)上。在這個(gè)過程中，CV算法為了完成任務(wù)，必須掌握各種視覺概念，并習(xí)得按需處理視覺信號(hào)的能力。

下游階段（可選）?？梢杂没趐rompt的方式，將AGI模型用于傳統(tǒng)視覺任務(wù)。

圖4：設(shè)想中的未來CV訓(xùn)練流程，在環(huán)境探索、完成任務(wù)，并遷移到下游感知任務(wù)。

需要注意的是，在這樣一個(gè)流程中，代理任務(wù)只是算法在通用任務(wù)上訓(xùn)練過后，“順手”習(xí)得的能力。而現(xiàn)在的大部分CV研究，卻將代理任務(wù)作為唯一的追求，屬實(shí)是本末倒置了。

要想實(shí)現(xiàn)上述流程，面臨的困難有很多。我們從三個(gè)階段來分析。

更復(fù)雜的虛擬環(huán)境。當(dāng)前構(gòu)建虛擬環(huán)境的方法主要有兩種。一是基于真實(shí)數(shù)據(jù)產(chǎn)生的虛擬環(huán)境：收集實(shí)際場(chǎng)景數(shù)據(jù)，并將其建模為點(diǎn)云、面片（mesh）、神經(jīng)輻射場(chǎng)（NeRF）等數(shù)據(jù)結(jié)構(gòu)，并支持高速、大規(guī)模的渲染。這種做法的成本還比較高，難以規(guī)?；a(chǎn)環(huán)境。當(dāng)前可用的3D數(shù)據(jù)集（如Habitat[18]），相比于2D數(shù)據(jù)集，規(guī)模要小好幾個(gè)數(shù)量級(jí)，且依然局限于某些特殊場(chǎng)景（如室內(nèi)或者街景）。二是通過仿真學(xué)方法構(gòu)建虛擬環(huán)境：通過3D建模、生成式算法（包括GAN和擴(kuò)散模型）等方式，直接采樣虛擬數(shù)據(jù)并渲染3D環(huán)境。這種做法雖然能夠批量生成環(huán)境（如ProcTHOR[19]），但它不易還原真實(shí)世界的數(shù)據(jù)分布。一方面，圖像上通常包含影響算法學(xué)習(xí)的artifacts（即使肉眼難以觀察出來），從而難以保證在虛擬數(shù)據(jù)上訓(xùn)練的模型的遷移能力。然而不論是哪種方法，虛擬環(huán)境的大小和真實(shí)度還不能滿足要求，且難以允許AI算法與環(huán)境中的其他智能體互動(dòng)。

更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。NLP的數(shù)據(jù)結(jié)構(gòu)比較簡(jiǎn)單，它天然具備“單詞”這樣基本、不可分的[20]語義單元，也自然地設(shè)計(jì)出了transformer這樣的架構(gòu)來處理這些離散單元；在任務(wù)層面上，NLP將預(yù)訓(xùn)練定義為上下文生成（俗稱完形填空），同時(shí)也將所有下游任務(wù)也建模為上下文生成。如此渾然一體的框架，使得NLP的預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間gap很小。然而CV的數(shù)據(jù)結(jié)構(gòu)就要復(fù)雜得多：這種復(fù)雜不僅體現(xiàn)在圖像的維度更高，而且體現(xiàn)在圖像的基本語義單元難以定義。在這種情況下，一味地“抄作業(yè)”，強(qiáng)行把圖像切分為tokens以套用transformer架構(gòu)，顯然不是最優(yōu)方案。當(dāng)前，我越來越傾向于認(rèn)為，token只是一種假象、一種權(quán)宜之法，真正適合視覺表征的數(shù)學(xué)性質(zhì)，還需要更多工作來揭示。

更復(fù)雜的實(shí)際任務(wù)。顯然，引入CV信號(hào)后，智能體通過與環(huán)境互動(dòng)，能夠完成更多、更復(fù)雜的任務(wù)。與NLP的多輪對(duì)話相比，這些任務(wù)的形式更復(fù)雜、數(shù)據(jù)模態(tài)更豐富、多樣性也更顯著?？梢灶A(yù)期，如果采用指令微調(diào)的方式，就需要收集更多的數(shù)據(jù)，甚至引入真實(shí)智能體的行為模式。這對(duì)于數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度等方面，都有更高的要求。

最近，我們關(guān)注到一些令人欣喜的工作。其中一個(gè)工作是PaLM-E[21]，它使用跨模態(tài)基礎(chǔ)模型來指導(dǎo)具身視覺算法，增強(qiáng)其能力。另一個(gè)不如PaLM-E有名，但卻更讓人振奮的工作則是ENTL[22]，它將環(huán)境建模和指令學(xué)習(xí)都建模為序列預(yù)測(cè)的形式，實(shí)現(xiàn)了上述框架的雛形。這些工作照亮了在環(huán)境中學(xué)習(xí)的道路；在此基礎(chǔ)上，伴隨著系統(tǒng)設(shè)計(jì)和工程優(yōu)化，我們將會(huì)看到CV大一統(tǒng)的光明未來。

小結(jié)

在達(dá)特茅斯會(huì)議的提議書中，AI的先驅(qū)者們寫下了一個(gè)看似平凡，卻無比困難的問題：如何讓計(jì)算機(jī)學(xué)會(huì)使用人類語言？經(jīng)過幾十年的努力，研究者們終于在NLP領(lǐng)域看到了AGI的曙光，但是CV領(lǐng)域距離這個(gè)目標(biāo)還有很遠(yuǎn)。造成CV當(dāng)前困境的本質(zhì)原因，在于CV領(lǐng)域沒有構(gòu)建起“從環(huán)境中學(xué)習(xí)”的范式，因而只能采樣環(huán)境、設(shè)計(jì)代理任務(wù)，無法形成系統(tǒng)層面的閉環(huán)。未來，為了實(shí)現(xiàn)CV的大一統(tǒng)，我們必須拋棄現(xiàn)有框架，設(shè)計(jì)全新的具身范式，讓CV算法在與環(huán)境的交互中增強(qiáng)能力，不斷進(jìn)化。

一些感性的思考

最近一段時(shí)間，我看到了許多稍顯浮躁的論調(diào)。其中最為常見的，莫過于AI將要革新一切，甚至消滅大部分AI從業(yè)者，最終達(dá)到共同失業(yè)（劃掉最后一句）。作為理智的從業(yè)人員，我知道CV算法的能力還比較有限，硬骨頭還有很多。不過有一點(diǎn)是確定的：大規(guī)模語言模型（LLM）已經(jīng)具備了強(qiáng)大的意圖理解和初步的邏輯推理能力，因而達(dá)到了成為AI與人類溝通的“中樞系統(tǒng)”的條件。一旦如此，這條技術(shù)路線就會(huì)固化下來，在未來3-5年甚至更長(zhǎng)的時(shí)間內(nèi)，業(yè)界要做的事情只有兩件：繼續(xù)強(qiáng)化中樞系統(tǒng)（增強(qiáng)LLM或者構(gòu)建其多模態(tài)的變種、以模塊化的形式完善其各項(xiàng)能力），并且將這種范式復(fù)刻到CV領(lǐng)域里去。如今，再討論大模型是否是未來已經(jīng)沒有意義，我們要做的，就是為CV真正用上大模型做好鋪墊和準(zhǔn)備。

目前看來，大模型很可能會(huì)成為與深度學(xué)習(xí)本身相媲美的革命性技術(shù)，我們很可能正在經(jīng)歷一場(chǎng)技術(shù)革命。在大模型定義的新時(shí)代里，我們每個(gè)人都是初學(xué)者。以代理任務(wù)為代表的舊時(shí)代遺存，將很快失去價(jià)值；而不能勇敢地?fù)肀路椒ǖ娜?，也將隨著代理任務(wù)一并消亡。

附錄

以下文字，是對(duì)上述觀點(diǎn)的補(bǔ)充，也是一些暫時(shí)還沒有形成體系的思考。

再談CV的根本困難

在去年的那篇文章里，我闡述了CV的三大根本困難，即信息稀疏性、域間差異性、無限粒度性，并且指出它們正是采樣+代理任務(wù)的范式所帶來的副作用。文章鏈接如下：關(guān)于視覺識(shí)別領(lǐng)域發(fā)展的個(gè)人觀點(diǎn)

其中的關(guān)鍵段落摘抄如下：

從根本上說，自然語言是人類創(chuàng)造出來，用于存儲(chǔ)知識(shí)和交流信息的載體，所以必然具有高效和信息密度高的特性；而圖像則是人類通過各種傳感器捕捉的光學(xué)信號(hào)，它能夠客觀地反映真實(shí)情況，但相應(yīng)地就不具有強(qiáng)語義，且信息密度可能很低。從另一個(gè)角度看，圖像空間比文本空間要大得多，空間的結(jié)構(gòu)也要復(fù)雜得多。這就意味著，如果希望在空間中采樣大量樣本，并且用這些數(shù)據(jù)來表征整個(gè)空間的分布，采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個(gè)數(shù)量級(jí)。順帶一提，這也是為什么自然語言預(yù)訓(xùn)練模型比視覺預(yù)訓(xùn)練模型用得更好的本質(zhì)原因——我們?cè)诤竺孢€會(huì)提到這一點(diǎn)。根據(jù)上述分析，我們已經(jīng)通過CV和NLP的差別，引出了CV的第一個(gè)基本困難，即語義稀疏性。而另外兩個(gè)困難，域間差異性和無限粒度性，也多少與上述本質(zhì)差別相關(guān)。正是由于圖像采樣時(shí)沒有考慮到語義，因而在采樣不同域（即不同分布，如白天和黑夜、晴天和雨天等場(chǎng)景）時(shí)，采樣結(jié)果（即圖像像素）與域特性強(qiáng)相關(guān)，導(dǎo)致了域間差異性。同時(shí)，由于圖像的基本語義單元很難定義（而文本很容易定義），且圖像所表達(dá)的信息豐富多樣，使得人類能夠從圖像中獲取近乎無限精細(xì)的語義信息，遠(yuǎn)遠(yuǎn)超出當(dāng)前CV領(lǐng)域任何一種評(píng)價(jià)指標(biāo)所定義的能力，這就是無限粒度性[23]。

進(jìn)一步分析，我們就會(huì)得到一個(gè)有趣的結(jié)論：CV的本質(zhì)困難在于人類對(duì)視覺信號(hào)的理解十分有限。人類從來就沒有真正掌握視覺信號(hào)的結(jié)構(gòu)，乃至為其定義某種專用語言，而只能通過自然語言來指代和表示視覺信號(hào)。許多明顯的證據(jù)都能夠表達(dá)這一點(diǎn)：大部分人在沒有經(jīng)過訓(xùn)練的情況下，很難畫出具有真實(shí)感的圖像（這表明人類沒有掌握?qǐng)D像的數(shù)據(jù)分布）；同時(shí)，大部分人很難通過語言交流，向另外一個(gè)人準(zhǔn)確地表達(dá)圖像上的意思——即使兩人在語音通話，且看著電腦上的同一張圖，要想通過純語言交流指代圖中的某些細(xì)節(jié)元素，也未必總是容易的。

如果重新審視CV的三大根本困難，就會(huì)發(fā)現(xiàn)它們可以統(tǒng)一起來，體現(xiàn)為視覺信號(hào)的表征粒度具有主觀性和不確定性，或者追求客觀的視覺信號(hào)與追求簡(jiǎn)潔的語義信號(hào)之間的矛盾。當(dāng)表征粒度較大（即追求語義信號(hào)的簡(jiǎn)潔性）時(shí)，人類可以用較為簡(jiǎn)潔的方式表達(dá)視覺信息，于是認(rèn)為視覺信號(hào)具有語義稀疏性；當(dāng)表征粒度較小（即追求視覺信號(hào)的客觀性）時(shí)，人類又能夠識(shí)別出圖像中豐富的視覺信息，于是認(rèn)為視覺信號(hào)具有無限粒度性；當(dāng)表征粒度不確定時(shí)，人類很難將連續(xù)變化的視覺信號(hào)與離散的語義空間對(duì)應(yīng)起來，于是在視覺信號(hào)改變而語義不變的范圍內(nèi)，就產(chǎn)生了域間差異性[24]。

此外需要特別指出的是，信息稀疏性和無限粒度性之間的矛盾，主要體現(xiàn)在傳統(tǒng)的代理任務(wù)中。此時(shí)，如果追求表征的高效性（如使用信息壓縮作為指標(biāo)），就難以保證識(shí)別的細(xì)粒度和準(zhǔn)確率。為了規(guī)避這樣的矛盾，唯一的方案是構(gòu)建真實(shí)的交互環(huán)境，允許智能體根據(jù)任務(wù)來調(diào)整視覺信號(hào)的粒度。

再次對(duì)比CV和NLP，就會(huì)發(fā)現(xiàn)，NLP很好地避免了粒度不確定的問題。由于NLP處理的文本信號(hào)是人為創(chuàng)造的，它的粒度就是文字本身的粒度。雖然這個(gè)粒度可變（例如用語言描述一個(gè)物體或者場(chǎng)景時(shí)，既可以描述得很精確，也可以描述得很粗略），但人類確定了這個(gè)粒度，并且保證它與實(shí)際需求相吻合。

既然NLP的粒度比較明確，是否可以幫助CV完成任務(wù)？我們發(fā)現(xiàn)，以往幾乎所有CV方法，都使用NLP的方式來定義粒度。其中典型的例子有兩個(gè)：基于分類的任務(wù)以及語言指代的任務(wù)。這兩種方式各自存在的缺陷，我在之前的文章中也分析過，摘錄如下。

基于分類的方法：這包括傳統(tǒng)意義上的分類、檢測(cè)、分割等方法，其基本特點(diǎn)是給圖像中的每個(gè)基本語義單元（圖像、box、mask、keypoint等）賦予一個(gè)類別標(biāo)簽。這種方法的致命缺陷在于，當(dāng)識(shí)別的粒度增加時(shí)，識(shí)別的確定性必然下降，也就是說，粒度和確定性是沖突的。舉例說，在ImageNet中，存在著“家具”和“電器”兩個(gè)大類；顯然“椅子”屬于“家具”，而“電視機(jī)”屬于“家電”，但是“按摩椅”屬于“家具”還是“家電”，就很難判斷——這就是語義粒度的增加引發(fā)的確定性的下降。如果照片里有一個(gè)分辨率很小的“人”，強(qiáng)行標(biāo)注這個(gè)“人”的“頭部”甚至“眼睛”，那么不同標(biāo)注者的判斷可能會(huì)不同；但是此時(shí)，即使是一兩個(gè)像素的偏差，也會(huì)大大影響IoU等指標(biāo)——這就是空間粒度的增加引發(fā)的確定性的下降。語言驅(qū)動(dòng)的方法：這包括CLIP帶動(dòng)的視覺prompt類方法，以及存在更長(zhǎng)時(shí)間的visual grounding問題等，其基本特點(diǎn)是利用語言來指代圖像中的語義信息并加以識(shí)別。語言的引入，確實(shí)增強(qiáng)了識(shí)別的靈活性，并帶來了天然的開放域性質(zhì)。然而語言本身的指代能力有限（想象一下，在一個(gè)具有上百人的場(chǎng)景中指代某個(gè)特定個(gè)體），無法滿足無限細(xì)粒度視覺識(shí)別的需要。歸根結(jié)底，在視覺識(shí)別領(lǐng)域，語言應(yīng)當(dāng)起到輔助視覺的作用，而已有的視覺prompt方法多少有些喧賓奪主的感覺。

說了這么多，還是回到開始的那個(gè)根本癥結(jié)：視覺沒有定義好自己的語言。當(dāng)前可見的方法，都是用NLP的方式來定義CV。這些方法可以解決CV的初級(jí)問題，但要深入探索下去，就要碰得頭破血流！

CV所處的發(fā)展階段

很顯然，GPT范式在NLP領(lǐng)域的大獲成功，讓CV研究者有些心癢難耐。遵循NLP的發(fā)展路徑看，NLP在GPT-1階段構(gòu)建了大模型，在GPT-3階段觀察到了能力涌現(xiàn)，進(jìn)而在ChatGPT階段采用了指令學(xué)習(xí)來解決具體任務(wù)。

于是一個(gè)很重要的問題是：當(dāng)前的CV研究，到底發(fā)展到了什么階段？

4月底，我參加了一次VALSE線上研討會(huì)的panel環(huán)節(jié)，其中一個(gè)問題就是：SAM是否解決了計(jì)算機(jī)視覺問題，或者是否達(dá)到了GPT-3的水平（以致于可以在此基礎(chǔ)上構(gòu)建強(qiáng)大的CV算法）。我給出的結(jié)論很悲觀：SAM沒有達(dá)到GPT-3的水平，甚至離GPT-1還很遠(yuǎn)。其中最重要的原因，就是CV沒有構(gòu)建合適的學(xué)習(xí)環(huán)境。前面說到，NLP構(gòu)建了對(duì)話環(huán)境，并且針對(duì)對(duì)話任務(wù)，設(shè)計(jì)了完形填空配合指令微調(diào)的學(xué)習(xí)范式。如果CV要仿照這套流程，就應(yīng)當(dāng)也構(gòu)建交互任務(wù)，并且設(shè)計(jì)相應(yīng)的預(yù)訓(xùn)練和微調(diào)任務(wù)。很顯然，當(dāng)前的CV學(xué)習(xí)范式并沒有做到這一點(diǎn)，因此我們總感覺CV的上下游任務(wù)是脫節(jié)的：即使當(dāng)前效果最好的MIM方法，似乎也和下游任務(wù)關(guān)系不大。要解決這個(gè)問題，很可能要從源頭下手，構(gòu)建起真正的學(xué)習(xí)環(huán)境來。

接著我們討論能力涌現(xiàn)的問題。關(guān)于NLP的大模型為什么能夠觀察到能力涌現(xiàn)，業(yè)界似乎還存有疑問。我自己有一個(gè)大膽的假說：能力涌現(xiàn)的前提，是預(yù)訓(xùn)練數(shù)據(jù)已經(jīng)覆蓋了現(xiàn)實(shí)世界的一定比例。在這種情況下，預(yù)訓(xùn)練模型不必?fù)?dān)心過擬合，因?yàn)樗娜蝿?wù)就是記憶數(shù)據(jù)分布，某種意義上就是過擬合——這個(gè)假說也同時(shí)揭示了為什么NLP可以追求大模型：因?yàn)樵诓粨?dān)心過擬合的情況下，大模型的擬合能力要更強(qiáng)。在這里，NLP的特征空間小、數(shù)據(jù)形態(tài)簡(jiǎn)單的優(yōu)勢(shì)就體現(xiàn)出來，而CV要想達(dá)到這樣的狀態(tài)，還需要更多的數(shù)據(jù)和更大的算力。

我有一個(gè)不嚴(yán)格的類比：NLP好比國(guó)際象棋，CV好比圍棋。1996年，超級(jí)計(jì)算機(jī)深藍(lán)通過啟發(fā)式搜索的方式，在國(guó)際象棋中戰(zhàn)勝了人類世界冠軍，但是相似的方法無法在圍棋中復(fù)現(xiàn)，因?yàn)閲宓臓顟B(tài)空間要遠(yuǎn)遠(yuǎn)超過國(guó)際象棋。后來，在深度學(xué)習(xí)的幫助下，圍棋的啟發(fā)式函數(shù)得到了非平凡的改進(jìn)，終于能夠支撐起更復(fù)雜的狀態(tài)空間的探索。如果沒有深度學(xué)習(xí)，也許人類要再過幾十年，才能夠通過超大計(jì)算量的堆砌，達(dá)成同樣的成就。深度學(xué)習(xí)的出現(xiàn)極大地加速了這個(gè)過程。

回到CV的發(fā)展上來。誠(chéng)然，按照當(dāng)前數(shù)據(jù)收集和計(jì)算量提升的速度，或許再過足夠長(zhǎng)的時(shí)間，CV也能夠跌跌撞撞地達(dá)到當(dāng)前NLP的水平。不過我相信，在此之前，一定會(huì)有某項(xiàng)技術(shù)突破，加速CV趕超NLP的過程。而我們CV研究者的使命，就是找到這項(xiàng)技術(shù)，或者至少找對(duì)正確的方向。

對(duì)未來研究方向的展望

經(jīng)過上面的討論，未來CV的pipeline已經(jīng)有了雛形：基于交互環(huán)境的生成式預(yù)訓(xùn)練和指令微調(diào)方法。這未必是唯一的路線，只是在NLP的啟發(fā)下催生出來的最有可能的路線。實(shí)現(xiàn)它的困難有很多，但只要認(rèn)準(zhǔn)了方向，當(dāng)前的困難恰恰對(duì)應(yīng)于最有前景的研究方向。

退一步說，如果上述pipeline在短期內(nèi)難以實(shí)現(xiàn)，那么CV就應(yīng)當(dāng)盡可能吸收NLP的能力，以期提升通用能力。很顯然，純粹基于圖像信號(hào)的CV研究將越來越少，融合語言的跨模態(tài)研究將成為絕對(duì)主流：只要使用了CLIP或者類似的多模態(tài)基礎(chǔ)模型用于特征抽取，就相當(dāng)于接受了跨模態(tài)的思想。在這條路線上，最重要的研究方向可以概括為“找到圖像與自然語言的交互方式”，或者更進(jìn)一步地說，“找到圖像本身的語言”：這一點(diǎn)對(duì)于交互類任務(wù)也是至關(guān)重要的。
責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7085

瀏覽量
89215
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
46033
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15439
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22058

原文標(biāo)題：VALSE 2023 | 走向計(jì)算機(jī)視覺的通用人工智能：GPT和大語言模型帶來的啟發(fā)

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

如此卓越的性能，就是通過其核心能力對(duì)海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，再進(jìn)行微調(diào)或?qū)ζ涫裁葱透玫母鶕?jù)人類的指令和偏好，發(fā)揮這些性能。隨著語言模型參數(shù)的不斷增加，模型完成各個(gè)任務(wù)的效果也得到了不同程

發(fā)表于 05-07 17:10

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤點(diǎn)

正如我們?cè)诒疚闹兴觯琔LMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對(duì)預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長(zhǎng)期依賴語言建模數(shù)據(jù)集Wik

發(fā)表于 04-04 11:26 ?2.4w次閱讀

為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型？8種優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型大盤點(diǎn)

微軟在ICML 2019上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法MASS

專門針對(duì)序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence

發(fā)表于 05-11 09:19 ?3504次閱讀

微軟在ICML 2019上提出了一個(gè)全新的通用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>MASS

新的預(yù)訓(xùn)練方法——MASS！MASS預(yù)訓(xùn)練幾大優(yōu)勢(shì)！

發(fā)表于 05-11 09:34 ?7095次閱讀

新的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練方法</b>——MASS！MASS<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>幾大優(yōu)勢(shì)！

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

大家?guī)硇∶自?b class='flag-5'>預(yù)訓(xùn)練模型的探索與優(yōu)化。 01 預(yù)訓(xùn)練簡(jiǎn)介 預(yù)訓(xùn)練與詞向量的

發(fā)表于 12-31 10:17 ?2634次閱讀

小米在<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型的探索與優(yōu)化

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音，給原始模型增加一些擾動(dòng)，從而提高預(yù)訓(xùn)練

發(fā)表于 06-07 09:57 ?2540次閱讀

使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開發(fā)

可以訪問預(yù)訓(xùn)練模型的完整源代碼和模型權(quán)重。該工具套件能夠高效訓(xùn)練視覺和對(duì)話式 AI 模型。由于簡(jiǎn)化了復(fù)雜的 AI 模型和深度學(xué)習(xí)框架，即便是不具備 AI 專業(yè)知識(shí)的開發(fā)者也可以使用該

發(fā)表于 12-15 19:40 ?1041次閱讀

基于多任務(wù)預(yù)訓(xùn)練模塊化提示

Prompt Tuning 可以讓預(yù)訓(xùn)練的語言模型快速適應(yīng)下游任務(wù)。雖然有研究證明：當(dāng)訓(xùn)練數(shù)據(jù)足夠多的時(shí)候，Prompt Tuning 的微調(diào)結(jié)果可以媲美整個(gè)模型的

發(fā)表于 06-20 11:04 ?703次閱讀

基于一個(gè)完整的 LLM 訓(xùn)練流程

? ? 在這篇文章中，我們將盡可能詳細(xì)地梳理一個(gè)完整的 LLM 訓(xùn)練流程。包括模型預(yù)訓(xùn)練（Pretrain）、Tokenizer 訓(xùn)練、指令

發(fā)表于 06-29 10:08 ?1968次閱讀

在各種檢測(cè)器的所有模塊實(shí)現(xiàn)無監(jiān)督預(yù)訓(xùn)練

近年來，大規(guī)模預(yù)訓(xùn)練后微調(diào)優(yōu)化方法在計(jì)算機(jī)視覺中取得了重大進(jìn)展。一系列預(yù)訓(xùn)練算法被設(shè)計(jì)出來，以學(xué)

發(fā)表于 08-01 11:42 ?884次閱讀

基于生成模型的預(yù)訓(xùn)練方法

with Deep Generative Models，我認(rèn)為是個(gè)挺強(qiáng)挺有趣的自監(jiān)督方面的工作。DreamTeacher 用于從預(yù)訓(xùn)練的生成網(wǎng)絡(luò)向目標(biāo)圖像 Backbone 進(jìn)行知識(shí)蒸餾，作為一種通用的

發(fā)表于 08-11 09:38 ?1236次閱讀

四種微調(diào)大模型的方法介紹

全微調(diào)（Full Fine-tuning）：全微調(diào)是指對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，包括所有的模型參數(shù)。在這種

發(fā)表于 01-03 10:57 ?2.4w次閱讀

基于雙級(jí)優(yōu)化（BLO）的消除過擬合的微調(diào)方法

這篇論文試圖解決的問題是大型預(yù)訓(xùn)練模型在下游任務(wù)中進(jìn)行微調(diào)時(shí)出現(xiàn)的過擬合問題。盡管低秩適應(yīng)（LoRA）及其變體通過學(xué)習(xí)低秩增量矩陣有效地減少了與完全微調(diào)

發(fā)表于 04-02 16:46 ?712次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

訓(xùn)練好的模型，這些模型通常在某些通用任務(wù)上表現(xiàn)出色，并且可以作為后續(xù)特定任務(wù)的起點(diǎn)，通過遷移學(xué)習(xí)或微調(diào)（Fine-tuning）等方式進(jìn)行適應(yīng)和優(yōu)化。以下是對(duì)預(yù)訓(xùn)練模型的詳細(xì)探討，包括

發(fā)表于 07-03 18:20 ?2953次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使模型學(xué)習(xí)到語言的通用知識(shí)，為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大

發(fā)表于 07-11 10:11 ?454次閱讀