椎名空被强制中出在线观看,亚洲在线综合,色综合色综合

自2018年谷歌發(fā)布BERT以來，預(yù)訓(xùn)練大模型經(jīng)過三年的發(fā)展,以強大的算法效果，席卷了NLP為代表的各大AI榜單與測試數(shù)據(jù)集。2020年OpenAI發(fā)布的NLP大模型GPT-3，實現(xiàn)了千億級數(shù)據(jù)參數(shù)。GPT-3除了具備傳統(tǒng)的NLP能力之外，還可以算術(shù)、編程、寫小說、寫論文摘要，一時之間成為科技圈中的爆點。到2021年，我們可以看到各大學(xué)術(shù)機構(gòu)、科技企業(yè)都在打造自己的大模型，并且對其能力邊界、技術(shù)路徑進行了極大拓展。

身在科技圈中會有明顯的感受，今年大模型的會議與討論越來越多，預(yù)訓(xùn)練大模型本身的優(yōu)勢我們在很多新聞中都感受到了。打造大模型并不是一件輕松容易的事情，需要耗費大量的數(shù)據(jù)、算力資源等，大模型的意義是為了讓算法模型集中化，但是市場中有條件的企業(yè)和機構(gòu)都開始耗費大量資源自研大模型。大模型算法模型的集中化優(yōu)勢，經(jīng)過這些機構(gòu)對集中資源的分化，又有種煙囪式的割裂。

其實現(xiàn)實可能只需要一個發(fā)展到極致化的大模型就足夠大家使用了，沒有必要人手一個。而且預(yù)訓(xùn)練大模型的發(fā)展在這樣的模式下也會受到一些影響，而在這個態(tài)勢下也有一些趨勢與變化值得討論與關(guān)注。

大模型發(fā)展模式的卡點

BERT、GPT 等大規(guī)模預(yù)訓(xùn)練模型（PTM）近年來取得了巨大成功，成為AI領(lǐng)域的里程碑。因為預(yù)訓(xùn)練大模型的顯著優(yōu)勢，現(xiàn)在AI社區(qū)的共識是采用它作為下游任務(wù)的開始，而不是從頭開始訓(xùn)練數(shù)據(jù)、建立模型。

隨著產(chǎn)學(xué)研各界的深入研究，大模型在AI各界的地位得到不斷加強。一些機構(gòu)和產(chǎn)業(yè)界對大模型的參與到角逐，使得其呈現(xiàn)出一種宣傳炫技般的畫面感受。這樣的發(fā)展模式很可能會給行業(yè)帶來一些不好的影響：

1.大模型成為一些機構(gòu)和企業(yè)秀肌肉的軍備競賽，大家開始比拼各自參數(shù)集數(shù)量級。你百億級，我就千億級。數(shù)據(jù)集本身就有限，標榜自己的數(shù)據(jù)集越大，也意味著水分比較多，而在真實落地使用的情況方面，也并不不一定理想。算力資源和訓(xùn)練時間消耗過大，并且也只限于部分行業(yè)的部分問題，普適性差。

2.國內(nèi)預(yù)訓(xùn)練模型的玩家們可用的中文數(shù)據(jù)集有限，就是我們知道的幾種主流常用數(shù)據(jù)來源。在有限的數(shù)據(jù)集里，大家使用的數(shù)據(jù)未免重復(fù)，而因此研究出來的大模型能力就比較接近。走相同的路徑做類似的事情，有點浪費資源與算力。

3.大模型是否優(yōu)秀，不僅依賴數(shù)據(jù)的精度與網(wǎng)絡(luò)結(jié)構(gòu)，也是對其與行業(yè)結(jié)合軟硬件協(xié)同能力的比拼。單純只強調(diào)低頭研發(fā)高參數(shù)集、強算力模型等的方向，輕視一些與行業(yè)的協(xié)同二次調(diào)試等問題，就會陷入閉門造車的局面，限制了落地的路，走不遠。

4.一些預(yù)訓(xùn)練大模型經(jīng)過極致化（數(shù)據(jù)、模型、算力）的發(fā)展后，也有可能面臨小眾、泛用性差的情形，比如一些高校研發(fā)的預(yù)訓(xùn)練大模型只能在小眾的學(xué)術(shù)圈子里使用，無法工程化使用，最終淪為一次性的模型，浪費大量的資源。

雖然我們看到各種大模型在集中式爆發(fā)發(fā)展，但其實目前大模型行業(yè)還處于初始階段，面臨一些問題與卡點無可避免。行業(yè)內(nèi)人士應(yīng)該會更加敏感地體察到這些現(xiàn)象，誰也不會想要讓這些荊棘以常態(tài)的模式橫亙在發(fā)展前路上。大家花費精力激蕩腦力，想要發(fā)展的共識是打造出行業(yè)內(nèi)唯一的模型。那么，對于行業(yè)來說，究竟什么樣的大模型才是最好的呢？

究竟什么是好的大模型？

在這場battle里，大模型向著規(guī)模極致化的方向發(fā)展。那么如何衡量大模型的能力，是一個繞不開的話題。衡量大模型能力的關(guān)鍵要素是，參數(shù)的規(guī)模和與細分行業(yè)結(jié)合對接的軟硬件協(xié)同能力。我們在各種新聞中經(jīng)?？梢钥吹?，機構(gòu)或者是企業(yè)用數(shù)據(jù)集或者是參數(shù)規(guī)模，以及跑分來彰顯自己的模型水平。

參數(shù)的規(guī)模決定了預(yù)訓(xùn)練模型有多大。參數(shù)越大一般來說意味著大模型具備更多的能力，泛化性、通用性也更加強。成功的大模型背后，還需要大規(guī)模分布式訓(xùn)練、并行計算、軟硬件協(xié)同優(yōu)化等能力。

腦極體曾在GPT-3最火的時候，參與過一次試驗：用GPT-3寫個文章出來。我們給第三方提供了一些寫作的思路，想要看一下機器寫出來的效果怎么樣（其實是想看看自己離失業(yè)還有多久）。結(jié)果得到的反饋是GPT-3在理解能力方面很牛很強，但是讓它去生產(chǎn)一篇稿件，對于它來說還是比較復(fù)雜而且困難的一件事情。

另外，排隊等待使用的企業(yè)過多，間次使用等待的時間過長，，并且稿件本身也需要好幾天才能完成?？此埔粋€簡單的寫稿需求，對無所不能的GPT-3來說應(yīng)該是小case，結(jié)果無疾而終。存在類似小需求的企業(yè)應(yīng)該還是有很多，而這些需求都需要排隊等待調(diào)用大量的算力，并且磨幾天才能產(chǎn)出，而花時間花錢結(jié)果還存疑。當時行業(yè)里最好的大模型落地都如此艱難，大模型的落地還是有點不理想。

好的大模型不僅僅需要模型、算力等本身性能方面強勁，關(guān)鍵也需要看與某垂直行業(yè)結(jié)合時產(chǎn)品化落地的能力是否實用。落地的大模型需要解決一些行業(yè)具體的問題，與行業(yè)結(jié)合時二次開發(fā)、對接的成本盡可能地小，否則它強勢的性能也只是空中樓閣，中看不中用。大模型需要工程落地的能力，從而打開更多的邊界，讓更多領(lǐng)域和企業(yè)來使用。

大模型的未來趨勢

從產(chǎn)業(yè)價值的角度來看，預(yù)訓(xùn)練大模型帶來了一系列可能性，讓產(chǎn)學(xué)研各界看到了由弱人工智能走向強人工智能，走向工業(yè)化、集成化智能化的路徑。在這樣的驅(qū)動背景下，大模型也會有一些可預(yù)見的趨勢與發(fā)展。

1.我們知道事物的發(fā)展規(guī)律是優(yōu)勝劣汏，在競爭的角逐中，一些標榜獨特性的小眾模型的泛化能力差，越獨特可能也就意味著越小眾，使用的范圍十分有限，可能會逐漸走向消亡。

2.崛起的大模型不僅僅是泛化性、落地能力強，創(chuàng)新性強、訓(xùn)練數(shù)據(jù)規(guī)模大，也需要具備不斷生長革新的能力，也就是自我進化、智能化的能力。大模型的未來需要創(chuàng)新，也需要自我生長，向可持續(xù)、可進化的方向發(fā)展，架構(gòu)上的革新會讓模型更加高效。

3.大模型能力的端側(cè)化，“芯片化”。將模型的一些運算存儲等能力像芯片一樣固化在一些端側(cè)硬件設(shè)備中，在使用的過程中不用在重裝的模型中耗時調(diào)用算力與數(shù)據(jù)，可以實現(xiàn)隨時調(diào)用隨時使用。現(xiàn)下的模型多是重裝大模型，使用的話需要調(diào)用龐大的算力和運行時間，未來的大模型會逐漸改變這種模式。

4.大模型的標準化與模塊化發(fā)展。大模型的評估未來會有標準化成熟的體系來衡量，這個體系也會是行業(yè)內(nèi)公認的標準，用這個標準來衡量大模型的優(yōu)劣而不是現(xiàn)下自賣自夸式的標榜。

目前我們在各大榜單上看到的分數(shù)來自于大型的數(shù)據(jù)集和算力模型，讓開發(fā)更加容易，調(diào)試與訓(xùn)練的周期越來越短。但我們也知道大量的數(shù)據(jù)喂養(yǎng)出來的模型回報并不是百分百地正確。喂養(yǎng)的數(shù)據(jù)知識的極大擴展也無法保證結(jié)果的確定性，這也是大模型最大的弱點，而這也意味著對于大模型的探索需要持續(xù)的迭代發(fā)展。

預(yù)訓(xùn)練大模型是面向通用智能最高階的探索，也是AI持續(xù)變革的核心發(fā)展方向與動力，隨著AI不斷深入產(chǎn)業(yè)與各學(xué)科領(lǐng)域的過程中，大模型在軍備battle和百家爭鳴，算力、數(shù)據(jù)、規(guī)模都會朝著極致化的方向發(fā)展。未來新的預(yù)訓(xùn)練大模型將會與那些計算量巨大的科學(xué)領(lǐng)域，比如制藥、腦科學(xué)、醫(yī)療、生物計算等領(lǐng)域相互結(jié)合，帶來巨大的價值。

我們的那些懸而未解的難題，在未來都會有答案，無論最終這個結(jié)論正確與否，都能夠為前沿的發(fā)展、探索帶來很多靈感與角度，世界的多面體將會被打開。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴