目前,大模型(特別是在2023年及之后的語(yǔ)境中)通常特指大語(yǔ)言模型(LLM, Large Language Model),但其范圍也涵蓋其他領(lǐng)域的超大規(guī)模深度學(xué)習(xí)模型,例如圖像生成模型(如 DALL-E)、科學(xué)計(jì)算模型(如 AlphaFold)以及多模態(tài)模型。這些模型通過(guò)海量數(shù)據(jù)訓(xùn)練,展現(xiàn)出高度的泛用性。
比較有代表性的大語(yǔ)言模型(LLM)如:
模型 | 開(kāi)發(fā)方 | 特點(diǎn) |
---|---|---|
GPT-4 | OpenAI | 生成能力強(qiáng),部分版本支持多模態(tài)輸入(如圖像理解) |
文心一言 | 百度 | 針對(duì)中文優(yōu)化,適合國(guó)內(nèi)應(yīng)用場(chǎng)景 |
LLaMA | Meta | 開(kāi)源,輕量化 |
大語(yǔ)言模型(LLM)是近年來(lái)人工智能領(lǐng)域的核心熱點(diǎn),其訓(xùn)練目標(biāo)通常是語(yǔ)言生成和理解。這些模型通過(guò)在海量文本上進(jìn)行訓(xùn)練,能夠理解、生成和推理復(fù)雜的自然語(yǔ)言,甚至跨領(lǐng)域處理任務(wù)。其特點(diǎn)是擁有超大規(guī)模參數(shù)、具有強(qiáng)大的通用性和生成能力。由具有許多參數(shù)(通常數(shù)十億個(gè)權(quán)重或更多)的人工神經(jīng)網(wǎng)絡(luò)組成,使用自監(jiān)督學(xué)習(xí)對(duì)大量未標(biāo)記文本進(jìn)行訓(xùn)練
1. 大語(yǔ)言模型(LLM)的核心定義
基礎(chǔ):大語(yǔ)言模型通常是基于深度學(xué)習(xí)架構(gòu)(如Transformer)開(kāi)發(fā)的,通過(guò)捕捉自然語(yǔ)言中的模式和語(yǔ)法規(guī)則,理解上下文和語(yǔ)義。
規(guī)?!按蟆保褐竻?shù)規(guī)模(數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù))、訓(xùn)練數(shù)據(jù)量(TB 級(jí)別以上的文本)、以及計(jì)算需求的巨大。
目標(biāo):預(yù)測(cè)文本中的下一個(gè)詞(語(yǔ)言建模),或在更高層次上,生成合理的文本輸出。
能力:除了文本生成,它還能執(zhí)行諸如翻譯、總結(jié)、分類(lèi)、問(wèn)答、推理、代碼生成等復(fù)雜任務(wù)。大語(yǔ)言模型是通用模型,在廣泛的任務(wù)中表現(xiàn)出色,而不是針對(duì)一項(xiàng)特定任務(wù)進(jìn)行訓(xùn)練
現(xiàn)在大火的智能體(AI Agent)的大腦就是基于大語(yǔ)言模型,詳見(jiàn):
一文說(shuō)清楚什么是AI Agent(智能體)
2. 大語(yǔ)言模型(LLM)的核心技術(shù)和特性
2.1 Transformer 架構(gòu)
Transformer 是一種基于“注意力機(jī)制”的神經(jīng)網(wǎng)絡(luò)架構(gòu),由 Google 于 2017 年提出。它的核心特性是:
自注意力機(jī)制(Self-Attention):能捕獲句子中每個(gè)詞與其他詞之間的關(guān)系,量化它們的重要性,提取上下文語(yǔ)義。
并行計(jì)算:相比早期的 RNN 和 LSTM,Transformer 能更高效地處理長(zhǎng)文本。
LLM(如 GPT 系列)大多基于 Transformer 的變體。
2.1.1 看全局抓重點(diǎn):注意力機(jī)制
想象你是一個(gè)班主任,班干部(Transformer)負(fù)責(zé)審閱學(xué)生的作業(yè)。如果有句子寫(xiě)得特別好(比如“春風(fēng)拂面百花開(kāi)”),班干部會(huì)特別關(guān)注這句話,并給它“打一個(gè)高分”。這就是 Transformer 的注意力機(jī)制,它知道哪些部分更重要,應(yīng)該重點(diǎn)關(guān)注。
2.1.2 并行處理:效率高
以前的模型像流水線工人,必須按順序一字一句地看完所有作業(yè)(比如傳統(tǒng)的 RNN)。而班干部(Transformer)更像是一群分工明確的審稿員,可以同時(shí)看整篇作業(yè),快速抓住重點(diǎn)。
2.1.3 理解句子結(jié)構(gòu):捕捉長(zhǎng)距離依賴
如果有學(xué)生寫(xiě)了一篇長(zhǎng)文章,開(kāi)頭提到“春天來(lái)了”,后面說(shuō)“鮮花盛開(kāi)”。班干部(Transformer)不會(huì)忘記開(kāi)頭的信息,會(huì)把“春天來(lái)了”和“鮮花盛開(kāi)”關(guān)聯(lián)起來(lái)。這種能力叫長(zhǎng)距離依賴捕捉,讓模型能理解前后文的語(yǔ)義聯(lián)系。
Transformer 的注意力機(jī)制讓每個(gè)詞都可以關(guān)注整個(gè)句子中的其他詞,而不是局限于前后相鄰的詞。這解決了傳統(tǒng) RNN 處理長(zhǎng)文本時(shí)容易“遺忘上下文”的問(wèn)題。
2.1.4 將文字變成數(shù)字:嵌入表示Embedding
班干部在看作業(yè)時(shí),需要先把作業(yè)內(nèi)容分類(lèi),比如:數(shù)學(xué)題歸類(lèi)到“數(shù)字”里,作文歸類(lèi)到“語(yǔ)言”里。同樣,Transformer 需要先把文字轉(zhuǎn)換成模型能理解的數(shù)字形式。這種表示叫“詞嵌入(Word Embedding)”。Transformer 中會(huì)用“位置編碼(Positional Encoding)”標(biāo)記每個(gè)詞的位置,確保模型理解詞語(yǔ)在句子中的順序。
Embedding詳見(jiàn):一文說(shuō)清楚人工智能的嵌入(Embedding)是什么
2.2 Transformer 是如何生成答案的?
2.2.1 把重點(diǎn)重新組織:編碼器-解碼器結(jié)構(gòu)
班干部(Transformer)把學(xué)生的作業(yè)總結(jié)后,用自己的話重新寫(xiě)一遍。這就是編碼器-解碼器結(jié)構(gòu)的工作方式:
編碼器:像一個(gè)分析員,把輸入的內(nèi)容(句子)理解后轉(zhuǎn)化為內(nèi)部的知識(shí)表示。
解碼器:像一個(gè)寫(xiě)手,根據(jù)內(nèi)部的知識(shí)表示生成輸出(翻譯、回答問(wèn)題等)。
Transformer 的編碼器負(fù)責(zé)對(duì)輸入的句子進(jìn)行特征提取,而解碼器基于這些特征生成目標(biāo)輸出。這種結(jié)構(gòu)廣泛用于翻譯和生成任務(wù)(如機(jī)器翻譯、文本生成)。
2.2.2 輸入和輸出之間的關(guān)系:交叉注意力
班干部在總結(jié)學(xué)生的作業(yè)時(shí),會(huì)參考原文里的句子重點(diǎn)(比如從題目到結(jié)尾)。這個(gè)過(guò)程叫交叉注意力,確保模型輸出的內(nèi)容和輸入有緊密關(guān)聯(lián)。
Transformer 在解碼器中,模型需要關(guān)注輸入的隱藏表示,通過(guò)計(jì)算解碼器和編碼器之間的注意力分?jǐn)?shù),確保生成的輸出能準(zhǔn)確反映輸入的語(yǔ)義內(nèi)容。
交叉注意力應(yīng)用于編碼器-解碼器模型, GPT 是解碼器-only 模型,其架構(gòu)中不直接使用編碼器-解碼器的交叉注意力機(jī)制
2.3 為什么 Transformer 比傳統(tǒng)方法強(qiáng)?
2.3.1 一眼看全局:自注意力機(jī)制
傳統(tǒng)模型(如 RNN)像流水線工人,必須逐字逐句處理句子,而 Transformer 像一位高效的觀察者,可以一眼看到全文,快速抓住重點(diǎn)。自注意力機(jī)制讓模型對(duì)句子中的所有詞進(jìn)行“全局比較”,從而同時(shí)捕捉短距離和長(zhǎng)距離的關(guān)系。
2.3.2 提高效率:并行處理
如果文章特別長(zhǎng),傳統(tǒng)模型處理起來(lái)很慢,而 Transformer 像一群同時(shí)工作的專(zhuān)家,可以并行處理,提高效率。通過(guò)將輸入句子分成塊,并行計(jì)算每個(gè)詞的注意力權(quán)重,Transformer 避免了序列模型的時(shí)間瓶頸,效率顯著提高。
2.3.3 適應(yīng)性強(qiáng):預(yù)訓(xùn)練模型可遷移
班干部(Transformer)經(jīng)過(guò)訓(xùn)練后,不僅能看作文,還能學(xué)會(huì)批改數(shù)學(xué)題、物理題等。這是因?yàn)樗摹皩W(xué)習(xí)能力”很強(qiáng),能根據(jù)不同的任務(wù)調(diào)整自己。模型可以先在大規(guī)模通用語(yǔ)料上預(yù)訓(xùn)練(如 GPT 或 BERT),學(xué)到語(yǔ)言的通用規(guī)律,再通過(guò)微調(diào)(Fine-tuning)適應(yīng)特定任務(wù)。
3. 為什么“大模型”目前特指"語(yǔ)言模型"?
1.技術(shù)推動(dòng)
大語(yǔ)言模型(如 GPT 系列)的出現(xiàn)展示了“通用人工智能”(AGI)的潛力,使得語(yǔ)言模型成為大模型的核心代表。
語(yǔ)言是人類(lèi)認(rèn)知和信息處理的基礎(chǔ),訓(xùn)練語(yǔ)言模型可以讓 AI 在廣泛的領(lǐng)域表現(xiàn)出色。
2.應(yīng)用廣泛
從對(duì)話生成到代碼編寫(xiě)、從文檔翻譯到文本分析,大語(yǔ)言模型已經(jīng)在多種場(chǎng)景中展示了高效性和通用性。
3.市場(chǎng)驅(qū)動(dòng)
商業(yè)化需求(如 ChatGPT、Bard)讓大語(yǔ)言模型成為公眾認(rèn)知中的“大模型”代名詞。
4. 為什么叫“大”模型,還有“小”模型嗎?
1.參數(shù)規(guī)模
參數(shù)是模型中的可調(diào)節(jié)權(quán)重,用來(lái)捕獲數(shù)據(jù)中的模式。大模型通常有數(shù)十億到數(shù)萬(wàn)億個(gè)參數(shù)。例如,GPT-3 有 1750 億個(gè)參數(shù),GPT-4 甚至更多。
參數(shù)數(shù)量越多,理論上模型能夠捕獲的復(fù)雜模式也越多,但這也意味著更高的計(jì)算和存儲(chǔ)成本。
2.訓(xùn)練數(shù)據(jù)量
大模型往往需要海量數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)越多,模型越有可能泛化,適應(yīng)更多樣的場(chǎng)景。
例如,大語(yǔ)言模型可能使用來(lái)自互聯(lián)網(wǎng)的數(shù)千TB文本數(shù)據(jù)。
3.計(jì)算資源
大模型的訓(xùn)練和推理(inference)需要高性能的硬件支持,比如 GPU 或 TPU 集群。
訓(xùn)練一個(gè)大模型可能需要數(shù)周或數(shù)月,耗費(fèi)數(shù)百萬(wàn)美元的計(jì)算成本。
3.能力范圍
大模型通常具備較強(qiáng)的通用性,可以跨越多個(gè)任務(wù)。例如,GPT-4 不僅可以生成文本,還能進(jìn)行翻譯、代碼生成等多種任務(wù)。
它們還能在新任務(wù)上實(shí)現(xiàn)良好的零樣本(Zero-shot)或少樣本(Few-shot)學(xué)習(xí)能力。
不過(guò),大模型的“更大”并不總是等于“更好”。隨著參數(shù)數(shù)量的增長(zhǎng),模型性能的提升并非線性遞增。在超過(guò)一定規(guī)模后,訓(xùn)練更大的模型可能僅帶來(lái)微弱的精度提升,但計(jì)算資源和能耗成本會(huì)顯著增加。
5.“小”模型有哪些
相對(duì)大模型,小模型是指參數(shù)數(shù)量較少、規(guī)模較小、專(zhuān)注于特定任務(wù)的模型。例如:
MobileNet:專(zhuān)為移動(dòng)設(shè)備設(shè)計(jì)的圖像識(shí)別模型,參數(shù)量較小,計(jì)算高效。
GPT-2 的小型版本:用于低資源環(huán)境,參數(shù)數(shù)量可能在百萬(wàn)級(jí)別。
LightGBM、XGBoost 等傳統(tǒng)機(jī)器學(xué)習(xí)模型:雖然嚴(yán)格意義上不是深度學(xué)習(xí)模型,但也屬于小模型范疇。
小模型的優(yōu)點(diǎn)
計(jì)算效率高:可以部署在資源有限的設(shè)備(如手機(jī)或嵌入式系統(tǒng))上。
訓(xùn)練成本低:對(duì)硬件需求較低,訓(xùn)練時(shí)間更短。
專(zhuān)注性強(qiáng):通常專(zhuān)注于解決單一任務(wù),性能更高效。
在實(shí)際應(yīng)用中,小模型常用于邊緣設(shè)備上的實(shí)時(shí)推理,而大模型則在云端完成高復(fù)雜度的任務(wù)。通過(guò)這種協(xié)作,可以在性能和效率之間找到平衡。
-
AI
+關(guān)注
關(guān)注
87文章
31364瀏覽量
269767 -
大模型
+關(guān)注
關(guān)注
2文章
2519瀏覽量
2972 -
LLM
+關(guān)注
關(guān)注
0文章
298瀏覽量
360
原文標(biāo)題:一文說(shuō)清楚什么是AI大模型
文章出處:【微信號(hào):深圳市賽姆烯金科技有限公司,微信公眾號(hào):深圳市賽姆烯金科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論