關(guān)鍵詞:Transformer;PLM;SLM;NLM;LLM;Galactica;OPT;OPT-IML;BLOOM;BLOOMZ;GLM;Reddit;H100;H800;A100;A800;MI200;MI250;LaMA;OpenAI;GQA;RMSNorm;SFT;RTX 4090;A6000;AIGC;CHATGLM;LLVM;LLMs;GLM;AGI;HPC;GPU;CPU;CPU+GPU;英偉達(dá);Nvidia;英特爾;AMD;高性能計(jì)算;高性能服務(wù)器;藍(lán)海大腦;多元異構(gòu)算力;大模型訓(xùn)練;通用人工智能;GPU服務(wù)器;GPU集群;大模型訓(xùn)練GPU集群;大語言模型;深度學(xué)習(xí);機(jī)器學(xué)習(xí);計(jì)算機(jī)視覺;生成式AI;ML;DLC;圖像分割;預(yù)訓(xùn)練語言模型;AI服務(wù)器;GH200;L40S;HBM3e;Grace Hopper;gracehopper
摘要:本文主要介紹大模型的內(nèi)部運(yùn)行原理、我國(guó)算力發(fā)展現(xiàn)狀。大模型指具有巨大參數(shù)量的深度學(xué)習(xí)模型,如GPT-4。其通過在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,能夠產(chǎn)生更加準(zhǔn)確和有創(chuàng)造性的結(jié)果。大模型的內(nèi)部運(yùn)行原理包括輸入數(shù)據(jù)的處理、多層神經(jīng)網(wǎng)絡(luò)計(jì)算和輸出結(jié)果生成。這些模型通常由數(shù)十億個(gè)參數(shù)組成,需要龐大的計(jì)算資源和高速的存儲(chǔ)器來進(jìn)行訓(xùn)練和推理。
隨著大模型的快速發(fā)展,我國(guó)在算力發(fā)展方面取得顯著進(jìn)展。近年來,我國(guó)投入大量資源用于高性能計(jì)算和人工智能領(lǐng)域研發(fā),并建設(shè)一系列超級(jí)計(jì)算中心和云計(jì)算平臺(tái)。這些舉措不僅提升我國(guó)的科學(xué)研究能力,也為大模型訓(xùn)練和應(yīng)用提供強(qiáng)大支持。我國(guó)算力發(fā)展已經(jīng)進(jìn)入全球領(lǐng)先行列,為推動(dòng)人工智能發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ)。
藍(lán)海大腦大模型訓(xùn)練平臺(tái)是藍(lán)海大腦自主研發(fā)的高性能計(jì)算平臺(tái),專用于大模型訓(xùn)練和推理。該平臺(tái)采用先進(jìn)的硬件架構(gòu)和優(yōu)化的軟件算法,可以提供高效的計(jì)算能力和存儲(chǔ)能力。
大模型內(nèi)部運(yùn)行原理
近年來,在大規(guī)模語料上預(yù)訓(xùn)練 Transformer 模型產(chǎn)生了預(yù)訓(xùn)練語言模型(Pre-trained Language Model, PLM),在各類自然語言處理任務(wù)上展現(xiàn)強(qiáng)大的語言理解與生成能力。研究發(fā)現(xiàn)擴(kuò)大模型規(guī)模可以提高模型能力,導(dǎo)致大規(guī)模語言模型(Large Language Model, LLM)的產(chǎn)生。當(dāng)模型規(guī)模超過一定閾值后,這些大模型不僅性能大幅提升,還表現(xiàn)出小模型所不具備的語言學(xué)習(xí)能力。
LLM技術(shù)的快速進(jìn)展改變了AI系統(tǒng)的研發(fā)與應(yīng)用范式。本文回顧了近年來LLM技術(shù)的發(fā)展歷程,同時(shí)總結(jié)了LLM的研發(fā)資源、存在的問題和未來方向。
一、引言
語言是人類獨(dú)有的表達(dá)和交流能力,在兒童早期就開始形成并伴隨一生不斷發(fā)展變化。然而機(jī)器想要像人類一樣自然地掌握理解和使用語言的能力,必須配備強(qiáng)大的人工智能算法。實(shí)現(xiàn)機(jī)器擁有類似人類閱讀、寫作和交流能力是一個(gè)長(zhǎng)期的研究挑戰(zhàn)。
從技術(shù)上講,語言建模是提高機(jī)器語言智能的主要方法之一。語言建模通常是對(duì)詞序列生成概率進(jìn)行建模,以預(yù)測(cè)未出現(xiàn)的詞語。語言建模研究在學(xué)術(shù)界受到廣泛關(guān)注。其發(fā)展可分為四個(gè)主要階段:
1、統(tǒng)計(jì)語言模型 (SLM)
SLM(Statistical Language Model)在20世紀(jì)90年代興起,基于統(tǒng)計(jì)學(xué)習(xí)方法,通過馬爾可夫假設(shè)來建立詞預(yù)測(cè)模型。其具有固定上下文長(zhǎng)度 n 的 SLM 也稱為 n 元語言模型,例如 bigram 和 trigram 語言模型。廣泛應(yīng)用于信息檢索和自然語言處理,但經(jīng)常面臨維數(shù)災(zāi)難的困擾。因此需要專門設(shè)計(jì)平滑策略,如回退估計(jì)和古德圖靈估計(jì)已被引入以緩解數(shù)據(jù)稀疏問題。
2、神經(jīng)語言模型 (NLM)
自然語言處理領(lǐng)域中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于描述單詞序列的概率。早期工作引入了詞的分布式表示概念,并基于分布式詞向量來構(gòu)建詞預(yù)測(cè)函數(shù),作為該領(lǐng)域的重要貢獻(xiàn)。后續(xù)研究擴(kuò)展了學(xué)習(xí)詞語和句子有效特征的思路,開發(fā)出通用的神經(jīng)網(wǎng)絡(luò)方法,為各類自然語言處理任務(wù)建立統(tǒng)一的解決方案。另外,word2vec提出使用簡(jiǎn)化的淺層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)分布式詞表示,這些表示在多種自然語言處理任務(wù)中展現(xiàn)出非常有效。以上研究將語言模型應(yīng)用于表示學(xué)習(xí)領(lǐng)域,而不僅限于詞序列建模,對(duì)自然語言處理產(chǎn)生了深遠(yuǎn)影響。
3、預(yù)訓(xùn)練語言模型 (PLM)
PLM通過在大規(guī)模語料上預(yù)訓(xùn)練獲取語義表示,然后微調(diào)到下游任務(wù)。Transformer等結(jié)構(gòu)的引入極大提高了性能?!邦A(yù)訓(xùn)練-微調(diào)”成為自然語言處理的重要范式。
4、大語言模型 (LLM)
大語言模型繼續(xù)擴(kuò)大模型和數(shù)據(jù)規(guī)模,展示出小模型所不具備的強(qiáng)大語言能力。GPT-3等模型表現(xiàn)出驚人的上下文學(xué)習(xí)能力。ChatGPT成功地將大語言模型應(yīng)用到開放領(lǐng)域?qū)υ挕?/p>
相比預(yù)訓(xùn)練語言模型(PLM),大語言模型(LLM)有三大關(guān)鍵區(qū)別:
1)LLM展現(xiàn)出PLM不具備的驚人涌現(xiàn)能力,使其在復(fù)雜任務(wù)上表現(xiàn)強(qiáng)大
2)LLM將改變?nèi)祟愰_發(fā)和使用AI系統(tǒng)的方式,需要通過提示接口訪問
3)LLM的研究和工程界限不再明確。LLM技術(shù)正在引領(lǐng)AI、自然語言處理、信息檢索和計(jì)算機(jī)視覺等領(lǐng)域的變革,基于LLM的實(shí)際應(yīng)用生態(tài)正在形成。
但是,LLM的內(nèi)在原理與關(guān)鍵因素還有待進(jìn)一步探索,訓(xùn)練大規(guī)模的LLM非常困難,將LLM與人類價(jià)值觀保持一致也面臨挑戰(zhàn)。因此需要更多關(guān)注LLM的研究和應(yīng)用。
二、概述
下面將概述大語言模型(LLM)的背景,并概括GPT系列模型的技術(shù)演進(jìn)歷程。
1、大語言模型的背景
大語言模型(LLM)通常指在大規(guī)模文本數(shù)據(jù)上訓(xùn)練的、包含數(shù)千億級(jí)(或更多)參數(shù)的Transformer結(jié)構(gòu)語言模型,比如GPT-3、PaLM、Galactica、LLaMA和LLaMA2等。LLM展示了強(qiáng)大的語言理解能力和通過文本生成解決復(fù)雜任務(wù)的能力。為快速理解LLM的工作原理,下面將介紹LLM的基本背景,包括擴(kuò)展法則、涌現(xiàn)能力和關(guān)鍵技術(shù)。
1)大語言模型的擴(kuò)展法則
目前大語言模型主要建立在Transformer架構(gòu)之上,其中多頭注意力機(jī)制層堆疊在非常深的神經(jīng)網(wǎng)絡(luò)中?,F(xiàn)有的大語言模型采用類似的Transformer結(jié)構(gòu)和與小型語言模型相同的預(yù)訓(xùn)練目標(biāo)(如語言建模),但是大語言模型大幅擴(kuò)展模型規(guī)模、訓(xùn)練數(shù)據(jù)量和總計(jì)算量(數(shù)量級(jí)上的提升)。大量研究表明擴(kuò)展規(guī)??梢燥@著提高語言模型的能力。因此,建立一個(gè)定量的方法來描述擴(kuò)展效應(yīng)很有意義。
KM擴(kuò)展法則:2020年OpenAI團(tuán)隊(duì)首次提出神經(jīng)語言模型的性能與模型規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練計(jì)算量之間存在冪律關(guān)系。在給定計(jì)算預(yù)算下,根據(jù)實(shí)驗(yàn)提出三個(gè)公式來描述擴(kuò)展法則。
這里L(fēng)是用自然對(duì)數(shù)表示的交叉熵?fù)p失。上述三個(gè)規(guī)律是通過擬合不同數(shù)據(jù)量、不同模型大小和不同訓(xùn)練計(jì)算量條件下的語言模型性能得出。結(jié)果表明模型性能與這三個(gè)因素存在非常強(qiáng)的依賴關(guān)系。
Chinchilla擴(kuò)展法則:Google DeepMind團(tuán)隊(duì)提出了另一種替代的擴(kuò)展法則形式,用于指導(dǎo)大語言模型的最優(yōu)訓(xùn)練計(jì)算量。通過變化更大范圍的模型規(guī)模和數(shù)據(jù)量進(jìn)行嚴(yán)格的實(shí)驗(yàn),并擬合出一個(gè)類似的擴(kuò)展法則,但具有不同的系數(shù):
在該法則中E、A、B、α和β為經(jīng)驗(yàn)確定的系數(shù)。研究人員進(jìn)一步在訓(xùn)練計(jì)算量約束C ≈ 6ND的條件下,通過優(yōu)化損失函數(shù)L(N,D)展示如何最優(yōu)地在模型規(guī)模和數(shù)據(jù)量之間分配計(jì)算預(yù)算的方法。
這里G是根據(jù)系數(shù)A、B、α和β計(jì)算得到的擴(kuò)展系數(shù)。如文獻(xiàn)分析隨著給定計(jì)算預(yù)算的增加,KM擴(kuò)展法則更傾向于將預(yù)算分配給模型規(guī)模,而Chinchilla擴(kuò)展法則認(rèn)為應(yīng)該以相近的比例增加模型和數(shù)據(jù)規(guī)模。盡管存在一些局限性假設(shè),這些擴(kuò)展法則提供了對(duì)擴(kuò)展效應(yīng)的直觀理解,可以用于訓(xùn)練過程中預(yù)測(cè)語言模型的性能。但是一些能力(如上下文學(xué)習(xí))無法完全根據(jù)擴(kuò)展法則預(yù)測(cè),只有模型超過一定規(guī)模后才會(huì)出現(xiàn)。
大語言模型的關(guān)鍵特征之一是展現(xiàn)出預(yù)訓(xùn)練語言模型所不具備的涌現(xiàn)能力,即只有模型達(dá)到一定規(guī)模后才出現(xiàn)的全新能力。當(dāng)涌現(xiàn)能力出現(xiàn)時(shí),性能會(huì)突然顯著提升,超過隨機(jī)水平,類似于物理學(xué)中的相變現(xiàn)象。涌現(xiàn)能力可以與復(fù)雜任務(wù)相關(guān),需要關(guān)注那些能廣泛解決任務(wù)的通用能力。下面簡(jiǎn)要介紹大語言模型的三種典型涌現(xiàn)能力和相關(guān)的代表性模型。
上下文學(xué)習(xí):GPT-3首次提出這種能力,即只需要提供語言指令和少量示例,模型就可以生成預(yù)期的輸出,無需額外訓(xùn)練。但這個(gè)能力與模型規(guī)模相關(guān),需要達(dá)到一定參數(shù)量才會(huì)出現(xiàn)。
指令遵循:通過指令微調(diào),大語言模型可以在完全未見過的任務(wù)上,僅根據(jù)語言描述就進(jìn)行泛化。當(dāng)模型超過680億參數(shù)后,這種能力才會(huì)顯著提升。不同模型對(duì)這種能力的掌握也有差異。
逐步推理:小模型難以解決需要多步推理的復(fù)雜任務(wù),而大語言模型可以通過提供中間推理步驟的思維鏈提示來完成這類任務(wù)。當(dāng)模型超過600億參數(shù)時(shí),這種提示帶來的效果才會(huì)顯著。不同任務(wù)對(duì)這種能力的依賴程度也不同。
2)大語言模型的關(guān)鍵技術(shù)
經(jīng)過長(zhǎng)期發(fā)展大語言模型(LLM)進(jìn)化到目前通用且具備強(qiáng)大能力的階段。主要技術(shù)進(jìn)展包括:
擴(kuò)展:增加模型、數(shù)據(jù)規(guī)模以及訓(xùn)練計(jì)算量,可以顯著提升LLM的能力。合理利用擴(kuò)展定律指導(dǎo)資源分配也很重要。
訓(xùn)練:分布式訓(xùn)練算法對(duì)成功訓(xùn)練大模型至關(guān)重要。一些優(yōu)化框架和技巧可以促進(jìn)大規(guī)模分布式訓(xùn)練。
能力引導(dǎo):設(shè)計(jì)恰當(dāng)?shù)奶崾静呗钥梢约ぐl(fā)LLM的潛在能力,但對(duì)小模型效果可能不同。
對(duì)齊微調(diào):通過人機(jī)交互的強(qiáng)化學(xué)習(xí),使LLM生成內(nèi)容符合人類價(jià)值觀。
工具操作:利用外部工具彌補(bǔ)LLM的局限,類似其“眼睛和耳朵”,可以擴(kuò)展能力范圍。
此外,許多其他因素(例如硬件升級(jí))也對(duì) LLM 的成功 做出了貢獻(xiàn)。但是,我們主要討論在開發(fā) LLM 方面的主要技 術(shù)方法和關(guān)鍵發(fā)現(xiàn)。
2、GPT 系列模型的技術(shù)演進(jìn)
ChatGPT因其與人類交流的出色能力受到廣泛關(guān)注。它基于功能強(qiáng)大的GPT模型開發(fā),對(duì)話能力得到了專門的優(yōu)化。考慮到人們對(duì)ChatGPT和GPT模型的濃厚興趣,本文特別總結(jié)了GPT系列模型在過去幾年中的技術(shù)演進(jìn)過程,以提高大眾的理解??偟脕碚fOpenAI在大語言模型研究上經(jīng)歷了以下幾個(gè)階段:
1)早期探索
根據(jù)OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever的采訪,在OpenAI早期就已經(jīng)探索過使用語言模型實(shí)現(xiàn)智能系統(tǒng)的想法,但當(dāng)時(shí)試驗(yàn)的是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。隨著Transformer架構(gòu)的出現(xiàn),OpenAI開發(fā)出了兩個(gè)早期GPT模型:GPT-1和GPT-2,這些模型可以視為后來更強(qiáng)大的GPT-3和GPT-4的基礎(chǔ)。
GPT-1:在2018年,OpenAI基于當(dāng)時(shí)新的Transformer架構(gòu),開發(fā)出第一個(gè)GPT模型。GPT-1采用Transformer解碼器結(jié)構(gòu),并使用無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)的方法,為后續(xù)GPT模型奠定基礎(chǔ)。
GPT-2:GPT-2在GPT-1的基礎(chǔ)上增加了參數(shù)量,達(dá)到150億,使用更大規(guī)模的網(wǎng)頁數(shù)據(jù)集進(jìn)行訓(xùn)練。通過無監(jiān)督語言建模來完成下游任務(wù),而不需要標(biāo)注數(shù)據(jù)的顯式微調(diào)。
2)能力飛躍
盡管GPT-2旨在通過無監(jiān)督訓(xùn)練成為通用的多任務(wù)學(xué)習(xí)器,但與有監(jiān)督微調(diào)的當(dāng)前最優(yōu)方法相比,其性能仍較弱。雖然GPT-2模型規(guī)模較小,經(jīng)過微調(diào)后在下游任務(wù)尤其是對(duì)話任務(wù)中仍然取得廣泛應(yīng)用。在GPT-2的基礎(chǔ)上,GPT-3通過擴(kuò)大模型規(guī)模,實(shí)現(xiàn)了在類似生成式預(yù)訓(xùn)練架構(gòu)下的重大能力飛躍。
在2020年發(fā)布的GPT-3將模型規(guī)模進(jìn)一步擴(kuò)大到1750億參數(shù)。GPT-3論文正式提出上下文學(xué)習(xí)(In-Context Learning, ICL)的概念,即用小樣本或零樣本的方式使用語言模型。ICL本質(zhì)上仍然是語言建模,只是預(yù)測(cè)的是完成給定任務(wù)的文本輸出。GPT-3不僅在NLP任務(wù)上表現(xiàn)強(qiáng)勁,在需要推理的任務(wù)上也展現(xiàn)出驚人的適應(yīng)能力。盡管GPT-3論文沒有明確討論涌現(xiàn)能力,但可以觀察到其性能飛躍可能超越了基本的規(guī)模擴(kuò)展法則,標(biāo)志著從預(yù)訓(xùn)練語言模型到大語言模型的重要進(jìn)化。
3)能力增強(qiáng)
GPT-3成為OpenAI開發(fā)更強(qiáng)大語言模型的基礎(chǔ),主要通過兩種方式進(jìn)行改進(jìn):
使用代碼數(shù)據(jù)進(jìn)行訓(xùn)練:原始GPT-3在純文本上訓(xùn)練,推理能力較弱。使用GitHub代碼微調(diào)可以增強(qiáng)其編程和數(shù)學(xué)問題解決能力。
與人類對(duì)齊:OpenAI早在2017年就開始研究如何從人類偏好中學(xué)習(xí)。他們使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練語言模型以符合人類期望。不僅提高了指令遵循能力,也能減輕有害內(nèi)容生成。通過人機(jī)交互強(qiáng)化學(xué)習(xí)對(duì)齊語言模型與人類價(jià)值觀非常重要。
4)語言模型的重要里程碑
基于之前的探索,OpenAI取得兩個(gè)重要進(jìn)展:ChatGPT和GPT-4,極大地提升AI系統(tǒng)的能力:
ChatGPT:2022年11月發(fā)布是對(duì)話優(yōu)化的GPT模型,訓(xùn)練方式類似InstructGPT。展現(xiàn)出與人交流的卓越能力和豐富知識(shí),是目前最強(qiáng)大的聊天機(jī)器人,對(duì)AI研究影響重大。
GPT-4:2023年3月發(fā)布,支持多模態(tài)輸入,相比GPT-3.5有顯著提升,在各類困難任務(wù)上優(yōu)于ChatGPT。通過迭代對(duì)齊,對(duì)惡意問題的響應(yīng)也更安全。OpenAI采用各種策略減輕潛在風(fēng)險(xiǎn)。
盡管取得長(zhǎng)足進(jìn)步,這些語言模型仍存在局限,需要持續(xù)優(yōu)化使其更強(qiáng)大和安全。OpenAI采用迭代部署策略來控制風(fēng)險(xiǎn)。
三、大語言模型資源
鑒于訓(xùn)練大語言模型面臨的技術(shù)難題和計(jì)算資源需求,從零開始開發(fā)或復(fù)現(xiàn)大語言模型非常困難。一個(gè)可行的方法是在現(xiàn)有語言模型的基礎(chǔ)上進(jìn)行增量開發(fā)或?qū)嶒?yàn)研究。下面簡(jiǎn)要總結(jié)用于開發(fā)大語言模型的公開可用資源,包括公開的模型Checkpoint、語料庫和代碼庫。
1、公開可用的模型檢查點(diǎn)或API
考慮到預(yù)訓(xùn)練模型的高昂成本,公開的預(yù)訓(xùn)練檢查點(diǎn)對(duì)研究組織開展大語言模型至關(guān)重要。參數(shù)規(guī)模是使用這些模型時(shí)需要考慮的關(guān)鍵因素。為幫助用戶根據(jù)計(jì)算資源選擇適當(dāng)?shù)难芯糠较?,將公開的模型分為百億和千億參數(shù)兩個(gè)級(jí)別。另外,公開的API可以直接使用模型進(jìn)行推理,無需本地運(yùn)行。下面介紹公開的模型檢查點(diǎn)和API。
1)百億參數(shù)量級(jí)別的模型
百億參數(shù)量級(jí)的公開語言模型包括mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0等,參數(shù)規(guī)模在100-200億之間。其中Flan-T5可用于指令微調(diào)研究,CodeGen專為生成代碼設(shè)計(jì),mT0支持多語言。針對(duì)中文任務(wù),PanGu-α表現(xiàn)較好。LLaMA是最近公開的模型,在指令遵循任務(wù)上展現(xiàn)卓越能力。這類規(guī)模的模型通常需要數(shù)百至上千個(gè)GPU/TPU。為準(zhǔn)確估計(jì)所需計(jì)算資源,可使用計(jì)算量指標(biāo)如FLOPS。
2)千億參數(shù)量級(jí)別的模型
千億參數(shù)量級(jí)的公開語言模型較少,主要有OPT、OPT-IML、BLOOM、BLOOMZ、GLM和Galactica。其中OPT用于復(fù)現(xiàn)GPT-3,BLOOM和BLOOMZ在多語言建模上表現(xiàn)較好,OPT-IML進(jìn)行過指令微調(diào)。這類模型通常需要數(shù)千個(gè)GPU/TPU,比如OPT使用992個(gè)A100 GPU,GLM使用了96個(gè)DGX-A100節(jié)點(diǎn)。
3)大語言模型的公共API
相比直接使用模型,API提供更方便的方式使用大語言模型,無需本地運(yùn)行。GPT系列模型的API已經(jīng)被廣泛使用,包括ada、babbage、curie、davinci等。其中davinci對(duì)應(yīng)GPT-3最大模型。此外還有與Codex相關(guān)的代碼生成API。GPT-3.5系列新增text-davinci-002等接口。gpt-3.5-turbo-0301對(duì)應(yīng)ChatGPT。最近,GPT-4的API也發(fā)布。總體來說,接口選擇取決于具體應(yīng)用場(chǎng)景和響應(yīng)需求。
2、常用語料庫
與小規(guī)模預(yù)訓(xùn)練語言模型不同,大語言模型需要更大量且內(nèi)容廣泛的數(shù)據(jù)進(jìn)行訓(xùn)練。為滿足這一需求,越來越多的公開數(shù)據(jù)集被發(fā)布用于研究。這里簡(jiǎn)要概述一些常用的大語言模型訓(xùn)練語料庫,根據(jù)內(nèi)容類型分為六類:Books、CommonCrawl、Reddit Links、Wikipedia、Code、Others。
1)Books
BookCorpus包含超過1.1萬本電子書,覆蓋廣泛的主題,被早期小規(guī)模模型如GPT和GPT-2使用。Gutenberg語料包含超過7萬本各類文學(xué)作品,是目前最大的公開書籍集合之一,被用于訓(xùn)練MT-NLG和LLaMA等模型。而GPT-3中使用的未公開的Books1和Books2數(shù)據(jù)集規(guī)模更大。
2)CommonCrawl
CommonCrawl是最大的開源網(wǎng)絡(luò)爬蟲數(shù)據(jù)庫之一,已被廣泛運(yùn)用于大型語言模型訓(xùn)練?,F(xiàn)有基于CommonCrawl的過濾數(shù)據(jù)集包括C4、CC-Stories、CC-News和RealNews。C4包括五個(gè)變種18,即 en,en.noclean ,realnewslike ,webtextlike 和 multilingual。其中,en 版本被用于預(yù)訓(xùn)練 T5, LaMDA,Gopher和 UL2用于預(yù)訓(xùn)練多個(gè)模型;CC-Stories和CC-News是CommonCrawl數(shù)據(jù)的子集,包含故事形式的內(nèi)容;RealNews也被用作預(yù)訓(xùn)練數(shù)據(jù)。
3)Reddit Links
Reddit是一個(gè)社交媒體平臺(tái),用戶可以在上面提交鏈接和帖子。WebText是一個(gè)著名的基于Reddit的語料庫,由Reddit上高贊的鏈接組成。OpenWebText是易于獲取的開源替代品。PushShift.io是一個(gè)實(shí)時(shí)更新的數(shù)據(jù)集,包括自Reddit創(chuàng)建以來的歷史數(shù)據(jù)。提供有用的實(shí)用工具,支持用戶搜索、總結(jié)和對(duì)整個(gè)數(shù)據(jù)集進(jìn)行初步統(tǒng)計(jì)分析。用戶可以輕松地收集和處理Reddit數(shù)據(jù)。
4)Wikipedia
Wikipedia是一個(gè)在線百科全書,包含大量高質(zhì)量的文章,涵蓋各種主題。采用解釋性寫作風(fēng)格并支持引用,覆蓋多種不同語言和廣泛的知識(shí)領(lǐng)域。Wikipedia英語版本被廣泛應(yīng)用于大多數(shù)LLM(如GPT-3、LaMDA和LLaMA),還提供多種語言版本,可在多語言環(huán)境下使用。
5)Code
收集代碼數(shù)據(jù)的主要來源是從互聯(lián)網(wǎng)上爬取有開源許可證的代碼,包括開源許可證的公共代碼庫(如GitHub)和與代碼相關(guān)的問答平臺(tái)(如StackOverflow)。Google公開發(fā)布BigQuery數(shù)據(jù)集,包含各種編程語言的大量開源許可證代碼片段,是典型的代碼數(shù)據(jù)集。CodeGen使用的BIGQUERY是BigQuery數(shù)據(jù)集的一個(gè)子集,用于訓(xùn)練多語言版本的CodeGen-Multi。
6)Others
The Pile是一個(gè)大規(guī)模、多樣化的開源文本數(shù)據(jù)集(超過800GB數(shù)據(jù)),包含書籍、網(wǎng)站、代碼、科學(xué)論文和社交媒體平臺(tái)等內(nèi)容。由22個(gè)高質(zhì)量的子集組成,被廣泛應(yīng)用于不同參數(shù)規(guī)模的模型中,如 GPT-J(6B)、CodeGen(16B)和 Megatron-Turing NLG(530B)。此外,ROOTS是由各種較小的數(shù)據(jù)集組成的大型語料庫,覆蓋59種不同的語言,用于訓(xùn)練BLOOM。
為了預(yù)訓(xùn)練LLM,通常需要混合使用不同的數(shù)據(jù)源,如C4、OpenWebText和The Pile等,并從相關(guān)源(如Wikipedia和BigQuery)提取數(shù)據(jù)以豐富預(yù)訓(xùn)練數(shù)據(jù)中的相應(yīng)信息。為快速了解現(xiàn)有 LLM 使用的數(shù)據(jù)來源,下面介紹三個(gè)代表性 LLM 的預(yù)訓(xùn)練語料庫:
GPT-3(175B)在混合數(shù)據(jù)集上進(jìn)行訓(xùn)練,包括 CommonCrawl、WebText2、Books1、Books2 和 Wikipedia。
PaLM(540B)使用由社交媒體對(duì)話、過濾后的網(wǎng)頁、書籍、Github、多語言維基百科和新聞組成的預(yù)訓(xùn)練數(shù)據(jù)集,共包含 7800 億 token。
LLaMA從多個(gè)數(shù)據(jù)源中提取訓(xùn)練數(shù)據(jù),包括 CommonCrawl、C4、Github、Wikipedia、書籍、ArXiv 和 StackExchange。LLaMA(6B)、LLaMA(13B)和 LLaMA(32B)的訓(xùn)練數(shù)據(jù)大小為 1.0 萬億 token,而 LLaMA(65B)使用了 1.4 萬億 token。
3、代碼庫資源
在這部分,簡(jiǎn)要介紹一些可用于開發(fā) LLM 的代碼庫。
1)Transformers
Transformers 是一個(gè)由 Hugging Face 開發(fā)的 Python 庫,采用 Transformer 架構(gòu)。提供簡(jiǎn)單易用的 API,方便用戶定制各種預(yù)訓(xùn)練模型。該庫擁有龐大活躍的用戶和開發(fā)者社區(qū),定期更新和改進(jìn)模型和算法。
2)DeepSpeed
Microsoft 開發(fā)的深度學(xué)習(xí)優(yōu)化庫(兼容 PyTorch),已被用于訓(xùn)練多個(gè) LLM,例如 MT NLG 和 BLOOM。支持分布式訓(xùn)練優(yōu)化技術(shù),如內(nèi)存優(yōu)化(ZeRO 技術(shù)和梯度檢查點(diǎn))和管道并行。
3)Megatron-LM
NVIDIA 開發(fā)的深度學(xué)習(xí)庫,用于訓(xùn)練LLM。提供分布式訓(xùn)練優(yōu)化技術(shù),如模型和數(shù)據(jù)并行、混合精度訓(xùn)練和FlashAttention,可提高訓(xùn)練效率和速度,實(shí)現(xiàn)高效分布式訓(xùn)練。
4)JAX
Google 開發(fā)的 Python 庫,用于高性能機(jī)器學(xué)習(xí)算法運(yùn)算。支持在硬件加速下進(jìn)行數(shù)組高效運(yùn)算,可在各種設(shè)備上進(jìn)行高效計(jì)算,還支持自動(dòng)微分和即時(shí)編譯等特色功能。
5)Colossal-AI
HPC-AI Tech開發(fā)的深度學(xué)習(xí)庫,用于訓(xùn)練大規(guī)模人工智能模型?;?PyTorch 實(shí)現(xiàn),支持并行訓(xùn)練策略和 PatrickStar 方法優(yōu)化異構(gòu)內(nèi)存管理。最近發(fā)布 ColossalChat 類 ChatGPT 模型(7B 和 13B 版本)。
6)BMTrain
OpenBMB 開發(fā)的分布式訓(xùn)練庫,強(qiáng)調(diào)簡(jiǎn)潔代碼、低資源占用和高可用性。BMTrain 已在其 ModelCenter 中遷移常見 LLM(如 Flan T5 和 GLM),用戶可直接使用。
7)FastMoE
FastMoE是一種專門用于MoE模型的訓(xùn)練庫,基于PyTorch開發(fā),注重效率和用戶友好性。簡(jiǎn)化了將Transformer模型轉(zhuǎn)換為MoE模型的過程,支持?jǐn)?shù)據(jù)和模型并行訓(xùn)練。
除了上述深度學(xué)習(xí)框架提供的資源外,其他框架如PyTorch、TensorFlow、MXNet、PaddlePaddle、MindSpore 和OneFlow也提供并行算法支持,通常用于訓(xùn)練大規(guī)模模型。
四、數(shù)據(jù)收集
LLM 需要高質(zhì)量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,其模型能力也依賴預(yù)處理方式和預(yù)訓(xùn)練語料庫。下面主要討論預(yù)訓(xùn)練數(shù)據(jù)的收集和處理,包括數(shù)據(jù)來源、預(yù)處理方法以及對(duì) LLM 性能的影響分析。
1、數(shù)據(jù)來源
開發(fā)有能力的LLM關(guān)鍵在于收集大量自然語言語料庫?,F(xiàn)有LLM混合各種公共文本數(shù)據(jù)集作為預(yù)訓(xùn)練語料庫,來源分為通用文本和專用文本。通用文本數(shù)據(jù)(如網(wǎng)頁、書籍和對(duì)話文本等)規(guī)模大、多樣性強(qiáng)且易于獲取,被大多數(shù) LLM 所利用,可增強(qiáng)其語言建模和泛化能力。專用數(shù)據(jù)集(如多語言數(shù)據(jù)、科學(xué)數(shù)據(jù)和代碼等)可賦予 LLM 解決專用任務(wù)的能力。
現(xiàn)有 LLM 預(yù)訓(xùn)練數(shù)據(jù)中各種數(shù)據(jù)來源的比率
1)通用文本數(shù)據(jù)
通用預(yù)訓(xùn)練數(shù)據(jù)是LLM模型中不可或缺的部分,提供豐富的文本資源和多樣的主題。其中,三種重要的通用文本數(shù)據(jù)包括網(wǎng)頁、對(duì)話文本和書籍。
網(wǎng)頁包括維基百科、新聞網(wǎng)站等,但需要過濾低質(zhì)量?jī)?nèi)容。為提高數(shù)據(jù)質(zhì)量,研究人員通常使用網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù),如CommonCrawl。這些數(shù)據(jù)可能同時(shí)包含高質(zhì)量和低質(zhì)量的文本,因此需要進(jìn)行過濾和處理。
對(duì)話文本可以增強(qiáng) LLM 的對(duì)話能力和問答任務(wù)的表現(xiàn)。研究人員可以利用公共對(duì)話語料庫的子集或從在線社交媒體收集對(duì)話數(shù)據(jù)。由于對(duì)話數(shù)據(jù)通常涉及多個(gè)參與者之間的討論,因此一種有效的處理方法是將對(duì)話轉(zhuǎn)換成樹形結(jié)構(gòu),將每句話與回應(yīng)它的話語相連。通過這種方式,可以將多方之間的對(duì)話樹劃分為預(yù)訓(xùn)練語料庫中的多個(gè)子對(duì)話。但是,過度引入對(duì)話數(shù)據(jù)可能會(huì)導(dǎo)致指令錯(cuò)誤地被認(rèn)為是對(duì)話的開始,從而降低指令的有效性。
書籍是另一種重要的通用文本數(shù)據(jù)來源,相對(duì)于其他語料庫,書籍提供更正式的長(zhǎng)文本。這對(duì)于LLM學(xué)習(xí)語言知識(shí)、建模長(zhǎng)期依賴關(guān)系以及生成敘述性和連貫的文本具有潛在的好處?,F(xiàn)有的開源數(shù)據(jù)集包括Books3和Bookcorpus2,這些數(shù)據(jù)集可以在Pile數(shù)據(jù)集中獲得。
2)專用文本數(shù)據(jù)
專用數(shù)據(jù)集對(duì)提高LLM在特定任務(wù)中的能力非常有用。三種專用數(shù)據(jù)類型包括多語言文本、科學(xué)文本和代碼。
? 多語言文本:整合多語言語料庫可以增強(qiáng)模型的多語言理解和生成能力。例如,BLOOM和PaLM在其預(yù)訓(xùn)練語料庫中收集包含46種和122種語言的多語言數(shù)據(jù),這些模型在多語言任務(wù)中展現(xiàn)出色的性能,如翻譯、多語言摘要和多語言問答,并且與在目標(biāo)語言上微調(diào)的最先進(jìn)的模型具有可比性甚至更好的性能。
? 科學(xué)文本:科學(xué)出版物的不斷增長(zhǎng)見證了人類對(duì)科學(xué)的探索。為增強(qiáng)LLM對(duì)科學(xué)知識(shí)的理解,可以將科學(xué)語料庫納入模型的預(yù)訓(xùn)練語料,通過在大量科學(xué)文本上進(jìn)行預(yù)訓(xùn)練,LLM可以在科學(xué)和推理任務(wù)中取得出色的性能。現(xiàn)有的工作主要收集arXiv 論文、科學(xué)教材、數(shù)學(xué)網(wǎng)頁和其他相關(guān)的科學(xué)資源。由于科學(xué)領(lǐng)域數(shù)據(jù)的復(fù)雜性,例如數(shù)學(xué)符號(hào)和蛋白質(zhì)序列,通常需要特定的標(biāo)記化和預(yù)處理技術(shù)來將這些不同格式的數(shù)據(jù)轉(zhuǎn)換為可以被語言模型處理的統(tǒng)一形式。
?代碼:程序編寫在學(xué)術(shù)界和PLM應(yīng)用中受到廣泛關(guān)注,但生成高質(zhì)量和準(zhǔn)確的程序仍具有挑戰(zhàn)性。最近研究顯示,在大量代碼語料庫上預(yù)訓(xùn)練LLM可以提高編程質(zhì)量,通過單元測(cè)試用例或解決競(jìng)賽編程問題。預(yù)訓(xùn)練LLM的代碼語料庫主要有兩種來源:編程問答社區(qū)和開源軟件倉庫。與自然語言文本不同,代碼以編程語言格式呈現(xiàn),對(duì)應(yīng)著長(zhǎng)距離依賴和準(zhǔn)確的執(zhí)行邏輯。最近研究表明,訓(xùn)練代碼可能是復(fù)雜推理能力的來源,并且將推理任務(wù)格式化為代碼的形式還可以幫助 LLM 生成更準(zhǔn)確的結(jié)果。
2、數(shù)據(jù)預(yù)處理
收集大量文本數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是必要的,特別是消除噪聲、冗余、無關(guān)和潛在有害的數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)可能會(huì)影響 LLM 的能力和性能。下面將回顧提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)預(yù)處理策略。預(yù)處理 LLM 的預(yù)訓(xùn)練數(shù)據(jù)的典型流程已在圖中說明。
一個(gè)典型的預(yù)處理預(yù)訓(xùn)練數(shù)據(jù)的流程圖
1)質(zhì)量過濾
為刪除低質(zhì)量數(shù)據(jù),現(xiàn)有工作通常采用基于分類器或基于啟發(fā)式的方法?;诜诸惼鞯姆椒ㄊ褂酶哔|(zhì)量文本訓(xùn)練分類器,并預(yù)測(cè)每個(gè)數(shù)據(jù)的分?jǐn)?shù),從而過濾低質(zhì)量數(shù)據(jù)。但這些方法可能會(huì)刪除方言、口語和社會(huì)語言的高質(zhì)量文本,導(dǎo)致偏見和減少多樣性?;趩l(fā)式的方法則通過設(shè)計(jì)一組規(guī)則來消除低質(zhì)量文本,這些規(guī)則可以總結(jié)為:去除重復(fù)、無關(guān)或不完整的文本;去除拼寫錯(cuò)誤、語法錯(cuò)誤或非常規(guī)用詞的文本;去除缺乏上下文信息的文本等。
2)去重
現(xiàn)有研究發(fā)現(xiàn),語料庫中的重復(fù)數(shù)據(jù)會(huì)影響模型多樣性和訓(xùn)練過程穩(wěn)定性,因此需要對(duì)預(yù)訓(xùn)練語料庫進(jìn)行去重處理。具體而言,可以在句子級(jí)、文檔級(jí)和數(shù)據(jù)集級(jí)等不同粒度上去重。在句子級(jí)別上,應(yīng)刪除包含重復(fù)單詞和短語的低質(zhì)量句子;在文檔級(jí)別上,可通過檢測(cè)重疊比率來刪除相似內(nèi)容的重復(fù)文檔;同時(shí),還需防止訓(xùn)練集和評(píng)估集之間的重疊。這三個(gè)級(jí)別的去重都有助于改善 LLM 的訓(xùn)練,應(yīng)該共同使用。
3)隱私去除
大多數(shù)預(yù)訓(xùn)練文本數(shù)據(jù)來自網(wǎng)絡(luò)來源,包括用戶生成內(nèi)容涉及敏感或個(gè)人信息,可能增加隱私泄露風(fēng)險(xiǎn)。因此,需要從預(yù)訓(xùn)練語料庫中刪除可識(shí)別個(gè)人信息(PII)。一種直接有效的方法是采用基于規(guī)則的方法,例如關(guān)鍵字識(shí)別,來檢測(cè)和刪除 PII 等敏感信息。此外,研究人員還發(fā)現(xiàn),LLM 在隱私攻擊下的脆弱性可能歸因于預(yù)訓(xùn)練語料庫中存在的重復(fù) PII 數(shù)據(jù)。因此,去重也可以降低隱私風(fēng)險(xiǎn)。
4)分詞
分詞是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,將原始文本分割成詞序列,作為 LLM 的輸入。雖然已有的分詞器方便,但使用專為預(yù)訓(xùn)練語料庫設(shè)計(jì)的分詞器更有效,特別是對(duì)于多領(lǐng)域、語言和格式的語料庫。最近的幾個(gè)LLM使用SentencePiece為預(yù)訓(xùn)練語料庫訓(xùn)練定制化的分詞器,并利用BPE算法確保信息不會(huì)丟失。但需要注意歸一化技術(shù)可能會(huì)降低分詞性能。
3、預(yù)訓(xùn)練數(shù)據(jù)對(duì)大語言模型的影響
與小規(guī)模的PLM不同,大規(guī)模LLM通常無法進(jìn)行多次預(yù)訓(xùn)練迭代,因此在訓(xùn)練之前準(zhǔn)備充分的預(yù)訓(xùn)練語料庫非常重要。下面將探討預(yù)訓(xùn)練語料庫的質(zhì)量、分布等因素如何影響LLM的性能。
1)混合來源
來自不同領(lǐng)域或場(chǎng)景的預(yù)訓(xùn)練數(shù)據(jù)具有不同的語言特征或語義知識(shí),混合不同來源的數(shù)據(jù)時(shí)需要仔細(xì)設(shè)置預(yù)訓(xùn)練數(shù)據(jù)的分布。Gopher實(shí)驗(yàn)表明增加書籍?dāng)?shù)據(jù)比例可以提高模型從文本中捕捉長(zhǎng)期依賴的能力,增加C4數(shù)據(jù)集比例則會(huì)提升在C4驗(yàn)證數(shù)據(jù)集上的性能。但單獨(dú)訓(xùn)練過多某個(gè)領(lǐng)域的數(shù)據(jù)會(huì)影響LLM在其他領(lǐng)域的泛化能力。因此,建議研究人員應(yīng)確定預(yù)訓(xùn)練語料庫中來自不同領(lǐng)域的數(shù)據(jù)的比例,以開發(fā)更符合需求的 LLM。
2)預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量
為預(yù)訓(xùn)練一個(gè)有效的 LLM,收集足夠的高質(zhì)量數(shù)據(jù)很重要。現(xiàn)有研究發(fā)現(xiàn),隨著 LLM參數(shù)規(guī)模的增加,需要更多的數(shù)據(jù)來訓(xùn)練模型。許多現(xiàn)有的LLM由于缺乏充足的預(yù)訓(xùn)練數(shù)據(jù)而遭受次優(yōu)訓(xùn)練的問題。通過廣泛的實(shí)驗(yàn)表明,在給定的計(jì)算預(yù)算下,采用相等規(guī)模的模型參數(shù)和訓(xùn)練token是必要的。LLaMA 研究表明,使用更多的數(shù)據(jù)和進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練,較小的模型也可以實(shí)現(xiàn)良好的性能。因此,建議研究人員在充分訓(xùn)練模型時(shí),關(guān)注高質(zhì)量數(shù)據(jù)的數(shù)量。
3)預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量
研究表明,對(duì)低質(zhì)量的語料庫進(jìn)行預(yù)訓(xùn)練可能會(huì)損害模型性能。為了開發(fā)表現(xiàn)良好的 LLM,收集的訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量都至關(guān)重要。最近的研究已經(jīng)表明數(shù)據(jù)質(zhì)量對(duì)下游任務(wù)性能的影響。通過比較在過濾和未過濾的語料庫上訓(xùn)練的模型的性能,得到了相同的結(jié)論,即在清理后的數(shù)據(jù)上預(yù)訓(xùn)練LLM可以提高性能。更具體地說,數(shù)據(jù)的重復(fù)可能會(huì)導(dǎo)致“雙下降現(xiàn)象”,甚至可能會(huì)使訓(xùn)練過程不穩(wěn)定。此外,重復(fù)的數(shù)據(jù)會(huì)降低 LLM 從上下文中復(fù)制的能力,進(jìn)一步影響 LLM 在 ICL 中的泛化能力。因此,研究人員有必要仔細(xì)地對(duì)預(yù)訓(xùn)練語料庫進(jìn)行預(yù)處理來提高訓(xùn)練過程的穩(wěn)定性,并避免其對(duì)模型性能的影響。
五、大語言模型的適配微調(diào)
預(yù)訓(xùn)練后的LLM可以獲得解決各種任務(wù)的通用能力,LLM 的能力可以進(jìn)一步適配到特定的目標(biāo)。下面將介紹兩種適配預(yù)訓(xùn)練后的 LLM 的方法:指令微調(diào)和對(duì)齊微調(diào)。前者旨在增強(qiáng) LLM 的能力,后者則旨在將LLM的行為與人類價(jià)值觀或偏好對(duì)齊。
1、指令微調(diào)
指令微調(diào)是在自然語言格式的實(shí)例集合上微調(diào)預(yù)訓(xùn)練后的 LLM 的方法。收集或構(gòu)建指令格式的實(shí)例后,使用有監(jiān)督的方式微調(diào)LLM,例如使用序列到序列的損失進(jìn)行訓(xùn)練。微調(diào)后LLM 可以展現(xiàn)出泛化到未見過任務(wù)的能力,即使在多語言場(chǎng)景下也有不錯(cuò)表現(xiàn)。
1)格式化實(shí)例的構(gòu)建
指令格式的實(shí)例包括任務(wù)描述、輸入輸出和示例。現(xiàn)有研究已經(jīng)發(fā)布帶標(biāo)注的自然語言格式的數(shù)據(jù),是重要的公共資源。
格式化已有數(shù)據(jù)集:早期的幾項(xiàng)研究工作是在不同領(lǐng)域收集實(shí)例,創(chuàng)建有監(jiān)督的多任務(wù)訓(xùn)練數(shù)據(jù)集以進(jìn)行多任務(wù)學(xué)習(xí)。即利用人類撰寫的自然語言任務(wù)描述來為這些數(shù)據(jù)集添加格式化,以指導(dǎo)語言模型理解不同的任務(wù)。例如,每一個(gè)問答任務(wù)都添加了"請(qǐng)回答以下問題"的描述。指令被證明是影響語言模型任務(wù)泛化能力的關(guān)鍵因素。為了指令調(diào)優(yōu)生成更好的標(biāo)注數(shù)據(jù),一些工作采用逆向輸入輸出的方法,即反轉(zhuǎn)已有的輸入輸出設(shè)計(jì)指令。還有一些工作利用啟發(fā)式模板將大量無標(biāo)注文本轉(zhuǎn)換為帶標(biāo)注的實(shí)例。
格式化人類需求:盡管已經(jīng)通過添加指令格式化了大量訓(xùn)練數(shù)據(jù),但這些數(shù)據(jù)主要來自公共NLP數(shù)據(jù)集,缺乏多樣性和與真實(shí)需求的匹配。為了解決這個(gè)問題,一些工作采用了用戶提交給OpenAI API的真實(shí)查詢作為任務(wù)描述。這些用自然語言表達(dá)的查詢很適合引導(dǎo)語言模型遵循指令的能力。此外,還讓標(biāo)注者為真實(shí)生活中的任務(wù)編寫各種指令,如開放式生成、問答、頭腦風(fēng)暴和聊天等。然后讓其他標(biāo)注者直接根據(jù)這些指令作為輸出進(jìn)行回答。最后,將指令和期望輸出配對(duì)作為一個(gè)訓(xùn)練實(shí)例。值得注意的是,這些真實(shí)世界任務(wù)還被用于對(duì)齊微調(diào)。另外一些工作將現(xiàn)有實(shí)例輸入語言模型生成指令和數(shù)據(jù),以減輕人工標(biāo)注的負(fù)擔(dān),構(gòu)建更多樣性的訓(xùn)練數(shù)據(jù)。
構(gòu)建實(shí)例的關(guān)鍵因素:指令實(shí)例的質(zhì)量對(duì)模型的性能有重要影響。在此討論了一些實(shí)例構(gòu)建中的關(guān)鍵因素。
格式化實(shí)例和兩種構(gòu)造指令格式實(shí)例的方式的示意圖
增加指令數(shù)量:大量研究結(jié)果表明,擴(kuò)充任務(wù)數(shù)量可以顯著提高大語言模型的泛化能力。隨著任務(wù)數(shù)量的增加,模型性能一開始持續(xù)提高,但當(dāng)任務(wù)數(shù)量達(dá)到一定水平后,模型性能提升變得微乎其微。一個(gè)合理的猜想是,一定數(shù)量的代表性任務(wù)就可以提供相對(duì)充足的知識(shí),繼續(xù)添加更多任務(wù)收益有限。此外,從任務(wù)描述的長(zhǎng)度、結(jié)構(gòu)、創(chuàng)造性等多個(gè)維度增強(qiáng)任務(wù)的多樣性也是有益的。關(guān)于每個(gè)任務(wù)需要的實(shí)例數(shù)量,已有研究發(fā)現(xiàn)少量實(shí)例通常就可以使模型達(dá)到泛化性能飽和。然而,對(duì)某些任務(wù)大幅增加實(shí)例數(shù)量(例如數(shù)百個(gè))可能會(huì)導(dǎo)致過擬合,影響模型性能。
指令格式的設(shè)計(jì)也很重要:通常可以在輸入輸出對(duì)中添加任務(wù)描述和示例。適當(dāng)數(shù)量的示例有助于模型理解,也降低了對(duì)指令工程的敏感性。但是過多無關(guān)內(nèi)容的添加反而可能適得其反。含有鏈?zhǔn)酵评淼闹噶羁梢蕴岣吣P偷耐评砟芰Α?/p>
2)指令微調(diào)策略
與預(yù)訓(xùn)練不同,指令微調(diào)由于只需要少量實(shí)例進(jìn)行訓(xùn)練,因此通常更加高效。指令微調(diào)可以視為一個(gè)有監(jiān)督的訓(xùn)練過程,其優(yōu)化過程與預(yù)訓(xùn)練存在一些區(qū)別,例如訓(xùn)練目標(biāo)函數(shù)(如序列到序列的損失函數(shù))和優(yōu)化參數(shù)設(shè)置(如更小的批量大小和學(xué)習(xí)率)。這些細(xì)節(jié)在實(shí)踐中需要特別注意。除了優(yōu)化參數(shù)設(shè)置,指令微調(diào)還需要考慮以下兩個(gè)重要方面:
數(shù)據(jù)分布平衡:由于涉及多種任務(wù)混合,需要平衡不同任務(wù)的數(shù)據(jù)比例。一種方法是將所有數(shù)據(jù)合并后按比例采樣。通常會(huì)給高質(zhì)量數(shù)據(jù)如FLAN更高的采樣比例,并設(shè)置最大容量限制樣本總數(shù),防止大數(shù)據(jù)集占據(jù)采樣集合。
結(jié)合預(yù)訓(xùn)練:一些方法在指令微調(diào)中加入預(yù)訓(xùn)練數(shù),作為正則化。還有方法不分階段,而是從頭用多任務(wù)學(xué)習(xí)方式同時(shí)訓(xùn)練預(yù)訓(xùn)練數(shù)據(jù)和指令格式數(shù)據(jù)。一些模型也將指令數(shù)據(jù)作為預(yù)訓(xùn)練語料的一小部分來進(jìn)行預(yù)訓(xùn),以同時(shí)獲得預(yù)訓(xùn)練和指令微調(diào)的優(yōu)勢(shì)。
3)指令微調(diào)的效果
指令微調(diào)對(duì)語言模型有以下兩個(gè)主要影響:
性能改進(jìn):指令微調(diào)可以顯著提高不同規(guī)模語言模型的能力,即使在小數(shù)據(jù)集上微調(diào)也有明顯效果。微調(diào)過的小模型有時(shí)甚至優(yōu)于原大模型。指令微調(diào)提供了一種提升現(xiàn)有語言模型能力的通用高效方法。
任務(wù)泛化:指令微調(diào)賦予模型遵循人類自然語言指令完成任務(wù)的能力,即使是未見過的任務(wù)也可以泛化執(zhí)行。已證實(shí)它能增強(qiáng)模型在見過和未見過任務(wù)上的表現(xiàn)。指令微調(diào)還能幫助緩解語言模型的一些弱點(diǎn),提高解決真實(shí)世界任務(wù)的能力。經(jīng)微調(diào)的模型可以將英文任務(wù)的能力泛化到其他語言相關(guān)任務(wù)上,甚至只用英文指令就能取得可滿意的多語言任務(wù)表現(xiàn)。
2、對(duì)齊微調(diào)
這部分首先介紹對(duì)齊微調(diào)的背景,包括定義和評(píng)估標(biāo)準(zhǔn);然后重點(diǎn)討論用于對(duì)齊語言模型的人類反饋數(shù)據(jù)的收集方法;最后探討利用人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)以實(shí)現(xiàn)對(duì)齊微調(diào)的關(guān)鍵技術(shù)。
1)對(duì)齊微調(diào)的背景和標(biāo)準(zhǔn)
語言模型在許多自然語言處理任務(wù)上展示了強(qiáng)大的能力,但有時(shí)也可能表現(xiàn)出不符合預(yù)期的行為,如生成虛假信息、追求不準(zhǔn)確的目標(biāo)以及產(chǎn)生有害、誤導(dǎo)或帶有偏見的輸出。預(yù)訓(xùn)練語言模型的目標(biāo)是語言建模,沒有考慮到人類的價(jià)值觀,因此需要進(jìn)行對(duì)齊微調(diào)以使模型行為符合人類期望。
對(duì)齊微調(diào)的標(biāo)準(zhǔn)與預(yù)訓(xùn)練和其他微調(diào)不同,更加主觀和復(fù)雜,如有用性、誠(chéng)實(shí)性和無害性。這些標(biāo)準(zhǔn)難以直接作為優(yōu)化目標(biāo),需要采用特定的技術(shù)實(shí)現(xiàn)。有用性要求模型用簡(jiǎn)明高效的方式解決用戶的問題和回答問題,并展示提出恰當(dāng)問題獲取更多信息的能力。定義和測(cè)量有用性具有挑戰(zhàn)性;誠(chéng)實(shí)性要求提供準(zhǔn)確內(nèi)容而不捏造,需要傳達(dá)不確定性。相對(duì)更客觀,依賴人力可能更少;無害性要求不生成冒犯或歧視語言,檢測(cè)并拒絕惡意請(qǐng)求,依賴于使用背景。
2)人類反饋的收集
選擇合適的標(biāo)注人員很重要,需要教育水平高、英語能力強(qiáng)的母語使用者,最好有相關(guān)學(xué)歷。還需要評(píng)估標(biāo)注員產(chǎn)出與研究人員預(yù)期的一致性,選擇一致性最高的人員進(jìn)行標(biāo)注工作,并在標(biāo)注過程中提供詳細(xì)指導(dǎo)。主要有以下三種方法收集人類反饋:
基于排序的方法:讓標(biāo)注員對(duì)模型生成的多個(gè)候選輸出結(jié)果進(jìn)行排序,得到一個(gè)偏好排名,根據(jù)這個(gè)排名調(diào)整模型傾向排名較高的輸出。相比只選擇單個(gè)最佳輸出,可以獲取更豐富的偏好信息。
基于問題的方法:研究人員設(shè)計(jì)特定的問題,標(biāo)注員需要回答這些問題對(duì)模型輸出進(jìn)行評(píng)估,問題設(shè)計(jì)需要覆蓋各種對(duì)齊標(biāo)準(zhǔn)??梢垣@得比排序更詳細(xì)的反饋信息。
基于規(guī)則的方法:研究人員制定一系列規(guī)則,測(cè)試模型輸出是否違反這些規(guī)則,標(biāo)注員需要對(duì)違反程度進(jìn)行定量的規(guī)則評(píng)分??梢灾苯荧@得是否符合對(duì)齊標(biāo)準(zhǔn)的反饋。
強(qiáng)化學(xué)習(xí)是對(duì)齊微調(diào)中一個(gè)重要的技術(shù),可以學(xué)習(xí)并優(yōu)化模型根據(jù)人類反饋達(dá)到對(duì)齊標(biāo)準(zhǔn)。下面將詳細(xì)討論基于人類反饋的強(qiáng)化學(xué)習(xí)方法。
RLHF 算法工作流
3)基于人類反饋的強(qiáng)化學(xué)習(xí)
為了確保 LLM 與人類價(jià)值觀一致,人們提出了使用收集到的人類反饋數(shù)據(jù)對(duì) LLM 進(jìn)行微調(diào)的方法,稱為 RLHF。這種方法采用強(qiáng)化學(xué)習(xí)算法(如 PPO),通過學(xué)習(xí)獎(jiǎng)勵(lì)模型使 LLM 適應(yīng)人類反饋。這種方法將人類納入訓(xùn)練循環(huán)中,以開發(fā)良好的 LLM,如 InstructGPT。
基于人類反饋的強(qiáng)化學(xué)習(xí)系統(tǒng):PLM 通常是一個(gè)生成模型,使用現(xiàn)有的 PLM 參數(shù)進(jìn)行初始化。獎(jiǎng)勵(lì)模型提供指導(dǎo)信號(hào),反映人類對(duì) LM (Language Model)生成文本的偏好?,F(xiàn)有工作通常采用與要對(duì)齊的 LM(Language Model) 具有不同參數(shù)尺度的獎(jiǎng)勵(lì)模型。最后,為了使用來自獎(jiǎng)勵(lì)模型的信號(hào)優(yōu)化 PLM,設(shè)計(jì)了一種特定的 RL 算法用于大規(guī)模模型的微調(diào)。具體來說,PPO 是一種在現(xiàn)有工作中廣泛使用的 RL 對(duì)齊算法。
基于人類反饋的強(qiáng)化學(xué)習(xí)的關(guān)鍵步驟:
3、高效微調(diào)
本節(jié)將討論如何對(duì)大模型(如 Transformer)進(jìn)行高效微調(diào)。下面將回顧幾種代表性的參數(shù)高效微調(diào)方法,并總結(jié)現(xiàn)有關(guān)于參數(shù)高效微調(diào) LLM 的工作。
1)參數(shù)高效微調(diào)方法
Transformer語言模型參數(shù)高效微調(diào)的幾種主要方法:
適配器微調(diào):在Transformer模型中插入小型的適配器模塊,可以壓縮并映射特征向量。適配器可以串行或并行連接在注意力層和前饋層之后。在微調(diào)時(shí)只優(yōu)化適配器參數(shù),固定原始語言模型參數(shù)。
前綴微調(diào):在每個(gè)Transformer層前面添加一組可訓(xùn)練的前綴向量,作為額外的任務(wù)特定參數(shù)。使用重參數(shù)化技巧學(xué)習(xí)映射前綴的小矩陣,而不是直接優(yōu)化。只優(yōu)化前綴參數(shù)以適配下游任務(wù)。
提示微調(diào):在輸入層加入軟提示token,以嵌入的形式加到輸入文本中。只優(yōu)化提示嵌入來適配特定任務(wù)。利用提示的自由格式設(shè)計(jì)。
低秩適配:用低秩分解矩陣來近似每層的網(wǎng)絡(luò)參數(shù)更新矩陣。固定原始參數(shù),只訓(xùn)練低秩分解中的兩小型可適配矩陣。
各方法優(yōu)勢(shì)不同,但共同點(diǎn)是只優(yōu)化很少的參數(shù)來適配下游任務(wù),固定語言模型大部分參數(shù),實(shí)現(xiàn)參數(shù)高效的微調(diào)。
2)大語言模型上的參數(shù)高效微調(diào)
隨著大語言模型(LLM)的興起,研究者們?cè)絹碓疥P(guān)注高效微調(diào)方法,以開發(fā)更輕量級(jí)適用于各種下游任務(wù)的適配方法。其中,LoRA方法在開源LLM(如LLaMA和BLOOM)中得到廣泛應(yīng)用,用于實(shí)現(xiàn)參數(shù)高效微調(diào)。LLaMA及其變體因其參數(shù)高效微調(diào)而備受關(guān)注。例如,Alpaca-LoRA是Alpaca的輕量級(jí)微調(diào)版本,Alpaca是一個(gè)經(jīng)過微調(diào)的70億參數(shù)的LLaMA模型,包含5.2萬個(gè)人類指示遵循演示。對(duì)于Alpaca-LoRA,已經(jīng)在不同語言和模型大小方面進(jìn)行了廣泛的探索。
此外,LLaMA-Adapter方法在每個(gè)Transformer層中插入可學(xué)習(xí)的提示向量,其中提出了零初始化的注意力,以減輕欠擬合提示向量的影響,從而改善訓(xùn)練效果。此方法還被擴(kuò)展到多模態(tài)設(shè)置,如視覺問答。
六、總結(jié)與未來方向
理解和解釋語言模型的涌現(xiàn)能力是一個(gè)重要而又有挑戰(zhàn)的問題。隨著模型規(guī)模的擴(kuò)大,像鏈?zhǔn)酵评磉@樣的能力會(huì)突然出現(xiàn),但其機(jī)制還不清楚。探索涌現(xiàn)能力的影響因素和理論解釋是當(dāng)前的研究熱點(diǎn)。然而,更多正式的理論和原理還需建立,比如從復(fù)雜系統(tǒng)的角度解釋語言模型。解讀語言模型的能力和行為仍是一個(gè)值得探討的基本問題,也是發(fā)展下一代模型的關(guān)鍵所在。需要跨學(xué)科視角,以期獲得更深入的理解和解釋。
構(gòu)建更高效的Transformer變體和減輕災(zāi)難性遺忘是未來改進(jìn)語言模型架構(gòu)的兩個(gè)重要方向。由于標(biāo)準(zhǔn)自注意力復(fù)雜度高,需要探索更高效的注意力機(jī)制。另外,微調(diào)語言模型時(shí)原有知識(shí)很容易被新數(shù)據(jù)覆蓋并遺忘。所以需要通過引入更靈活的機(jī)制或模塊,支持模型進(jìn)行數(shù)據(jù)更新和任務(wù)專用化,同時(shí)保留原有通用能力。擴(kuò)展現(xiàn)有架構(gòu)使其既適應(yīng)新任務(wù)又不遺忘舊知識(shí)是語言模型面臨的關(guān)鍵挑戰(zhàn)。
盡管能力強(qiáng)大,大語言模型仍面臨小模型類似的安全性挑戰(zhàn),如產(chǎn)生錯(cuò)誤信息、被利用產(chǎn)生有害內(nèi)容等。主要的對(duì)策是通過人類反饋進(jìn)行對(duì)齊優(yōu)化,但目前的強(qiáng)化學(xué)習(xí)方法嚴(yán)重依賴大量高質(zhì)量人類標(biāo)注。
隨著大規(guī)模語言模型(LLM)在各種任務(wù)中展現(xiàn)出強(qiáng)大的能力,正在廣泛應(yīng)用于現(xiàn)實(shí)世界的各種應(yīng)用中,包括遵循自然語言指令的特定任務(wù)。ChatGPT作為一個(gè)重要的進(jìn)步,已經(jīng)改變了人們獲取信息的方式,并在"New Bing"發(fā)布中得到了體現(xiàn)。在不久的將來,可以預(yù)見LLM將對(duì)信息檢索技術(shù)產(chǎn)生重大影響,包括搜索引擎和推薦系統(tǒng)。此外,智能信息助手的開發(fā)和使用將隨著LLM技術(shù)的升級(jí)而得到廣泛推廣。從更廣泛的視角來看,這一技術(shù)創(chuàng)新浪潮將形成一個(gè)以LLM為支持的應(yīng)用生態(tài)系統(tǒng),例如ChatGPT對(duì)插件的支持,與人類的生活息息相關(guān)。
我國(guó)算力發(fā)展的現(xiàn)狀
為了推動(dòng)算力基礎(chǔ)設(shè)施建設(shè),促進(jìn)各行各業(yè)的數(shù)字化轉(zhuǎn)型,工業(yè)和信息化部與寧夏回族自治區(qū)人民政府于8月18日至19日在寧夏銀川舉辦了2023中國(guó)算力(基礎(chǔ)設(shè)施)大會(huì)。該大會(huì)旨在持續(xù)推動(dòng)數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)的深度融合,為高質(zhì)量發(fā)展注入強(qiáng)勁動(dòng)力。
一、AI 發(fā)展持續(xù)深化,帶動(dòng)算力基礎(chǔ)設(shè)施建設(shè)加速推進(jìn)
工信部近年來一直致力于推動(dòng)算力基礎(chǔ)設(shè)施建設(shè),并持續(xù)加強(qiáng)算力頂層設(shè)計(jì)。他們發(fā)布了多項(xiàng)政策文件,如《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》和《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃》,以優(yōu)化全國(guó)算力布局,推動(dòng)算力基礎(chǔ)設(shè)施建設(shè)和應(yīng)用。工信部還計(jì)劃根據(jù)算力行業(yè)的最新發(fā)展情況,出臺(tái)政策文件,促進(jìn)算力基礎(chǔ)設(shè)施的高質(zhì)量發(fā)展,提升算力供給能力。這些舉措加速了算力基礎(chǔ)設(shè)施建設(shè),為數(shù)字經(jīng)濟(jì)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
在2023中國(guó)算力大會(huì)上指出兩個(gè)重要方面的發(fā)展需求。一方面,要增強(qiáng)自主創(chuàng)新能力,推動(dòng)計(jì)算架構(gòu)、計(jì)算方式和算法的創(chuàng)新,加強(qiáng)CPU、GPU和服務(wù)器等關(guān)鍵產(chǎn)品的研發(fā),加快新技術(shù)和新產(chǎn)品的應(yīng)用。另一方面,要加強(qiáng)算力相關(guān)軟硬件生態(tài)系統(tǒng)的建設(shè),提升產(chǎn)業(yè)基礎(chǔ)的高級(jí)化水平,推動(dòng)產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展,共同構(gòu)建良好的發(fā)展生態(tài)。
截至2022年底,我國(guó)擁有超過650萬架標(biāo)準(zhǔn)機(jī)架,總算力規(guī)模達(dá)到180EFLOPS,僅次于美國(guó),存儲(chǔ)總規(guī)模超過1000EB(1萬億GB)。在人工智能AI發(fā)展的浪潮下,我國(guó)不斷加強(qiáng)CPU、GPU和服務(wù)器等關(guān)鍵產(chǎn)品的研發(fā),算力發(fā)展的動(dòng)能有望持續(xù)增強(qiáng),國(guó)產(chǎn)算力產(chǎn)業(yè)鏈上下游有望共同迎來快速發(fā)展。
中國(guó)人工智能應(yīng)用場(chǎng)景發(fā)展
中國(guó)人工智能行業(yè)在2022年取得顯著的進(jìn)展,應(yīng)用滲透度不斷提高,應(yīng)用場(chǎng)景也在不斷拓寬,特別是在金融和電信等行業(yè),人工智能的應(yīng)用滲透度明顯增加。智能客服、實(shí)體機(jī)器人、智慧網(wǎng)點(diǎn)和云上網(wǎng)點(diǎn)等場(chǎng)景的廣泛應(yīng)用,使金融行業(yè)的人工智能滲透率提高到62%;而電信行業(yè)的滲透度從45%增長(zhǎng)到51%,人工智能技術(shù)為下一代智慧網(wǎng)絡(luò)建設(shè)提供了重要支持。據(jù)國(guó)際數(shù)據(jù)公司(IDC)預(yù)測(cè),到2023年年底,中國(guó)制造業(yè)供應(yīng)鏈環(huán)節(jié)中將有50%采用人工智能技術(shù)。隨著時(shí)間的推移,智能化場(chǎng)景在各行業(yè)的落地將呈現(xiàn)出更加深入、更加廣泛的趨勢(shì)。
人工智能行業(yè)滲透率(%)
隨著大模型在人工智能領(lǐng)域的崛起,智能算力需求呈現(xiàn)幾何級(jí)增長(zhǎng)的趨勢(shì)。中國(guó)的互聯(lián)網(wǎng)巨頭和科技巨頭紛紛推出自主研發(fā)的大模型,如百度的文心大模型、華為的盤古大模型、阿里巴巴的通義大模型等。這些大模型具有數(shù)千億甚至萬億級(jí)別的參數(shù),需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)以及龐大的算力支持。隨著大模型的復(fù)雜性不斷提高、數(shù)據(jù)規(guī)模的迅速增長(zhǎng)以及應(yīng)用場(chǎng)景的持續(xù)拓展和深化,智能算力的需求和規(guī)模必將在未來幾年迎來爆發(fā)式增長(zhǎng)。根據(jù)OpenAI的估算,自2012年以來,全球頂尖AI模型訓(xùn)練所需算力每3-4個(gè)月翻一番,每年的增長(zhǎng)幅度高達(dá)10倍。
大模型訓(xùn)練算力需求
智能算力的規(guī)模正在持續(xù)擴(kuò)大,同時(shí)建設(shè)算力基礎(chǔ)設(shè)施已成為共識(shí)。根據(jù)IDC與浪潮信息聯(lián)合發(fā)布的《2022-2023中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》,中國(guó)的人工智能計(jì)算力將快速持續(xù)增長(zhǎng)。截至2022年,中國(guó)的智能算力規(guī)模已達(dá)到268百億億次/秒(EFLOPS),預(yù)計(jì)到2026年,中國(guó)的智能算力規(guī)模將達(dá)到1271.4EFLOPS,未來五年的復(fù)合增長(zhǎng)率預(yù)計(jì)為52.3%,而通用算力規(guī)模的復(fù)合增長(zhǎng)率為18.5%。在國(guó)家層面上,已經(jīng)啟動(dòng)了在8個(gè)地區(qū)建設(shè)國(guó)家算力樞紐節(jié)點(diǎn)的計(jì)劃,并規(guī)劃10個(gè)國(guó)家數(shù)據(jù)中心集群,以實(shí)現(xiàn)資源的有效整合,促進(jìn)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,構(gòu)建更加健全的算力和算法基礎(chǔ)設(shè)施。
中國(guó)智能算力規(guī)模及預(yù)測(cè)(EFLOPS)
二、算力需求與芯片能力存在剪刀差,AI 發(fā)展將對(duì)芯片性能提出更高要求
由于多樣化的人工智能應(yīng)用場(chǎng)景的需求,傳統(tǒng)以CPU為主的通用計(jì)算能力已經(jīng)不足以滿足要求。因此,采用CPU與AI芯片(如GPU、FPGA、ASIC)組成的異構(gòu)計(jì)算方案已成為當(dāng)前和未來智能計(jì)算的主要解決方案。異構(gòu)計(jì)算方案需要大量的AI芯片,這些芯片具有出色的并行計(jì)算能力和高互聯(lián)帶寬,能夠最大化支持AI計(jì)算的效能。根據(jù)前瞻產(chǎn)業(yè)研究院的預(yù)測(cè),中國(guó)的人工智能芯片市場(chǎng)規(guī)模將在2023年至2027年持續(xù)增長(zhǎng)。到2024年,中國(guó)的人工智能芯片市場(chǎng)規(guī)模將突破1000億元;到2027年,市場(chǎng)規(guī)模將達(dá)到2881.9億元。
2023-2027 中國(guó)人工智能芯片市場(chǎng)規(guī)模預(yù)測(cè)(億元)
AI芯片算力競(jìng)賽正如火如荼地展開,各家公司紛紛推出新產(chǎn)品。在6月13日,AMD發(fā)布了全新的人工智能GPU Instinct MI300,并計(jì)劃在今年晚些時(shí)候向一部分客戶發(fā)貨。這款處理器是AMD專為大型語言模型進(jìn)行優(yōu)化的版本,擁有驚人的1530億個(gè)晶體管數(shù)量,192GB內(nèi)存和5.2TB/s的內(nèi)存帶寬,以及896GB/s的Infinity Fabric帶寬。而在8月8日,英偉達(dá)則宣布推出下一代NVIDIA GH200 Grace Hopper平臺(tái),這是全球首款配備HBM3e內(nèi)存的GPU芯片。HBM3e內(nèi)存將使下一代GH200在運(yùn)行AI模型時(shí)速度比當(dāng)前快3.5倍。這些高容量的GPU有助于降低AI訓(xùn)練成本。
英偉達(dá) GH200
行業(yè)龍頭以歐美日等為主,國(guó)產(chǎn)化替代勢(shì)在必行。根據(jù)中研普華產(chǎn)業(yè)研究院數(shù)據(jù)顯示, 目前全球人工智能芯片行業(yè)前十以歐美韓日等企業(yè)為主,其中前三為 Nvidia、Intel 及 IBM。國(guó)內(nèi)芯片企業(yè)如華為海思排 12 位,寒武紀(jì)排 23 位,地平線機(jī)器人排 24 位。當(dāng)前競(jìng)爭(zhēng)格局下,隨著國(guó)內(nèi)外大模型的加速發(fā)展及垂類融合,國(guó)內(nèi) AI 算力芯片廠商將迎來產(chǎn)業(yè)發(fā)展機(jī)會(huì)。
三、3方協(xié)同助力算力基礎(chǔ)設(shè)施,深化構(gòu)建“東數(shù)西算”工程
在2023年中國(guó)算力大會(huì)新聞發(fā)布會(huì)上,工業(yè)和信息化部副部長(zhǎng)張?jiān)泼鹘榻B了近年來在構(gòu)建高質(zhì)量算力供給體系方面所取得的積極成果。為了提升算力基礎(chǔ)設(shè)施的綜合能力,各方積極合作,采取多種措施,取得了三個(gè)方面的積極成效。
1)算力發(fā)展規(guī)劃政策相繼出臺(tái),制度保障有力有效。工信部、發(fā)改委等部門聯(lián)合印發(fā)了《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,并批復(fù)同意在8個(gè)地區(qū)建設(shè)10個(gè)國(guó)家算力樞紐節(jié)點(diǎn)。同時(shí),還出臺(tái)了《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》,以持續(xù)優(yōu)化全國(guó)算力的整體布局。
2)算力基礎(chǔ)設(shè)施建設(shè)扎實(shí)推進(jìn),發(fā)展動(dòng)能持續(xù)增強(qiáng)。為了支撐數(shù)字經(jīng)濟(jì)的發(fā)展,產(chǎn)業(yè)各方緊密協(xié)同,加快了基礎(chǔ)設(shè)施建設(shè)、算力體系構(gòu)建和綠色發(fā)展。從2018年開始,我國(guó)數(shù)據(jù)中心的機(jī)架數(shù)量年復(fù)合增長(zhǎng)率超過30%。截至2022年底,標(biāo)準(zhǔn)機(jī)架數(shù)量超過650萬架,總算力規(guī)模達(dá)到180EFLOPS,僅次于美國(guó)。同時(shí),存儲(chǔ)總規(guī)模超過1000EB(1萬億GB)。這些數(shù)據(jù)表明,我國(guó)在算力底座方面取得了顯著的成就。
3)算力賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),融合應(yīng)用加速涌現(xiàn)。目前,我國(guó)的算力產(chǎn)業(yè)已經(jīng)初步形成規(guī)模,并且產(chǎn)業(yè)鏈上的企業(yè)在中下游之間展開了協(xié)同合作,形成了良性互動(dòng)。算力不僅成為傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的重要支撐點(diǎn),還催生了一批新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)。根據(jù)中國(guó)信息通信研究院的測(cè)算,2022年我國(guó)算力核心產(chǎn)業(yè)規(guī)模達(dá)到了1.8萬億元。每投入1元的算力,將帶動(dòng)3至4元的GDP經(jīng)濟(jì)增長(zhǎng)。這些數(shù)據(jù)表明,算力產(chǎn)業(yè)在我國(guó)的發(fā)展前景非常廣闊,并具有巨大的經(jīng)濟(jì)潛力。
寧夏將擴(kuò)大其算力樞紐的影響力,通過舉辦西部數(shù)字賦能大會(huì)和第二屆“西部數(shù)谷”算力產(chǎn)業(yè)大會(huì)來實(shí)現(xiàn)。作為西部地區(qū)首個(gè)以數(shù)字賦能為主題的產(chǎn)業(yè)大會(huì),首屆“西部數(shù)谷”算力大會(huì)在2022年簽約了24個(gè)項(xiàng)目,總投資金額達(dá)727億元,目前已有18個(gè)項(xiàng)目開始實(shí)施。寧夏作為“東數(shù)西算”算力樞紐節(jié)點(diǎn),在2023年6月已經(jīng)建設(shè)了34.9萬架的數(shù)據(jù)中心標(biāo)準(zhǔn)機(jī)架,互聯(lián)網(wǎng)省際出口帶寬達(dá)到20.6Tbps,網(wǎng)絡(luò)水平在西部地區(qū)處于領(lǐng)先地位。
目前,算力結(jié)構(gòu)以通算和存儲(chǔ)業(yè)務(wù)為主,占比達(dá)到61%。國(guó)家正在推進(jìn)“東數(shù)西算”工程,通過構(gòu)建新型算力網(wǎng)絡(luò)體系,將東部的算力需求有序引導(dǎo)到西部,優(yōu)化數(shù)據(jù)中心建設(shè)布局,促進(jìn)東西部的協(xié)同發(fā)展。8個(gè)國(guó)家算力樞紐節(jié)點(diǎn)將成為我國(guó)算力網(wǎng)絡(luò)的關(guān)鍵連接點(diǎn),推動(dòng)數(shù)據(jù)中心集群的發(fā)展,促進(jìn)數(shù)據(jù)中心與網(wǎng)絡(luò)、云計(jì)算和大數(shù)據(jù)之間的協(xié)同建設(shè),同時(shí)也是國(guó)家“東數(shù)西算”工程的戰(zhàn)略支點(diǎn),推動(dòng)算力資源有序向西部轉(zhuǎn)移。
藍(lán)海大腦大模型訓(xùn)練平臺(tái)
藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)?,滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。
一、為什么需要大模型?
1、模型效果更優(yōu)
大模型在各場(chǎng)景上的效果均優(yōu)于普通模型
2、創(chuàng)造能力更強(qiáng)
大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)模化生產(chǎn)
3、靈活定制場(chǎng)景
通過舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景
4、標(biāo)注數(shù)據(jù)更少
通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求
二、平臺(tái)特點(diǎn)
1、異構(gòu)計(jì)算資源調(diào)度
一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。
2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)
支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。
3、高性能分布式網(wǎng)絡(luò)
提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。
4、全方位安全保障
在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。
三、常用配置
1、處理器,CPU:
Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W
Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W
AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W
AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W
2、顯卡,GPU:
NVIDIA NVLink-A100-SXM640GB
NVIDIA HGX A800 8-GPU 80GB
NVIDIA Tesla H800 80GB HBM2
NVIDIA A800-80GB-400Wx8-NvlinkSW×8
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103246 -
gpu
+關(guān)注
關(guān)注
28文章
4752瀏覽量
129057 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3791瀏覽量
91313 -
大模型
+關(guān)注
關(guān)注
2文章
2482瀏覽量
2849
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論