今年3月末,我們?cè)赼rXiv網(wǎng)站發(fā)布了大語(yǔ)言模型綜述文章《A Survey of Large Language Models》的第一個(gè)版本V1,該綜述文章系統(tǒng)性地梳理了大語(yǔ)言模型的研究進(jìn)展與核心技術(shù),討論了大量的相關(guān)工作。自大語(yǔ)言模型綜述的預(yù)印本上線以來(lái),受到了廣泛關(guān)注,收到了不少讀者的寶貴意見(jiàn)。
在發(fā)布V1版本后的3個(gè)月時(shí)間內(nèi),為了提升該綜述的質(zhì)量,我們?cè)诔掷m(xù)更新相關(guān)的內(nèi)容,連續(xù)進(jìn)行了多版的內(nèi)容修訂(版本號(hào)目前迭代到V11),論文篇幅從V1版本的51頁(yè)、416篇參考文獻(xiàn)擴(kuò)增到了V11版本的85頁(yè)、610篇參考文獻(xiàn)。V11版本是我們自五月中下旬開(kāi)始策劃進(jìn)行大修的版本,詳細(xì)更新日志請(qǐng)見(jiàn)文章結(jié)尾,已于6月末再次發(fā)布于arXiv網(wǎng)站。相較于V1版本,V11版本的大語(yǔ)言模型綜述有以下新亮點(diǎn):- 新增了對(duì)LLaMA模型及其衍生模型組成的LLaMA家族介紹;
- 新增了具體實(shí)驗(yàn)分析,包括指令微調(diào)數(shù)據(jù)集組合方式實(shí)驗(yàn)以及部分模型綜合能力評(píng)測(cè);
- 新增了大語(yǔ)言模型提示設(shè)計(jì)提示指南以及相關(guān)實(shí)驗(yàn),總結(jié)了提示設(shè)計(jì)的原則、經(jīng)驗(yàn);
- 新增了參數(shù)高效適配和空間高效適配章節(jié),總結(jié)了大語(yǔ)言模型相關(guān)的輕量化技術(shù);
- 增加了對(duì)于規(guī)劃(planning)的相關(guān)工作介紹;
- 增補(bǔ)了許多脈絡(luò)梳理內(nèi)容,以及大量最新工作介紹;
- 論文鏈接:https://arxiv.org/abs/2303.18223
- GitHub項(xiàng)目鏈接:https://github.com/RUCAIBox/LLMSurvey
- 中文翻譯版本鏈接:https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf
1. 引言
大語(yǔ)言模型目前已經(jīng)成為學(xué)界研究的熱點(diǎn)。我們統(tǒng)計(jì)了arXiv論文庫(kù)中自2018年6月以來(lái)包含關(guān)鍵詞"語(yǔ)言模型"以及自2019年10月以來(lái)包含關(guān)鍵詞"大語(yǔ)言模型"的論文數(shù)量趨勢(shì)圖。結(jié)果表明,在ChatGPT發(fā)布之后,相關(guān)論文的數(shù)量呈現(xiàn)出爆發(fā)式增長(zhǎng),這充分證明大語(yǔ)言模型在學(xué)術(shù)界的影響力日益凸顯,吸引了越來(lái)越多的研究者投入到這一領(lǐng)域。2. 總覽
相較于小模型,大模型擴(kuò)展了模型大小、訓(xùn)練數(shù)據(jù)大小和總計(jì)算量,顯著提升了語(yǔ)言模型的能力。在總覽章節(jié)中,我們新增了擴(kuò)展法則(scaling law)的討論,其中重點(diǎn)介紹了KM擴(kuò)展法則和Chinchilla擴(kuò)展法則,這兩個(gè)法則對(duì)于理解大語(yǔ)言模型的性能提升提供了重要參考。- KM 擴(kuò)展法則
-
Chinchilla擴(kuò)展法則
3. 大語(yǔ)言模型相關(guān)資源
我們對(duì)于最新符合條件的模型進(jìn)行了補(bǔ)充,持續(xù)更新了現(xiàn)有的10B+的模型圖:2023年2月,Meta發(fā)布了LLaMA大語(yǔ)言模型。受益于其強(qiáng)大的基座能力,LLaMA的發(fā)布引起了開(kāi)源社區(qū)的對(duì)其進(jìn)行擴(kuò)展的熱潮,大量的研究人員基于LLaMA進(jìn)行指令微調(diào)或者繼續(xù)預(yù)訓(xùn)練,從而催生了大量高質(zhì)量的開(kāi)源大語(yǔ)言模型。為了幫助讀者了解LLaMA家族模型的發(fā)展脈絡(luò),我們?cè)黾恿?strong style="color:rgb(22,94,202);">LLaMA家族模型的發(fā)展介紹,并繪制了一個(gè)簡(jiǎn)要的LLaMA家族演化圖來(lái)展示LLaMA家族模型的發(fā)展歷程,以及各個(gè)衍生模型之間的關(guān)聯(lián)。4. 大語(yǔ)言模型預(yù)訓(xùn)練技術(shù)
在預(yù)訓(xùn)練技術(shù)章節(jié),我們大幅補(bǔ)充了大模型預(yù)訓(xùn)練各方面的技術(shù)細(xì)節(jié)。在模型架構(gòu)部分,我們補(bǔ)充了三種主流模型架構(gòu)的對(duì)比圖,包括因果編碼器、前綴解碼器和編碼器-解碼器架構(gòu),從而直觀的展示這三種架構(gòu)的差異和聯(lián)系。此外,我們?cè)敿?xì)補(bǔ)充了模型架構(gòu)的各組件細(xì)節(jié),包括分詞、歸一化方法、歸一化位置、位置編碼、注意力與偏置等等,并提供了Transformer架構(gòu)多種配置的詳細(xì)公式表。在最后的討論章節(jié),我們針對(duì)研究者廣泛關(guān)注的長(zhǎng)文本編碼與生成挑戰(zhàn)進(jìn)行了討論。針對(duì)預(yù)訓(xùn)練數(shù)據(jù)的詞元化問(wèn)題(tokenization),我們補(bǔ)充介紹了BPE、WordPiece和Unigram三種常用算法:5. 大語(yǔ)言模型適配技術(shù)
在適配技術(shù)章節(jié),我們擴(kuò)充了指令微調(diào)的技術(shù)細(xì)節(jié),包括指令收集方法、指令微調(diào)的作用、指令微調(diào)的結(jié)果和對(duì)應(yīng)分析。首先,我們按照任務(wù)指令、聊天指令、合成指令三類(lèi)分別介紹了指令數(shù)據(jù)的收集方法,并收集了的指令集合。
并且更新了指令集合的創(chuàng)建方式示意圖:
其次,為了探究不同指令數(shù)據(jù)對(duì)模型性能的影響,我們給出了不同數(shù)據(jù)混合策略下指令微調(diào)模型的實(shí)驗(yàn)結(jié)果供讀者參考。為了讓讀者更好地上手指令微調(diào),還給出了指令微調(diào)大模型的資源參考表,并給出了指令微調(diào)的實(shí)用建議。隨著大語(yǔ)言模型的關(guān)注度日漸上升,如何更輕量地微調(diào)和使用大語(yǔ)言模型也成為了業(yè)界關(guān)注的熱點(diǎn),為此,我們新增參數(shù)高效適配章節(jié)和空間高效適配章節(jié)。在參數(shù)高效適配章節(jié),我們介紹了常見(jiàn)的參數(shù)高效適配技術(shù),包括Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA等等,并列舉了近期結(jié)合這些技術(shù)在大模型上的具體實(shí)踐。同時(shí)由于大語(yǔ)言模型參數(shù)量巨大,在推理時(shí)需要占用大量的內(nèi)存(顯存),導(dǎo)致它們?cè)趯?shí)際應(yīng)用中部署成本較高。為此,我們介紹了空間高效適配技術(shù),討論了如何通過(guò)模型壓縮方法(模型量化)來(lái)減少大語(yǔ)言模型的內(nèi)存占用,從而使其可以在資源有限的情況下使用。下面總結(jié)了我們討論的一些核心結(jié)論:6. 大語(yǔ)言模型使用技術(shù)
我們將大語(yǔ)言模型在推理階段如何執(zhí)行上下文學(xué)習(xí)的機(jī)制分析劃分為兩類(lèi),即任務(wù)識(shí)別和任務(wù)學(xué)習(xí)。在任務(wù)識(shí)別部分,介紹了大語(yǔ)言模型如何從示例中識(shí)別任務(wù)并使用預(yù)訓(xùn)練階段習(xí)得的知識(shí)加以解決;在任務(wù)學(xué)習(xí)部分,介紹了大語(yǔ)言模型如何從示例中學(xué)習(xí)解決新任務(wù)。除了上下文學(xué)習(xí)和思維鏈提示,我們還介紹了另一類(lèi)使用大語(yǔ)言模型的重要范式,即基于提示對(duì)復(fù)雜任務(wù)進(jìn)行規(guī)劃。根據(jù)相關(guān)工作,我們總結(jié)出了基于規(guī)劃的提示的總體框架。這類(lèi)范式通常包含三個(gè)組件:任務(wù)規(guī)劃者、規(guī)劃執(zhí)行者和環(huán)境。隨后,我們從規(guī)劃生成,反饋獲取和規(guī)劃完善三個(gè)方面介紹了這一范式的基本做法。7. 大語(yǔ)言模型能力評(píng)估
考慮到大語(yǔ)言模型的條件語(yǔ)言生成能力日益增長(zhǎng),我們介紹了已有工作對(duì)大語(yǔ)言模型時(shí)代語(yǔ)言生成自動(dòng)評(píng)測(cè)可靠性問(wèn)題的討論。對(duì)于大語(yǔ)言模型的高級(jí)能力,我們?cè)鲅a(bǔ)了最新的相關(guān)工作,并總結(jié)了大語(yǔ)言模型高級(jí)能力評(píng)測(cè)的常用數(shù)據(jù)集供讀者參考。此外,隨著大語(yǔ)言模型通用能力的提升,一系列工作提出了更具挑戰(zhàn)性的基于面向人類(lèi)測(cè)試的綜合評(píng)測(cè)基準(zhǔn)來(lái)評(píng)測(cè)大語(yǔ)言模型,我們?cè)黾恿诉@些代表性評(píng)測(cè)基準(zhǔn)的介紹。在大語(yǔ)言模型時(shí)代,開(kāi)源和閉源的大語(yǔ)言模型不斷涌現(xiàn),我們對(duì)部分熱門(mén)開(kāi)源模型和閉源模型進(jìn)行了細(xì)粒度的能力評(píng)測(cè),涵蓋了評(píng)測(cè)章節(jié)總結(jié)的8大基礎(chǔ)和高級(jí)能力對(duì)應(yīng)的27個(gè)代表性任務(wù)。進(jìn)一步,我們對(duì)開(kāi)源模型和閉源模型的評(píng)測(cè)結(jié)果進(jìn)行了細(xì)致的分析。為了更好地說(shuō)明大模型的現(xiàn)有問(wèn)題,我們對(duì)于關(guān)鍵問(wèn)題都進(jìn)行了note形式的總結(jié):8. 大語(yǔ)言模型提示設(shè)計(jì)使用指南
在大語(yǔ)言模型時(shí)代,提示成為了人與機(jī)器交互的重要形式。然而,如何編寫(xiě)好的提示是一門(mén)對(duì)技巧和經(jīng)驗(yàn)要求很高的手藝。為了讓讀者能夠快速上手大語(yǔ)言模型的提示設(shè)計(jì),我們給出了一個(gè)實(shí)用的提示設(shè)計(jì)指南。我們?cè)敿?xì)介紹了提示的關(guān)鍵組件,并討論了一些關(guān)鍵的提示設(shè)計(jì)原則。一個(gè)完整的提示通常包含四個(gè)關(guān)鍵組成因素,即任務(wù)描述、輸入數(shù)據(jù)、上下文信息和提示風(fēng)格。為了更好的展示這些組成因素,我們給出了直觀的提示樣例表。增加了相關(guān)提示的示意圖:
除此之外,我們還總結(jié)了一些關(guān)鍵的提示設(shè)計(jì)原則,包括清晰表述任務(wù)目標(biāo)、將復(fù)雜任務(wù)進(jìn)行分解以及使用模型友好的格式。進(jìn)一步我們基于這些設(shè)計(jì)原則,展示了一系列有用的提示設(shè)計(jì)小貼士。最后,我們結(jié)合多種常見(jiàn)任務(wù),基于ChatGPT具體實(shí)驗(yàn)了不同提示對(duì)模型性能的影響,供讀者在使用提示執(zhí)行具體任務(wù)時(shí)參考。9. 大語(yǔ)言模型領(lǐng)域應(yīng)用
隨著大語(yǔ)言模型關(guān)注度的逐漸提升,研究者和工業(yè)界從業(yè)人員也嘗試將大語(yǔ)言模型應(yīng)用到各種專(zhuān)業(yè)領(lǐng)域中。為了系統(tǒng)地介紹這些應(yīng)用實(shí)踐,我們將綜述中大語(yǔ)言模型的領(lǐng)域應(yīng)用部分獨(dú)立成了專(zhuān)門(mén)的章節(jié)。具體而言,我們擴(kuò)充介紹了原有將大語(yǔ)言模型應(yīng)用到醫(yī)療、教育、法律領(lǐng)域的相關(guān)研究,并新增了金融和科學(xué)研究領(lǐng)域的相關(guān)工作介紹。10. 尋求建議與算力
一篇高質(zhì)量的長(zhǎng)篇綜述文章需要大量的時(shí)間投入,所參與的老師和學(xué)生為此付出了很多的時(shí)間。盡管我們已經(jīng)盡力去完善這篇綜述文章,但由于能力所限,難免存在不足和錯(cuò)誤之處,仍有很大的改進(jìn)空間。我們的最終目標(biāo)是使這篇綜述文章成為一個(gè)“know-how”的大模型技術(shù)指南手冊(cè),讓大模型的秘密不再神秘、讓技術(shù)細(xì)節(jié)不再被隱藏。盡管我們深知目前這篇綜述離這個(gè)目標(biāo)的距離還比較遠(yuǎn),我們?cè)敢庠谥蟮陌姹局薪弑M全力去改進(jìn)。特別地,對(duì)于預(yù)訓(xùn)練、指令微調(diào)、提示工程的內(nèi)在原理以及實(shí)戰(zhàn)經(jīng)驗(yàn)等方面,我們非常歡迎讀者為我們貢獻(xiàn)想法與建議,可以通過(guò)GitHub提交PR或者郵件聯(lián)系我們的作者。對(duì)于所有被采納的技術(shù)細(xì)節(jié),我們都將在論文的致謝部分中“實(shí)名+實(shí)際貢獻(xiàn)”進(jìn)行致謝。同時(shí),我們自己也在圍繞大模型綜述的部分內(nèi)容開(kāi)展相關(guān)的實(shí)驗(yàn)探索(如能力評(píng)測(cè)、指令微調(diào)等),以保證綜述中的討論能夠有據(jù)可循。由于算力所限,目前能開(kāi)展的實(shí)驗(yàn)局限于小尺寸模型和少量比較方法。在此,我們也向社會(huì)尋求算力支持,我們將承諾所獲得的算力資源將完全用于該綜述文章的編寫(xiě),所有使用外部算力所獲得的技術(shù)經(jīng)驗(yàn),將完全在綜述文章中對(duì)外發(fā)布。我們將在綜述的致謝部分和GitHub項(xiàng)目主頁(yè)對(duì)于算力提供商進(jìn)行致謝。針對(duì)本綜述文章的算力資源支持事宜,煩請(qǐng)致信 batmanfly@qq.com 聯(lián)系我們。我們的綜述文章自發(fā)布以來(lái),收到了廣泛網(wǎng)友的大量修改意見(jiàn),在此一并表示感謝。也希望大家一如既往支持與關(guān)注我們的大模型綜述文章,您們的點(diǎn)贊與反饋將是我們前行最大的動(dòng)力。11. 本次修訂的參與學(xué)生名單
學(xué)生作者:周昆(添加了指令微調(diào)實(shí)驗(yàn)的任務(wù)設(shè)置與結(jié)果分析,具體安排了實(shí)驗(yàn)細(xì)節(jié),添加了能力評(píng)測(cè)實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)置與結(jié)果分析,協(xié)助整理code,添加了提示指南部分的實(shí)驗(yàn)設(shè)置與結(jié)果分析,添加了表13)、李軍毅(添加了指令微調(diào)實(shí)驗(yàn)的數(shù)據(jù)集、改進(jìn)策略和實(shí)驗(yàn)設(shè)置和實(shí)驗(yàn)表8,添加了能力評(píng)測(cè)實(shí)驗(yàn)的模型、任務(wù)和數(shù)據(jù)集,以及實(shí)驗(yàn)表11,添加了提示指南的設(shè)計(jì)原則和表12表14)、唐天一(添加第五章文字細(xì)節(jié),添加圖1、3、10,表6、7)、王曉磊(添加第六章6.1文字細(xì)節(jié),新增6.3)、侯宇蓬(添加第四章文字細(xì)節(jié))、閔映乾(添加第三章少數(shù)模型,LLaMA相關(guān)討論,圖4)、張北辰(添加第七章、第九章文字細(xì)節(jié),添加表10)、董梓燦(添加圖7表、4和第四章文字細(xì)節(jié))、陳昱碩(表7實(shí)驗(yàn))、陳志朋(添加第七章、第九章文字細(xì)節(jié),表11實(shí)驗(yàn))、蔣錦昊(更新圖8)學(xué)生志愿者:成曉雪(表11實(shí)驗(yàn))、王禹淏(表11實(shí)驗(yàn))、鄭博文(表11實(shí)驗(yàn))、胡譯文(中文校對(duì))、侯新銘(中文校對(duì))、尹彥彬(中文校對(duì))、曹展碩(中文校對(duì))附件:更新日志
版本 | 時(shí)間 | 主要更新內(nèi)容 |
---|---|---|
V1 | 2023年3月31日 | 初始版本 |
V2 | 2023年4月9日 | 添加了機(jī)構(gòu)信息。修訂了圖表 1 和表格 1,并澄清了大語(yǔ)言模型的相應(yīng)選擇標(biāo)準(zhǔn)。改進(jìn)了寫(xiě)作。糾正了一些小錯(cuò)誤。 |
V3 | 2023年4月11日 | 修正了關(guān)于庫(kù)資源的錯(cuò)誤 |
V4 | 2023年4月12日 | 修訂了圖1 和表格 1,并澄清了一些大語(yǔ)言模型的發(fā)布日期 |
V5 | 2023年4月16日 | 添加了關(guān)于 GPT 系列模型技術(shù)發(fā)展的章節(jié) |
V6 | 2023年4月24日 | 在表格 1 和圖表 1 中添加了一些新模型。添加了關(guān)于擴(kuò)展法則的討論。為涌現(xiàn)能力的模型尺寸添加了一些解釋?zhuān)ǖ?2.1 節(jié))。在圖 4 中添加了用于不同架構(gòu)的注意力模式的插圖。在表格 4 中添加了詳細(xì)的公式。 |
V7 | 2023年4月25日 | 修正了圖表和表格中的一些拷貝錯(cuò)誤 |
V8 | 2023年4月27日 | 在第 5.3 節(jié)中添加了參數(shù)高效適配章節(jié) |
V9 | 2023年4月28日 | 修訂了第 5.3 節(jié) |
V10 | 2023年5 月7 日 | 修訂了表格 1、表格 2 和一些細(xì)節(jié) |
V11 | 2023年6月29日 | 第一章:添加了圖1,在arXiv上發(fā)布的大語(yǔ)言論文趨勢(shì)圖;第二章:添加圖3以展示GPT的演變及相應(yīng)的討論;第三章:添加圖4以展示LLaMA家族及相應(yīng)的討論;第五章:在5.1.1節(jié)中添加有關(guān)指令調(diào)整合成數(shù)據(jù)方式的最新討論, 在5.1.4節(jié)中添加有關(guān)指令調(diào)整的經(jīng)驗(yàn)分析, 在5.3節(jié)中添加有關(guān)參數(shù)高效適配的討論, 在5.4節(jié)中添加有關(guān)空間高效適配的討論;第六章:在6.1.3節(jié)中添加有關(guān)ICL的底層機(jī)制的最新討論,在6.3節(jié)中添加有關(guān)復(fù)雜任務(wù)解決規(guī)劃的討論;第七章:在7.2節(jié)中添加用于評(píng)估LLM高級(jí)能力的代表性數(shù)據(jù)集的表格10,在7.3.2節(jié)中添加大語(yǔ)言模型綜合能力pint測(cè);第八章:添加提示設(shè)計(jì);第九章:添加關(guān)于大語(yǔ)言模型在金融和科學(xué)研究領(lǐng)域應(yīng)用的討論。 |
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
521瀏覽量
10268 -
大模型
+關(guān)注
關(guān)注
2文章
2427瀏覽量
2647
原文標(biāo)題:人大發(fā)表迄今為止最大最全的大模型綜述
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論