宅男lu66在线网站,真实的和子乱拍视频网站,亚洲一区二区三区精品视频

目前關于chatGPT的資料過于零散，沒有詳盡所有知識點、系統概述的文章，因此，筆者作了這篇總結性文章。

訓練過程總覽

理清演化路徑

預訓練(pretrain)

GPT-3概述

GPT 3模型的理念

GPT-3如何學習

數據集

指令微調 (Instruction Fine-Tuning，IFT)

有監督微調 (Supervised Fine-tuning, SFT)

人類反饋強化學習 (Reinforcement Learning From Human Feedback，RLHF)

其他方法

思維鏈 (Chain-of-thought，CoT)

與chatGPT類似的工作

引用

進NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進入對應投稿群)

訓練過程總覽

OpenAI 使用了 175B參數的大型語言模型（LM）和 6B參數的獎勵模型（RM）。除預訓練之外，訓練過程分為三步：

收集NLP各種任務的數據集，加上任務描述和提示組裝成新的數據集，并使用這些數據微調預訓練的大型語言模型。包括指令微調和有監督微調。

從上述數據集中采樣，使用大型語言模型生成多個響應，手動對這些響應進行排名，并訓練獎勵模型（RM）以適應人類偏好。

基于第一階段的有監督微調模型和第二階段的獎勵模型，使用強化學習算法進一步訓練大型語言模型。

img

理清演化路徑

GPT-3.5 參數量仍然為175B，總體進化樹如下：

img

預訓練(pretrain)

GPT-3概述

GPT-3是一種自回歸模型，僅使用解碼器，訓練目標也是預測下一個單詞（沒有判斷下一句任務）。

最大的GPT-3模型有175B參數，是BERT模型大470倍(0.375B)

image-20230221144754842

GPT 3模型的理念

不需要接新的模型結構：如bert用于NER任務一般接LSTM+CRF

不需要微調

一個模型解決NLP多種任務

NLP任務都可以用生成模型解決

和人類一樣，只需要看極少數量的樣例就能學會

GPT-3如何學習

零樣本學習：提供任務描述、提示

單樣本學習：提供任務描述、一個樣例、提示

少樣本學習：提供任務描述、幾個樣例、提示

數據集

模型	發布時間	參數量	預訓練數據量
BERT-large	2019 年 3 月	3.75 億	約3.3GB
GPT	2018 年 6 月	1.17 億	約 5GB
GPT-2	2019 年 2 月	15 億	40GB
GPT-3	2020 年 5 月	1,750 億	45TB

BERT-large：BooksCorpus 800M words、 English Wikipedia 2.5Bwords

GPT：WebText2, BooksCorpus、Wikipedia超過 5GB。

GPT-2：WebText2, BooksCorpus、Wikipedia總量達到了40GB。

GPT-3：**WebText2, BooksCorpus、Wikipedia、Common Crawl **等數據集45TB數據。

image-20230221153905277

指令微調 (Instruction Fine-Tuning，IFT)

收集NLP各種任務的數據集，加上任務描述和提示組裝成新的數據集。chatGPT使用到的數據集如下：

image-20230221113507381

相關的一些論文：

Unnatural Instructions (Honovich 等, '22)//arxiv.org/abs/2212.09689

Super-natural instructions (Wang 等, '22)//arxiv.org/abs/2204.07705

Self-Instruct (Wang 等, '22)//arxiv.org/abs/2212.10560

T0 (Sanh 等, '22)//arxiv.org/abs/2110.08207

Natural instructions 數據集 (Mishra 等, '22)//arxiv.org/abs/2104.08773

FLAN LM (Wei 等, '22)//arxiv.org/abs/2109.01652

OPT-IML (Iyer 等, '22)//arxiv.org/abs/2212.12017

有監督微調 (Supervised Fine-tuning, SFT)

此步驟未為了防止遇到敏感話題時，回復【不知道】這種無意義的回答，以加入一些人工標注數據，增加回復安全性，百級別的數據集即可完成。

相關的一些論文：

Google 的 LaMDA:附錄 Ahttps://arxiv.org/abs/2201.08239

DeepMind 的 Sparrow: Sparrow :附錄 Fhttps://arxiv.org/abs/2209.14375

人類反饋強化學習 (Reinforcement Learning From Human Feedback，RLHF)

描述：

策略 (policy) ：一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。

行動空間 (action space) ：LM 的詞表對應的所有詞元 (一般在 50k 數量級) ，

觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標記的數量) 。

獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。

此過程分為兩步：

聚合問答數據并訓練一個獎勵模型 (Reward Model，RM)

用強化學習 (RL) 方式微調 LM

開源數據集：

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用戶提交的反饋。

image-20230221111329526

其他方法

這部分簡單介紹一下和chatGPT使用的微調并列的一些方法

思維鏈 (Chain-of-thought，CoT)

如下圖所示使用一些帶有逐步推理的數據集進行微調

橙色是任務描述，粉色是問題和答案，藍色是推理過程

思維鏈提示 (Wei 等, '22)//arxiv.org/abs/2201.11903

與chatGPT類似的工作

Meta 的 BlenderBot//arxiv.org/abs/2208.03188

Google 的 LaMDA//arxiv.org/abs/2201.08239

DeepMind 的 Sparrow//arxiv.org/abs/2209.14375

Anthropic 的 Assistant//arxiv.org/abs/2204.05862

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24689
nlp

nlp

+關注

關注
1

文章
488

瀏覽量
22033
ChatGPT

ChatGPT

+關注

關注
29

文章
1558

瀏覽量
7596

原文標題：通俗易懂chatGPT原理

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

通俗易懂的PID教程

本帖最后由 Calvin248 于 2013-5-5 15:31 編輯幫助大家更好的理解PID算法，講解的很通俗易懂，并且附有程序，幫助大家理解掌握！

發表于 05-05 15:30

通俗易懂的PID算法

發幾個通俗易懂的PID算法，需要的拿走

發表于 01-26 00:54

通俗易懂系列整合—電源基礎知識講解

之前發表了六篇用通俗易懂的話講解電源知識的文章，分別是關于三極管、電阻、電容、電感、二極管和場效應管的講解。怕想學習的壇友找不到內容，所以這邊整合一下，給大家分享文章的鏈接。用通俗易懂的話讓你明白

發表于 02-17 09:43

標準的PID處理例程(PID通俗易懂的講解)[2]

發表于 06-13 11:44

PID通俗易懂

PID通俗易懂.....................

發表于 06-30 18:54

通俗易懂之電子稱開發導航篇

通俗易懂之電子稱開發立項篇https://bbs.elecfans.com/jishu_919726_1_1.html通俗易懂之電子稱開發硬件篇https://bbs.elecfans.com

發表于 07-18 21:22

通俗易懂的《路由和交換》

通俗易懂的《路由和交換》路由和交換是網絡世界中兩個重要的概念。傳統的交換發生在網絡的第二層，即數據鏈路層，而路由則發

發表于 08-01 10:39 ?990次閱讀

通俗易懂的單片機教程

通俗易懂的單片機教程

發表于 09-29 15:45 ?637次下載

卡爾曼濾波的原理說明(通俗易懂)

很通俗易懂的卡爾曼濾波原理由淺入深不光是公式的介紹

發表于 12-08 18:13 ?37次下載

卡爾曼濾波的原理說明(通俗易懂)

這是關于卡爾曼濾波的原理說明(通俗易懂)，適合初學者

發表于 03-16 14:40 ?0次下載

PID通俗易懂

PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂

發表于 04-19 09:54 ?21次下載

卡爾曼濾波器[附帶例程]通俗易懂

卡爾曼濾波器[附帶例程] 通俗易懂 附上工程代碼 C語言 c++ 以及matlab

發表于 09-27 16:34 ?17次下載

步進電機基本原理(通俗易懂)

步進電機基本原理(通俗易懂)

發表于 11-30 11:55 ?0次下載

通俗易懂的講解FFT的讓你快速了解FFT

相信網上現在有很多關于FFT的教程，我曾經也參閱了很多網上的教程，感覺都不怎么通俗易懂。在基本上的研究FFT，并且通過編程的形式實現之后。我決定寫一篇通俗易懂的關于FFT的講解。因此我在接下來的敘述中盡量非常通俗細致的講解。

發表于 03-24 11:52 ?3.6w次閱讀

<b class='flag-5'>通俗易懂</b>的講解FFT的讓你快速了解FFT

最通俗易懂的ArkTS語言入門指南

本文為我整理出來最通俗易懂的 ArkTS 語言入門指南。

發表于 06-18 15:12 ?2.2w次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

通俗易懂chatGPT原理

評論

通俗易懂的PID教程

通俗易懂的PID算法

通俗易懂系列整合—電源基礎知識講解

標準的PID處理例程(PID通俗易懂的講解)[2]

PID通俗易懂

通俗易懂之電子稱開發導航篇

通俗易懂的《路由和交換》

通俗易懂的單片機教程

卡爾曼濾波的原理說明(通俗易懂)

卡爾曼濾波的原理說明(通俗易懂)

PID通俗易懂

卡爾曼濾波器[附帶例程]通俗易懂

步進電機基本原理(通俗易懂)

通俗易懂的講解FFT的讓你快速了解FFT

最通俗易懂的ArkTS語言入門指南