又粗又大又黄又爽的免费视频,一道本高清香蕉网,在线国产一区二区

ChatGPT的技術體系

RLHF論文：Training language models to follow instructions with human feedback（https://arxiv.org/pdf/2203.02155.pdf）

摘要上下文中的 RLHF：Learning to summarize from Human Feedback （https://arxiv.org/pdf/2009.01325.pdf）

PPO論文：Proximal Policy Optimization Algorithms（https://arxiv.org/pdf/1707.06347.pdf）

Deep reinforcement learning from human preferences （https://arxiv.org/abs/1706.03741）

1. 引言

1.1 ChatGPT的介紹

作為一個 AI Chatbot，ChatGPT 是當前比較強大的自然語言處理模型之一，它基于 Google 的 T5 模型進行了改進，同時加入了許多自然語言處理的技術，使得它可以與人類進行自然的、連貫的對話。ChatGPT 使用了 GPT（Generative Pre-training Transformer）架構，它是一種基于 Transformer 的預訓練語言模型。GPT 的主要思想是將大量的語料庫輸入到模型中進行訓練，使得模型能夠理解和學習語言的語法、語義等信息，從而生成自然、連貫的文本。與其他 Chatbot 相比，ChatGPT 的優勢在于它可以進行上下文感知型的對話，即它可以記住上下文信息，而不是簡單地匹配預先定義的規則或模式。此外，ChatGPT 還可以對文本進行生成和理解，支持多種對話場景和話題，包括閑聊、知識問答、天氣查詢、新聞閱讀等等。

盡管 ChatGPT 在自然語言處理領域已經取得了很好的表現，但它仍然存在一些局限性，例如對于一些復雜的、領域特定的問題，它可能無法給出正確的答案，需要通過人類干預來解決。因此，在使用 ChatGPT 進行對話時，我們仍需要謹慎對待，盡可能提供明確、簡潔、準確的問題，以獲得更好的對話體驗。

1.2 ChatGPT的訓練模式

ChatGPT 的訓練模式是基于大規模文本數據集的監督學習和自我監督學習，這些數據集包括了各種類型的文本，例如新聞文章、博客、社交媒體、百科全書、小說等等。ChatGPT 通過這些數據集進行預訓練，然后在特定任務的數據集上進行微調。

對于 Reinforcement Learning from Human Feedback 的訓練方式，ChatGPT 通過與人類進行對話來進行模型訓練。具體而言，它通過與人類進行對話，從而了解人類對話的語法、語義和上下文等方面的信息，并從中學習如何生成自然、連貫的文本。當 ChatGPT 生成回復時，人類可以對其進行反饋，例如“好的”、“不太好”等等，這些反饋將被用來調整模型參數，以提高 ChatGPT 的回復質量。Reinforcement Learning from Human Feedback 的訓練方式，可以使 ChatGPT 更加智能，更好地模擬人類的思維方式。不過這種訓練方式也存在一些問題，例如人類反饋的主觀性和不確定性等，這些問題可能會影響模型的訓練效果。因此，我們需要在使用 ChatGPT 進行對話時，謹慎對待反饋，盡可能提供明確、簡潔、準確的反饋，以獲得更好的對話體驗。

1.3 RLHF的介紹

在過去的幾年中，語言模型通過根據人類輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而，什么才是“好”文本本質上很難定義，因為它是主觀的并且依賴于上下文。有許多應用程序，例如編寫您需要創意的故事、應該真實的信息性文本片段，或者我們希望可執行的代碼片段。編寫一個損失函數來捕獲這些屬性似乎很棘手，而且大多數語言模型仍然使用簡單的下一個loss function（例如交叉熵）進行訓練。為了彌補損失本身的缺點，人們定義了旨在更好地捕捉人類偏好的指標，例如 BLEU 或 ROUGE。雖然比損失函數本身更適合衡量性能，但這些指標只是簡單地將生成的文本與具有簡單規則的引用進行比較，因此也有局限性。如果我們使用生成文本的人工反饋作為性能衡量標準，或者更進一步并使用該反饋作為損失來優化模型，那不是很好嗎？這就是從人類反饋中強化學習（RLHF）的想法；使用強化學習的方法直接優化帶有人類反饋的語言模型。RLHF 使語言模型能夠開始將在一般文本數據語料庫上訓練的模型與復雜人類價值觀的模型對齊。

在傳統的強化學習中，智能的agent需要通過不斷的試錯來學習如何最大化獎勵函數。但是，這種方法往往需要大量的訓練時間和數據，同時也很難確保智能代理所學習到的策略是符合人類期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法，即通過人類偏好來指導智能代理的訓練。具體而言，它要求人類評估一系列不同策略的優劣，然后將這些評估結果作為訓練數據來訓練智能代理的深度神經網絡。這樣，智能代理就可以在人類偏好的指導下，學習到更符合人類期望的策略。除了減少訓練時間和提高智能代理的性能之外，Deep Reinforcement Learning from Human Preferences 還可以在許多現實場景中發揮作用，例如游戲設計、自動駕駛等。通過使用人類偏好來指導智能代理的訓練，我們可以更好地滿足人類需求，并創造出更加智能和人性化的技術應用

2. 方法介紹

方法總體上包括三個不同步驟：

監督調優模型：在一小部分已經標注好的數據上進行有監督的調優，讓機器學習從一個給定的提示列表中生成輸出，這個模型被稱為 SFT 模型。

模擬人類偏好，讓標注者們對大量 SFT 模型輸出進行投票，這樣就可以得到一個由比較數據組成的新數據集。然后用這個新數據集來訓練一個新模型，叫做 RM 模型。

用 RM 模型進一步調優和改進 SFT 模型，用一種叫做 PPO 的方法得到新的策略模式。

第一步只需要進行一次，而第二步和第三步可以持續重復進行，以收集更多的比較數據來訓練新的 RM 模型和更新策略模式。

2.1 監督調優模型

需要收集數據來訓練有監督的策略模型。為了做到這一點，選定一些提示，讓標注人員寫出預期的回復。這個過程雖然緩慢和昂貴，但最終得到的是一個相對較小、高質量的數據集，可用于調優預訓練的語言模型。選擇了 GPT-3.5 系列中的預訓練模型作為基線模型，而不是對原始 GPT-3 模型進行調優。

然而，由于此步驟的數據量有限，這個過程得到的 SFT 模型可能會輸出一些不是用戶想要的文本，通常也會出現不一致問題。為了解決這個問題，使用的策略是讓標注者對 SFT 模型的不同輸出進行排序以創建 RM 模型，而不是讓標注者創建一個更大的精選數據集。

2.2 訓練回報模型

在這一步中，我們的目標是學習一個目標函數，它可以直接從數據中學習，而不是僅僅從有限的訓練數據中調整語言模型。這個目標函數的作用是為 SFT 模型生成的輸出進行評分，以表示這些輸出對人類來說有多可接受。它反映了人類標注者的偏好和共同準則。最終，這個過程可以得到一個系統，它可以模仿人類的偏好。包括以下步驟：

利用prompt 生成多個輸出。

利用標注者對這些輸出進行排序，獲得一個更大質量更高的數據集。

把模型將 SFT 模型輸出作為輸入，并按優先順序對它們進行排序。

2.3 使用 PPO 模型微調 SFT 模型

這一步的目標是通過強化學習來調整 SFT 模型。具體來說，使用了一個叫 PPO 的算法來訓練一個叫做近端策略優化模型的調整模型，用于優化 SFT 模型。

PPO 是一種用于訓練智能體的算法，可以不斷地調整策略以提高效果。與其他算法不同的是，PPO 會限制策略的更改范圍，以確保訓練的穩定性。此外，PPO 還使用了一個價值函數來估計每個行動的價值，從而更加準確地進行調整。

在這一步中，PPO 模型使用 SFT 模型作為起點，RM 模型作為基礎，為給定的輸入生成回報。為了避免過度優化，SFT 模型會為每個 token 添加 KL 懲罰因子。

3. 性能評估

作為一個大型語言模型，ChatGPT的評估標準可以有多種。在訓練ChatGPT時，通常會使用一些標準的自然語言處理評估指標來評估其性能，如困惑度（perplexity）、BLEU分數、ROUGE分數等。這些指標可以用來評估ChatGPT在生成文本時的流暢度、語義連貫性和表達能力等方面的表現。此外，ChatGPT也可以通過人類評估來評估其性能，例如進行用戶調查或人類評分實驗。這些方法可以提供更貼近實際使用場景的評估，以便更全面地評估ChatGPT在生成自然語言文本方面的表現。

主要借助以下三個標準進行評估：

幫助性：判斷模型遵循用戶指示以及推斷指示的能力。

真實性：判斷模型在封閉領域任務中有產生虛構事實的傾向。

無害性：標注者評估模型的輸出是否適當、是否包含歧視性內容。

4. ChatGPT的前景

ChatGPT 在自然語言處理領域具有廣泛的應用前景。它可以用于語言翻譯、情感分析、問答系統、文本摘要、對話系統等多個任務，幫助人們更好地理解和處理自然語言。此外，ChatGPT 還可以應用于許多其他領域，例如自然語言生成、自動文本摘要、機器翻譯、自動問答、語音識別等。它也可以用于推薦系統、智能客服、智能問答、知識圖譜等領域。ChatGPT 的未來發展前景非常廣闊，可以預見的是，隨著技術的不斷發展，它將在各個領域得到更廣泛的應用和改進。同時，也需要關注和解決一些挑戰，例如如何提高模型的效率和準確性，如何解決對話中的常識推理和知識不足等問題。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3226

瀏覽量
48809
智能體

智能體

+關注

關注
1

文章
144

瀏覽量
10575
ChatGPT

ChatGPT

+關注

關注
29

文章
1558

瀏覽量
7596

原文標題：ChatGPT的技術體系

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

，ChatGPT 4這樣的模型需要大量的計算資源和優化技術，而FPGA只是其中的一部分： // 首先，我們需要在FPGA上創造一個超級智能網絡精靈 module ChatGPT

發表于 02-14 21:58

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

當下AI人工智能崛起，很多開發領域都可看到ChatGPT的身影，FPGA設計中，是否也可以用ChatGPT輔助設計呢？

發表于 03-28 23:41

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

和情緒的選項實時視頻捕捉，在與ChatGPT 交互時無需發送照片有能力在會議和視頻通話中提供協助發布會為其潛在影響提供了清晰的愿景。隨著企業駕馭不斷變化的技術領域，擁抱ChatGPT-4o對于實現持續增長和創新至關重要。

發表于 05-27 15:43

讓chatGPT幫我寫硬件代碼，是懂行的，好助手！#chatgpt #物聯網開發 #python開發板

ChatGPT

蘇州煜瑛微電子科技有限公司

發布于 :2023年02月17日 15:27:42

ChatGPT對話語音識別

ChatGPT

YS YYDS

發布于 :2023年05月30日 22:13:10

科技大廠競逐AIGC，中國的ChatGPT在哪？

產業版ChatGPT--ChatJD。可見，大廠的態度十分鮮明：ChatGPT已經是既定的未來，這場新的科技競技賽哨聲響起，誰都不甘落于下風。從科技巨頭，到行業龍頭，中國企業競逐AI賽道，AIGC（利用人工智能技術

發表于 03-03 14:28

chatGPT一種生產力的變革

推進。標準規范為AIGC生態構建了一個技術、內容、應用、服務和監管的全過程一體化標準體系，促進AIGC在合理、合規和合法的框架下進行良性發展。以美國為例，雖然美國在AIGC技術領域起步較早，且

發表于 04-25 16:04

不到1分鐘開發一個GPT應用！各路大神瘋狂整活，網友：ChatGPT就是新iPhone

的能力仍然是不可替代的。此外，ChatGPT等語言模型的應用也需要大量的數據和算力支持，以及專業的技術人員進行開發和維護。因此，雖然ChatGPT等語言模型在某些方面具有一定的優勢，但它們并不能完全取代

發表于 11-19 12:06

ChatGPT實現原理

OpenAI發明的一種自然語言處理技術。它是一種預訓練的深度學習模型，可以用來生成文本，識別語義，做文本分類等任務。 ChatGPT實現原理火爆的ChatGPT，得益于AIGC 背后的關鍵技

發表于 02-13 17:32 ?10.5w次閱讀

ChatGPT/GPT的原理 ChatGPT的技術架構

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構開發的對話AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對話數據

發表于 02-24 10:05 ?1806次閱讀

最全ChatGPT技術匯總

ChatGPT的強大能力是顯而易見的，但對于人工智能領域不太熟悉的人，對這種黑盒的技術仍然會擔憂或者不信任。恐懼通常來自于不了解，因此本文將為大家全面剖析ChatGPT的技術原理，盡量

發表于 03-22 10:06 ?3940次閱讀

ChatGPT應用實戰

ChatGPT自發布之后一直大火至今，引起行業震動，我們也持續在跟進ChatGPT，體驗其功能，了解其技術原理，并基于爬蟲技術封裝了ChatGPT

發表于 06-06 17:47 ?5次下載

chatgpt是什么意思 ChatGPT背后的技術原理

　　今天我們為大家帶來的文章，深入淺出地闡釋了ChatGPT背后的技術原理，沒有NLP或算法經驗的小伙伴，也可以輕松理解ChatGPT是如何工作的。　　ChatGPT是一種機器學習自然

發表于 07-18 17:12 ?0次下載

大模型LLM與ChatGPT的技術原理

在人工智能領域，大模型（Large Language Model, LLM）和ChatGPT等自然語言處理技術（Natural Language Processing, NLP）正逐步改變著人類

發表于 07-10 10:38 ?809次閱讀

ChatGPT新增實時搜索與高級語音功能

在OpenAI的第八天技術分享直播中，ChatGPT的搜索功能迎來了重大更新。此次更新不僅豐富了ChatGPT的功能體系，更提升了其實用性和競爭力。新增的實時搜索功能，是此次更新的亮

發表于 12-17 14:08 ?134次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

ChatGPT的技術體系

評論

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

讓chatGPT幫我寫硬件代碼，是懂行的，好助手！#chatgpt #物聯網開發 #python開發板

ChatGPT對話語音識別

科技大廠競逐AIGC，中國的ChatGPT在哪？

chatGPT一種生產力的變革

不到1分鐘開發一個GPT應用！各路大神瘋狂整活，網友：ChatGPT就是新iPhone

ChatGPT實現原理

ChatGPT/GPT的原理 ChatGPT的技術架構

最全ChatGPT技術匯總

ChatGPT應用實戰

chatgpt是什么意思 ChatGPT背后的技術原理

大模型LLM與ChatGPT的技術原理

ChatGPT新增實時搜索與高級語音功能