資料介紹
在“人工標注數(shù)據(jù)+強化學(xué)習(xí)”框架下,具體而言,InstructGPT的訓(xùn)練過程分為以下三個階段:
第一階段:冷啟動階段的監(jiān)督策略模型
靠GPT 3本身,盡管它很強,但是它很難理解人類不同類型指令中蘊含的不同意圖,也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3初步具備理解指令中蘊含的意圖,首先會從測試用戶提交的prompt(就是指令或問題)中隨機抽取一批,靠專業(yè)的標注人員,給出指定prompt的高質(zhì)量答案,然后用這些人工標注好的數(shù)據(jù)來Fine-tune GPT 3模型。經(jīng)過這個過程,我們可以認為 GPT 3初步具備了理解人類prompt中所包含意圖,并根據(jù)這個意圖給出相對高質(zhì)量回答的能力,但是很明顯,僅僅這樣做是不夠的。
第二階段:訓(xùn)練回報模型(RewardModel,RM)
這個階段的主要目的是通過人工標注訓(xùn)練數(shù)據(jù),來訓(xùn)練回報模型。具體而言,隨機抽樣一批用戶提交的prompt(大部分和第一階段的相同),使用第一階段Fine-tune好的冷啟動模型,對于每個prompt,由冷啟動模型生成K個不同的回答,于是模型產(chǎn)生出了,…。數(shù)據(jù)。之后,標注人員對K個結(jié)果按照很多標準(上面提到的相關(guān)性、富含信息性、有害信息等諸多標準)綜合考慮進行排序,給出K個結(jié)果的排名順序,這就是此階段人工標注的數(shù)據(jù)。接下來,我們準備利用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練回報模型,采取的訓(xùn)練模式其實就是平常經(jīng)常用到的pair-wiselearning to rank。對于K個排序結(jié)果,兩兩組合,形成 ( k 2 ) \binom{k}{2} (2k) 個訓(xùn)練數(shù)據(jù)對,ChatGPT采取pair-wiseloss來訓(xùn)練Reward Model。RM模型接受一個輸入,給出評價回答質(zhì)量高低的回報分數(shù)Score。對于一對訓(xùn)練數(shù)據(jù),我們假設(shè)人工排序中answer1排在answer2前面,那么Loss函數(shù)則鼓勵RM模型對的打分要比 的打分要高。歸納下:在這個階段里,首先由冷啟動后的監(jiān)督策略模型為每個prompt產(chǎn)生K個結(jié)果,人工根據(jù)結(jié)果質(zhì)量由高到低排序,以此作為訓(xùn)練數(shù)據(jù),通過pair-wiselearning to rank模式來訓(xùn)練回報模型。對于學(xué)好的RM模型來說,輸入,輸出結(jié)果的質(zhì)量得分,得分越高說明產(chǎn)生的回答質(zhì)量越高。
- FPGA加速視覺搜索引擎解決方案
- 超強的ChatGPT會成為下一代搜索引擎嗎
- 基于蛻變測試的用戶搜索引擎性能分析 9次下載
- python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎 29次下載
- 分布式搜索引擎elasticsearch使用手冊 0次下載
- 一個大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析(英文版) 0次下載
- 基于JAVA技術(shù)的搜索引擎的研究與實現(xiàn)
- 主題搜索引擎的研究
- 教育網(wǎng)BBS搜索引擎設(shè)計與實現(xiàn)
- 基于壓縮后綴數(shù)組技術(shù)的搜索引擎
- 原創(chuàng)優(yōu)先的搜索引擎排序算法
- 基于偽爬行器的主題式元搜索引擎研究與設(shè)計
- 搜索引擎查詢?nèi)罩镜木垲?/a>
- 基于網(wǎng)格技術(shù)的并行搜索引擎
- 基于網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)話題分析框架
- 谷歌搜索引擎優(yōu)化的各個方面和步驟 695次閱讀
- 下一代硅光子技術(shù)會是什么樣子? 529次閱讀
- 使用Rust語言重寫的代碼搜索引擎黑鳥系統(tǒng)Blackbird正式啟用 695次閱讀
- 一個基于GPT-4的代碼搜索引擎,開源了! 1186次閱讀
- 下一代軍事通信挑戰(zhàn) 851次閱讀
- Elasticsearch 8作為開源軟件正式發(fā)布 2302次閱讀
- 實測沒有廣告的百度開發(fā)者搜索 2721次閱讀
- 大數(shù)據(jù)是如何優(yōu)化企業(yè)搜索引擎 2167次閱讀
- 基于Bystack主側(cè)鏈架構(gòu)的下一代去中心跨鏈MOV協(xié)議介紹 1223次閱讀
- Elasticsearch概述 怎么安裝ES 4206次閱讀
- 如何用Python實現(xiàn)一個大數(shù)據(jù)搜索引擎 2820次閱讀
- 如何在Python中進行Elasticsearch操作? 7519次閱讀
- 基于深度學(xué)習(xí)技術(shù),從頭開始搭建圖像語義搜索引擎 4814次閱讀
- 垂直搜索引擎是什么_垂直搜索引擎有哪些 7790次閱讀
- 下一代平板顯示:OLED、MICRO LED、QLED誰將勝出? 1651次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發(fā)指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應(yīng)用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關(guān)電源設(shè)計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅(qū)動電路設(shè)計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多