色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

一樣媲美GPT-4、Bard，Meta發(fā)布650億參數(shù)語言模型LIMA

不需要 RLHF，LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美，甚至更好。

作為當(dāng)前 AI 領(lǐng)域的頂流，ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展現(xiàn)出強大的能力，這離不開其背后的生成領(lǐng)域訓(xùn)練新范式 ——RLHF (Reinforcement Learning from Human Feedback) ，即以強化學(xué)習(xí)的方式依據(jù)人類反饋優(yōu)化語言模型。

使用 RLHF 方法，大型語言模型可與人類偏好保持對齊，遵循人類意圖，最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標(biāo)注和評估，因此成本非常高昂。

最近，來自 Meta AI 等機構(gòu)的研究者在一項研究中指出：在對齊方面，少即是多。

論文地址：https://arxiv.org/abs/2305.11206

該研究使用了一個 65B 參數(shù)的 LLaMa 模型（該模型稱為 LIMA）在 1000 個精選樣本上進行有監(jiān)督學(xué)習(xí)，在完全沒使用 RLHF 方法的情況下，LIMA 表現(xiàn)出非常強大的性能，并且能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的任務(wù)上。在人類評估結(jié)果中，LIMA 甚至可與 GPT-4、Bard、DaVinci003 相媲美。圖靈獎得主 Yann LeCun 也轉(zhuǎn)推稱贊這項研究。

接下來，讓我們看一下研究細節(jié)。

研究概述

首先，我們知道訓(xùn)練大型語言模型需要兩個步驟：

在原始內(nèi)容中進行無監(jiān)督預(yù)訓(xùn)練，以學(xué)習(xí)通用表征；

大規(guī)模指令微調(diào)和強化學(xué)習(xí)，以更好地對齊最終任務(wù)和用戶偏好。

該研究訓(xùn)練了一個 65B 參數(shù)的 LLaMa 語言模型「LIMA」，以衡量這兩個步驟的重要程度。LIMA 僅在 1000 個精選 prompt 和回答（response）上使用標(biāo)準(zhǔn)監(jiān)督損失進行微調(diào)，不涉及任何強化學(xué)習(xí)或人類偏好建模。

LIMA 能夠從訓(xùn)練數(shù)據(jù)的少量樣本中學(xué)習(xí)遵循特定的回答格式，包括從計劃旅行行程到推測備用歷史的復(fù)雜查詢。并且，該模型能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的新任務(wù)上。在一項人體對照試驗中，LIMA 在 43% 的病例中療效都與 GPT-4 媲美甚至更好；相比于 Bard，占比能夠達到 58%；更別說與使用人類反饋訓(xùn)練的 DaVinci003 對比了，這個數(shù)字高達 65%。

該研究根據(jù)對比結(jié)果總結(jié)道：大型語言模型中幾乎所有的知識都是在預(yù)訓(xùn)練期間學(xué)習(xí)的，并且想讓模型產(chǎn)生高質(zhì)量的輸出只需要部分必要的指令調(diào)優(yōu)數(shù)據(jù)。這一點與 RLHF 方法不同，將有助于大型語言模型（LLM）降低訓(xùn)練成本。

數(shù)據(jù)對齊

研究者提出了表面對齊假設(shè)：模型的知識和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的，而對齊則是教會它與用戶交互時如何選擇子分布。如果假設(shè)正確，對齊主要有關(guān)于學(xué)習(xí)方式，那么該假設(shè)的一個推論是，人們可以用相當(dāng)少的樣本充分調(diào)整預(yù)訓(xùn)練的語言模型。

為此，研究者收集了 1000 個 prompt 和回答的數(shù)據(jù)集，其中輸出 (回答) 在風(fēng)格上一致，但輸入 (prompt) 是不同的。他們想找出一種有幫助的、AI 助手風(fēng)格的輸出。精選樣本的來源主要包括社區(qū)問答和手動撰寫兩部分。除此之外，團隊還收集了一個包含 300 個 prompt 的測試集以及一個包含 50 個 prompt 的開發(fā)集。表 1 展示了不同數(shù)據(jù)源的概覽，并提供了一些統(tǒng)計數(shù)據(jù)。

社區(qū)問答

研究者從三個社區(qū)問答網(wǎng)站收集數(shù)據(jù)，分別是 Stack Exchange、wikiHow 和 Pushshift Reddit 數(shù)據(jù)集。來自 Stack Exchange 和 wikiHow 的答案與 AI 智能體的行為很一致，因此可以深度挖掘，而 Reddit 的高贊答案往往是幽默的或帶有惡意，需要一種人工的方法來管理回答，遵循適當(dāng)?shù)娘L(fēng)格。

人工撰寫的樣本

為進一步豐富數(shù)據(jù)，研究團隊還自己制作 prompt，指定兩組作者 (分別為 A 組和 B 組)，由他們自己或朋友的興趣各自創(chuàng)建 250 個 prompt。從 A 組中選擇 200 個 prompt 進行訓(xùn)練，并將 50 個 prompt 作為保留的開發(fā)集。過濾部分有問題的 prompt 后，將 B 組中剩余的 230 個 prompt 用于測試。

訓(xùn)練 LIMA

該研究以 LLaMa 65B [Touvron et al., 2023] 作為基礎(chǔ)模型，使用包含 1000 個樣本的對齊訓(xùn)練集進行了微調(diào)。為了區(qū)分每個說話者（用戶和助手），該研究在每段話語結(jié)束時引入一個特殊的回合結(jié)束 token（EOT），該 token 與停止生成的 EOS 起著相同的作用，但避免了與預(yù)訓(xùn)練模型已注入的 EOS token 產(chǎn)生混淆。

該研究遵循標(biāo)準(zhǔn)的微調(diào)超參數(shù)，包括：使用 AdamW [Loshchilov 和 Hutter，2017] 微調(diào) 15 個 epoch，其中 β_1=0.9，β_2=0.95，權(quán)重衰減（weight decay）為 0.1。在沒有預(yù)熱（warmup）步驟的情況下，該研究將初始學(xué)習(xí)率（learning rate）設(shè)置為，并在訓(xùn)練結(jié)束時衰減到。批大小設(shè)置為 32 個樣本（對于較小的模型設(shè)置為 64 個），超過 2048 個 token 的文本將被修剪。值得注意的是，這種方法與 norm 不同的是使用了殘差 dropout。該研究按照 Ouyang et al. [2022] 的方法，并在殘差連接（residual connection）上應(yīng)用 dropout，底層 p_d=0.0，線性增長至最后一層 p_d=0.3（對于較小的模型 p_d=0.2）。該研究發(fā)現(xiàn)發(fā)現(xiàn)困惑度與生成質(zhì)量無關(guān)，因此使用留出（held-out）50 樣本開發(fā)集手動選擇了第 5 個和第 10 個 epoch 之間的檢查點。

人類評估

該研究將 LIMA 與 SOTA 語言模型進行了比較評估，結(jié)果表明 LIMA 優(yōu)于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 個樣本上訓(xùn)練的 Alpaca 65B 參數(shù)復(fù)現(xiàn)版本，并且可以生成比 GPT-4 更好或與之媲美的回答。我們來看一下具體的實驗結(jié)果。

結(jié)果

下圖 1 顯示了人類偏好評估結(jié)果，圖 2 顯示了 GPT-4 偏好評估結(jié)果。該研究第一個觀察結(jié)果是，盡管使用 52 倍的數(shù)據(jù)進行訓(xùn)練，Alpaca 65B 輸出的結(jié)果往往不如 LIMA，而使用高級對齊方法 RLHF 訓(xùn)練的 DaVinci003 也是如此。

谷歌的 Bard 模型則顯示出與 DaVinci003 相反的趨勢，在 42% 的時間內(nèi)產(chǎn)生比 LIMA 更好的回答；而 58% 的情況 LIMA 的回答與 Bard 相當(dāng)或者更好。

最后，雖然 Claude 和 GPT-4 通常比 LIMA 表現(xiàn)更好，但在很多情況下 LIMA 確實產(chǎn)生了更好的回答。值得注意的是，即使是 GPT-4 也有 19% 的情況更喜歡 LIMA 的輸出。

分析

雖然研究者主要是針對 SOTA 模型來評估 LIMA，但值得注意的是，其中一些基線實際上是高度調(diào)諧的產(chǎn)物，在訓(xùn)練過程中可能已經(jīng)接觸了數(shù)百萬的真實用戶 prompt，因此創(chuàng)造了一個非常高的標(biāo)準(zhǔn)。因此，研究者通過手動分析 50 個隨機樣本來提供一個絕對評估（absolute assessment）。

他們將每個樣本標(biāo)記為三個類別中的一個：

失敗，回答不符合 prompt 的要求；

通過，回答符合 prompt 的要求；

優(yōu)秀，模型對 prompt 提供了一個極好的回答。

結(jié)果如圖 3 所示，50% 的 LIMA 答案被認為是優(yōu)秀的，而且它能夠遵循 50 個分析的 prompt 中除 6 個以外的所有 prompt，研究者沒有觀察到失敗案例中的任何明顯的趨勢。

在 50 個分析樣本中，有 43 個具有標(biāo)準(zhǔn)格式要求（例如問答、書信）。該研究分析了 13 個額外的分布外樣本（總共 20 個），結(jié)果發(fā)現(xiàn) 20% 回答失敗，35% 通過，45% 非常好。雖然樣本數(shù)量非常小，但 LIMA 已經(jīng)在其訓(xùn)練分布之外實現(xiàn)了類似的性能結(jié)果，這表明 LIMA 能夠很好地泛化。

最后，該研究分析了訓(xùn)練集中少量與安全相關(guān)的樣本（只有 13 個），并使用來自測試集的 30 個潛在敏感 prompt，發(fā)現(xiàn) LIMA 安全地回答了其中的 80%（包括 10 個帶有惡意 prompt 中的 6 個）。在某些情況下，LIMA 完全拒絕執(zhí)行任務(wù)，但當(dāng)惡意意圖比較模糊時，LIMA 更有可能提供不安全的回答。

為什么「Less More」？對數(shù)據(jù)多樣性、質(zhì)量和數(shù)量的消減

接下來，研究者通過消融實驗探討了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量的影響。他們觀察到，對于對齊的目的，擴大輸入多樣性和輸出質(zhì)量有可衡量的積極影響，僅僅擴大數(shù)量則可能不會有。

多樣性。為了測試 prompt 多樣性的效果，同時控制質(zhì)量和數(shù)量，研究者比較了經(jīng)過質(zhì)量過濾的 Stack Exchange 數(shù)據(jù)和 wikiHow 數(shù)據(jù)的訓(xùn)練效果，前者有異質(zhì)的 prompt 和極好的回答，后者則有同質(zhì)的 prompt 和極好的回答。雖然在此將二者作為多樣性的代表進行比較，但研究者也表示，在從兩個不同來源的數(shù)據(jù)中采樣時，可能會有其他混淆因素。他們從每個來源中抽出 2000 個訓(xùn)練樣本，如圖 5 顯示，更多樣化的 Stack Exchange 數(shù)據(jù)產(chǎn)生了明顯更好的性能。

質(zhì)量。為了測試回答質(zhì)量的影響，研究者從 Stack Exchange 中抽取了 2000 個樣本，沒有經(jīng)過任何質(zhì)量或風(fēng)格的過濾，并將在這個數(shù)據(jù)集上訓(xùn)練的模型與在過濾過的數(shù)據(jù)集上訓(xùn)練的模型進行比較。如圖 5 所示，在經(jīng)過過濾和未經(jīng)過過濾的數(shù)據(jù)源上訓(xùn)練的模型之間有 0.5 分的顯著差異。

數(shù)量。增加實例的數(shù)量是在許多機器學(xué)習(xí)環(huán)境中提高性能的一個著名策略。為了測試它對該設(shè)置的影響，研究者從 Stack Exchange 中抽取了指數(shù)級增加的訓(xùn)練集。如圖 6 所示，訓(xùn)練集規(guī)模的翻倍并沒有改善回答質(zhì)量。這個結(jié)果表明，對齊不一定只受制于訓(xùn)練樣本的數(shù)量，還與 prompt 多樣性函數(shù)有關(guān)。

多輪對話

一個僅在 1000 次單回合互動中進行微調(diào)的模型能否參與多回合對話？研究者還在 10 個現(xiàn)場對話中測試了 LIMA，將每個回答標(biāo)記為失敗、通過或優(yōu)秀。

對于一個零樣本聊天機器人來說，LIMA 的回答展現(xiàn)出了驚人的一致性，它能夠參考對話中以前的步驟信息。但很明顯的是，該模型的操作超出了分布范圍；在 10 個對話中的 6 個，LIMA 在 3 次互動中未能遵循 prompt。

為了提高它的對話能力，研究者收集了 30 個多輪對話鏈。在這些對話中，有 10 個對話是由作者創(chuàng)作的，而剩下的 20 個對話是基于 Stack Exchange 的評論鏈，研究者對其進行了編輯以適應(yīng)助手的風(fēng)格。利用合并后的 1030 個樣本，他們從預(yù)訓(xùn)練的 LLaMa 模型中微調(diào)了一個新版本的 LIMA，并根據(jù)用于零樣本模型的相同 prompt 進行了 10 次現(xiàn)場對話。

圖 7 顯示了回答質(zhì)量的分布。增加對話后，大大改善了生成質(zhì)量，將優(yōu)秀回答的比例從 45.2% 提高到 76.1%。此外，失敗率從每 42 個回合有 15 次失敗（零樣本）下降到每 46 次有 1 次失?。ㄎ⒄{(diào)）。

研究者進一步比較了整個對話的質(zhì)量，發(fā)現(xiàn)微調(diào)模型在 10 個對話中的 7 個表現(xiàn)明顯更好，在 3 個對話中與零樣本模型打成平手。從僅僅 30 個樣本中獲得的這種能力的飛躍，以及零樣本模型可以進行對話的事實，加強了這樣的假設(shè)：這種能力是在預(yù)訓(xùn)練中學(xué)習(xí)的，并且可以通過有限的監(jiān)督來調(diào)用。

綜上所述，在 1000 個精心策劃的例子上對一個強大的預(yù)訓(xùn)練語言模型進行微調(diào)，可以在廣泛的 prompt 中產(chǎn)生顯著的、有競爭力的結(jié)果。然而，這種方法也有局限性：首先，構(gòu)建這樣的樣本所付出的腦力勞動是巨大的，而且很難擴大規(guī)模。其次，LIMA 并不像產(chǎn)品級模型那樣魯棒，雖然 LIMA 通常會產(chǎn)生良好的反應(yīng)，但在解碼過程中一個不幸運的樣本或一個敵對的 prompt 往往會導(dǎo)致一個弱的反應(yīng)。盡管如此，這項工作中提出的證據(jù)表明，用簡單的方法來解決復(fù)雜的對齊問題是有潛力的。

審核編輯：李倩

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
35693

瀏覽量
282215
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
565

瀏覽量
10865
GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
16326

原文標(biāo)題：沒有RLHF，一樣媲美GPT-4、Bard，Meta發(fā)布650億參數(shù)語言模型LIMA

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AI智勝未來
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot ChatGPT背后的核心技術(shù)
Hot 分階段詳解GPT的整個訓(xùn)練流程

New 一文詳解水下機器人的產(chǎn)業(yè)發(fā)展現(xiàn)狀及趨勢分
New 人機環(huán)境系統(tǒng)與智能經(jīng)濟革命之間的聯(lián)系

发布文章

精選推薦
更多

文章

資料

帖子

電解電容損壞率高達30%？快速排查與秒修技巧--【其利天下】

其利天下技術(shù)
14小時前

279 閱讀

干貨分享 | 如何利用MBSE賦能汽車中控鎖安全開發(fā)

經(jīng)緯恒潤
15小時前

437 閱讀

使用恩智浦處理器應(yīng)對AI智能眼鏡低功耗設(shè)計挑戰(zhàn)

NXP客棧
14小時前

472 閱讀

睿擎派配件上新！4.3寸/7寸MIPI屏、UVC攝像頭、4G模塊等硬件全線出擊

RT-Thread官方賬號
15小時前

425 閱讀

NI eVTOL測試方案航電系統(tǒng)，通信、導(dǎo)航及通感一體測試方案解決eVTOL測試"必答題"

向上
15小時前

385 閱讀

華為 FPGA設(shè)計高級技巧Xilinx篇

吳湛
2560

10積分

1103下載

Disconf分布式配置管理平臺

賈埃羅
1.41 MB

免費

0下載

anonymousmail匿名郵箱系統(tǒng)

王飛
1.75 MB

2積分

2下載

Homomm私密的交流軟件

yqdedli
1.81 MB

免費

0下載

智能魚缸仿真設(shè)計

新人學(xué)習(xí)中
0.38 MB

10積分

3下載

ADS射頻電路設(shè)計基礎(chǔ)與典型應(yīng)用

yuu_cool
1天前

139 閱讀

電路圖：求馬蘭士功放DA -J7MKII電路圖？

jf_62612495
1天前

689 閱讀

HarmonyOS AI輔助編程工具（CodeGenie）頁面生成

李洋水蛟龍
1天前

428 閱讀

stm32f103c8t6讀不到完整的MC6C遙控器Uart數(shù)據(jù)幀怎么辦

jf_92431147
1天前

819 閱讀

【米爾-安路MYD-YM90X 創(chuàng)意秀】基于雷達波探測的智能巡檢小車

jf_64583430
1天前

576 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多