不需要 RLHF,LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美,甚至更好。
作為當前 AI 領域的頂流,ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展現出強大的能力,這離不開其背后的生成領域訓練新范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習的方式依據人類反饋優化語言模型。
使用 RLHF 方法,大型語言模型可與人類偏好保持對齊,遵循人類意圖,最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標注和評估,因此成本非常高昂。
最近,來自 Meta AI 等機構的研究者在一項研究中指出:在對齊方面,少即是多。
論文地址:https://arxiv.org/abs/2305.11206
該研究使用了一個 65B 參數的 LLaMa 模型(該模型稱為 LIMA)在 1000 個精選樣本上進行有監督學習,在完全沒使用 RLHF 方法的情況下,LIMA 表現出非常強大的性能,并且能夠很好地泛化到訓練數據以外的任務上。在人類評估結果中,LIMA 甚至可與 GPT-4、Bard、DaVinci003 相媲美。圖靈獎得主 Yann LeCun 也轉推稱贊這項研究。
接下來,讓我們看一下研究細節。
研究概述
首先,我們知道訓練大型語言模型需要兩個步驟:
在原始內容中進行無監督預訓練,以學習通用表征;
大規模指令微調和強化學習,以更好地對齊最終任務和用戶偏好。
該研究訓練了一個 65B 參數的 LLaMa 語言模型「LIMA」,以衡量這兩個步驟的重要程度。LIMA 僅在 1000 個精選 prompt 和回答(response)上使用標準監督損失進行微調,不涉及任何強化學習或人類偏好建模。
LIMA 能夠從訓練數據的少量樣本中學習遵循特定的回答格式,包括從計劃旅行行程到推測備用歷史的復雜查詢。并且,該模型能夠很好地泛化到訓練數據以外的新任務上。在一項人體對照試驗中,LIMA 在 43% 的病例中療效都與 GPT-4 媲美甚至更好;相比于 Bard,占比能夠達到 58%;更別說與使用人類反饋訓練的 DaVinci003 對比了,這個數字高達 65%。
該研究根據對比結果總結道:大型語言模型中幾乎所有的知識都是在預訓練期間學習的,并且想讓模型產生高質量的輸出只需要部分必要的指令調優數據。這一點與 RLHF 方法不同,將有助于大型語言模型(LLM)降低訓練成本。
數據對齊
研究者提出了表面對齊假設:模型的知識和能力幾乎完全是在預訓練期間學習的,而對齊則是教會它與用戶交互時如何選擇子分布。如果假設正確,對齊主要有關于學習方式,那么該假設的一個推論是,人們可以用相當少的樣本充分調整預訓練的語言模型。
為此,研究者收集了 1000 個 prompt 和回答的數據集,其中輸出 (回答) 在風格上一致,但輸入 (prompt) 是不同的。他們想找出一種有幫助的、AI 助手風格的輸出。精選樣本的來源主要包括社區問答和手動撰寫兩部分。除此之外,團隊還收集了一個包含 300 個 prompt 的測試集以及一個包含 50 個 prompt 的開發集。表 1 展示了不同數據源的概覽,并提供了一些統計數據。
社區問答
研究者從三個社區問答網站收集數據,分別是 Stack Exchange、wikiHow 和 Pushshift Reddit 數據集。來自 Stack Exchange 和 wikiHow 的答案與 AI 智能體的行為很一致,因此可以深度挖掘,而 Reddit 的高贊答案往往是幽默的或帶有惡意,需要一種人工的方法來管理回答,遵循適當的風格。
人工撰寫的樣本
為進一步豐富數據,研究團隊還自己制作 prompt,指定兩組作者 (分別為 A 組和 B 組),由他們自己或朋友的興趣各自創建 250 個 prompt。從 A 組中選擇 200 個 prompt 進行訓練,并將 50 個 prompt 作為保留的開發集。過濾部分有問題的 prompt 后,將 B 組中剩余的 230 個 prompt 用于測試。
訓練 LIMA
該研究以 LLaMa 65B [Touvron et al., 2023] 作為基礎模型,使用包含 1000 個樣本的對齊訓練集進行了微調。為了區分每個說話者(用戶和助手),該研究在每段話語結束時引入一個特殊的回合結束 token(EOT),該 token 與停止生成的 EOS 起著相同的作用,但避免了與預訓練模型已注入的 EOS token 產生混淆。
該研究遵循標準的微調超參數,包括:使用 AdamW [Loshchilov 和 Hutter,2017] 微調 15 個 epoch,其中 β_1=0.9,β_2=0.95,權重衰減(weight decay)為 0.1。在沒有預熱(warmup)步驟的情況下,該研究將初始學習率(learning rate)設置為,并在訓練結束時衰減到。批大小設置為 32 個樣本(對于較小的模型設置為 64 個),超過 2048 個 token 的文本將被修剪。值得注意的是,這種方法與 norm 不同的是使用了殘差 dropout。該研究按照 Ouyang et al. [2022] 的方法,并在殘差連接(residual connection)上應用 dropout,底層 p_d=0.0,線性增長至最后一層 p_d=0.3(對于較小的模型 p_d=0.2)。該研究發現發現困惑度與生成質量無關,因此使用留出(held-out)50 樣本開發集手動選擇了第 5 個和第 10 個 epoch 之間的檢查點。
人類評估
該研究將 LIMA 與 SOTA 語言模型進行了比較評估,結果表明 LIMA 優于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 個樣本上訓練的 Alpaca 65B 參數復現版本,并且可以生成比 GPT-4 更好或與之媲美的回答。我們來看一下具體的實驗結果。
結果
下圖 1 顯示了人類偏好評估結果,圖 2 顯示了 GPT-4 偏好評估結果。該研究第一個觀察結果是,盡管使用 52 倍的數據進行訓練,Alpaca 65B 輸出的結果往往不如 LIMA,而使用高級對齊方法 RLHF 訓練的 DaVinci003 也是如此。
谷歌的 Bard 模型則顯示出與 DaVinci003 相反的趨勢,在 42% 的時間內產生比 LIMA 更好的回答;而 58% 的情況 LIMA 的回答與 Bard 相當或者更好。
最后,雖然 Claude 和 GPT-4 通常比 LIMA 表現更好,但在很多情況下 LIMA 確實產生了更好的回答。值得注意的是,即使是 GPT-4 也有 19% 的情況更喜歡 LIMA 的輸出。
分析
雖然研究者主要是針對 SOTA 模型來評估 LIMA,但值得注意的是,其中一些基線實際上是高度調諧的產物,在訓練過程中可能已經接觸了數百萬的真實用戶 prompt,因此創造了一個非常高的標準。因此,研究者通過手動分析 50 個隨機樣本來提供一個絕對評估(absolute assessment)。
他們將每個樣本標記為三個類別中的一個:
失敗,回答不符合 prompt 的要求;
通過,回答符合 prompt 的要求;
優秀,模型對 prompt 提供了一個極好的回答。
結果如圖 3 所示,50% 的 LIMA 答案被認為是優秀的,而且它能夠遵循 50 個分析的 prompt 中除 6 個以外的所有 prompt,研究者沒有觀察到失敗案例中的任何明顯的趨勢。
在 50 個分析樣本中,有 43 個具有標準格式要求(例如問答、書信)。該研究分析了 13 個額外的分布外樣本(總共 20 個),結果發現 20% 回答失敗,35% 通過,45% 非常好。雖然樣本數量非常小,但 LIMA 已經在其訓練分布之外實現了類似的性能結果,這表明 LIMA 能夠很好地泛化。
最后,該研究分析了訓練集中少量與安全相關的樣本(只有 13 個),并使用來自測試集的 30 個潛在敏感 prompt,發現 LIMA 安全地回答了其中的 80%(包括 10 個帶有惡意 prompt 中的 6 個)。在某些情況下,LIMA 完全拒絕執行任務,但當惡意意圖比較模糊時,LIMA 更有可能提供不安全的回答。
為什么「Less More」?對數據多樣性、質量和數量的消減
接下來,研究者通過消融實驗探討了訓練數據的多樣性、質量和數量的影響。他們觀察到,對于對齊的目的,擴大輸入多樣性和輸出質量有可衡量的積極影響,僅僅擴大數量則可能不會有。
多樣性。為了測試 prompt 多樣性的效果,同時控制質量和數量,研究者比較了經過質量過濾的 Stack Exchange 數據和 wikiHow 數據的訓練效果,前者有異質的 prompt 和極好的回答,后者則有同質的 prompt 和極好的回答。雖然在此將二者作為多樣性的代表進行比較,但研究者也表示,在從兩個不同來源的數據中采樣時,可能會有其他混淆因素。他們從每個來源中抽出 2000 個訓練樣本,如圖 5 顯示,更多樣化的 Stack Exchange 數據產生了明顯更好的性能。
質量。為了測試回答質量的影響,研究者從 Stack Exchange 中抽取了 2000 個樣本,沒有經過任何質量或風格的過濾,并將在這個數據集上訓練的模型與在過濾過的數據集上訓練的模型進行比較。如圖 5 所示,在經過過濾和未經過過濾的數據源上訓練的模型之間有 0.5 分的顯著差異。
數量。增加實例的數量是在許多機器學習環境中提高性能的一個著名策略。為了測試它對該設置的影響,研究者從 Stack Exchange 中抽取了指數級增加的訓練集。如圖 6 所示,訓練集規模的翻倍并沒有改善回答質量。這個結果表明,對齊不一定只受制于訓練樣本的數量,還與 prompt 多樣性函數有關。
多輪對話
一個僅在 1000 次單回合互動中進行微調的模型能否參與多回合對話?研究者還在 10 個現場對話中測試了 LIMA,將每個回答標記為失敗、通過或優秀。
對于一個零樣本聊天機器人來說,LIMA 的回答展現出了驚人的一致性,它能夠參考對話中以前的步驟信息。但很明顯的是,該模型的操作超出了分布范圍;在 10 個對話中的 6 個,LIMA 在 3 次互動中未能遵循 prompt。
為了提高它的對話能力,研究者收集了 30 個多輪對話鏈。在這些對話中,有 10 個對話是由作者創作的,而剩下的 20 個對話是基于 Stack Exchange 的評論鏈,研究者對其進行了編輯以適應助手的風格。利用合并后的 1030 個樣本,他們從預訓練的 LLaMa 模型中微調了一個新版本的 LIMA,并根據用于零樣本模型的相同 prompt 進行了 10 次現場對話。
圖 7 顯示了回答質量的分布。增加對話后,大大改善了生成質量,將優秀回答的比例從 45.2% 提高到 76.1%。此外,失敗率從每 42 個回合有 15 次失敗(零樣本)下降到每 46 次有 1 次失敗(微調)。
研究者進一步比較了整個對話的質量,發現微調模型在 10 個對話中的 7 個表現明顯更好,在 3 個對話中與零樣本模型打成平手。從僅僅 30 個樣本中獲得的這種能力的飛躍,以及零樣本模型可以進行對話的事實,加強了這樣的假設:這種能力是在預訓練中學習的,并且可以通過有限的監督來調用。
綜上所述,在 1000 個精心策劃的例子上對一個強大的預訓練語言模型進行微調,可以在廣泛的 prompt 中產生顯著的、有競爭力的結果。然而,這種方法也有局限性:首先,構建這樣的樣本所付出的腦力勞動是巨大的,而且很難擴大規模。其次,LIMA 并不像產品級模型那樣魯棒,雖然 LIMA 通常會產生良好的反應,但在解碼過程中一個不幸運的樣本或一個敵對的 prompt 往往會導致一個弱的反應。盡管如此,這項工作中提出的證據表明,用簡單的方法來解決復雜的對齊問題是有潛力的。
審核編輯 :李倩
-
AI
+關注
關注
87文章
30763瀏覽量
268909 -
語言模型
+關注
關注
0文章
521瀏覽量
10268 -
GPT
+關注
關注
0文章
354瀏覽量
15347
原文標題:沒有RLHF,一樣媲美GPT-4、Bard,Meta發布650億參數語言模型LIMA
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論