色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一樣媲美GPT-4、Bard,Meta發布650億參數語言模型LIMA

AI智勝未來 ? 來源:機器之心 ? 2023-05-24 11:46 ? 次閱讀

不需要 RLHF,LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美,甚至更好。

作為當前 AI 領域的頂流,ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展現出強大的能力,這離不開其背后的生成領域訓練新范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習的方式依據人類反饋優化語言模型。

使用 RLHF 方法,大型語言模型可與人類偏好保持對齊,遵循人類意圖,最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標注和評估,因此成本非常高昂。

最近,來自 Meta AI 等機構的研究者在一項研究中指出:在對齊方面,少即是多。

e9307368-f967-11ed-90ce-dac502259ad0.png

論文地址:https://arxiv.org/abs/2305.11206

該研究使用了一個 65B 參數的 LLaMa 模型(該模型稱為 LIMA)在 1000 個精選樣本上進行有監督學習,在完全沒使用 RLHF 方法的情況下,LIMA 表現出非常強大的性能,并且能夠很好地泛化到訓練數據以外的任務上。在人類評估結果中,LIMA 甚至可與 GPT-4、Bard、DaVinci003 相媲美。圖靈獎得主 Yann LeCun 也轉推稱贊這項研究。

e9374044-f967-11ed-90ce-dac502259ad0.png

接下來,讓我們看一下研究細節。

研究概述

首先,我們知道訓練大型語言模型需要兩個步驟:

在原始內容中進行無監督預訓練,以學習通用表征;

大規模指令微調和強化學習,以更好地對齊最終任務和用戶偏好。

該研究訓練了一個 65B 參數的 LLaMa 語言模型「LIMA」,以衡量這兩個步驟的重要程度。LIMA 僅在 1000 個精選 prompt 和回答(response)上使用標準監督損失進行微調,不涉及任何強化學習或人類偏好建模。

LIMA 能夠從訓練數據的少量樣本中學習遵循特定的回答格式,包括從計劃旅行行程到推測備用歷史的復雜查詢。并且,該模型能夠很好地泛化到訓練數據以外的新任務上。在一項人體對照試驗中,LIMA 在 43% 的病例中療效都與 GPT-4 媲美甚至更好;相比于 Bard,占比能夠達到 58%;更別說與使用人類反饋訓練的 DaVinci003 對比了,這個數字高達 65%。

該研究根據對比結果總結道:大型語言模型中幾乎所有的知識都是在預訓練期間學習的,并且想讓模型產生高質量的輸出只需要部分必要的指令調優數據。這一點與 RLHF 方法不同,將有助于大型語言模型(LLM)降低訓練成本。

數據對齊

研究者提出了表面對齊假設:模型的知識和能力幾乎完全是在預訓練期間學習的,而對齊則是教會它與用戶交互時如何選擇子分布。如果假設正確,對齊主要有關于學習方式,那么該假設的一個推論是,人們可以用相當少的樣本充分調整預訓練的語言模型。

為此,研究者收集了 1000 個 prompt 和回答的數據集,其中輸出 (回答) 在風格上一致,但輸入 (prompt) 是不同的。他們想找出一種有幫助的、AI 助手風格的輸出。精選樣本的來源主要包括社區問答和手動撰寫兩部分。除此之外,團隊還收集了一個包含 300 個 prompt 的測試集以及一個包含 50 個 prompt 的開發集。表 1 展示了不同數據源的概覽,并提供了一些統計數據。

e95a845a-f967-11ed-90ce-dac502259ad0.png

社區問答

研究者從三個社區問答網站收集數據,分別是 Stack Exchange、wikiHow 和 Pushshift Reddit 數據集。來自 Stack Exchange 和 wikiHow 的答案與 AI 智能體的行為很一致,因此可以深度挖掘,而 Reddit 的高贊答案往往是幽默的或帶有惡意,需要一種人工的方法來管理回答,遵循適當的風格。

人工撰寫的樣本

為進一步豐富數據,研究團隊還自己制作 prompt,指定兩組作者 (分別為 A 組和 B 組),由他們自己或朋友的興趣各自創建 250 個 prompt。從 A 組中選擇 200 個 prompt 進行訓練,并將 50 個 prompt 作為保留的開發集。過濾部分有問題的 prompt 后,將 B 組中剩余的 230 個 prompt 用于測試。

訓練 LIMA

該研究以 LLaMa 65B [Touvron et al., 2023] 作為基礎模型,使用包含 1000 個樣本的對齊訓練集進行了微調。為了區分每個說話者(用戶和助手),該研究在每段話語結束時引入一個特殊的回合結束 token(EOT),該 token 與停止生成的 EOS 起著相同的作用,但避免了與預訓練模型已注入的 EOS token 產生混淆。

該研究遵循標準的微調超參數,包括:使用 AdamW [Loshchilov 和 Hutter,2017] 微調 15 個 epoch,其中 β_1=0.9,β_2=0.95,權重衰減(weight decay)為 0.1。在沒有預熱(warmup)步驟的情況下,該研究將初始學習率(learning rate)設置為e96b8368-f967-11ed-90ce-dac502259ad0.png,并在訓練結束時衰減到e9713470-f967-11ed-90ce-dac502259ad0.png。批大小設置為 32 個樣本(對于較小的模型設置為 64 個),超過 2048 個 token 的文本將被修剪。值得注意的是,這種方法與 norm 不同的是使用了殘差 dropout。該研究按照 Ouyang et al. [2022] 的方法,并在殘差連接(residual connection)上應用 dropout,底層 p_d=0.0,線性增長至最后一層 p_d=0.3(對于較小的模型 p_d=0.2)。該研究發現發現困惑度與生成質量無關,因此使用留出(held-out)50 樣本開發集手動選擇了第 5 個和第 10 個 epoch 之間的檢查點。

人類評估

該研究將 LIMA 與 SOTA 語言模型進行了比較評估,結果表明 LIMA 優于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 個樣本上訓練的 Alpaca 65B 參數復現版本,并且可以生成比 GPT-4 更好或與之媲美的回答。我們來看一下具體的實驗結果。

結果

下圖 1 顯示了人類偏好評估結果,圖 2 顯示了 GPT-4 偏好評估結果。該研究第一個觀察結果是,盡管使用 52 倍的數據進行訓練,Alpaca 65B 輸出的結果往往不如 LIMA,而使用高級對齊方法 RLHF 訓練的 DaVinci003 也是如此。

e981925c-f967-11ed-90ce-dac502259ad0.png

谷歌的 Bard 模型則顯示出與 DaVinci003 相反的趨勢,在 42% 的時間內產生比 LIMA 更好的回答;而 58% 的情況 LIMA 的回答與 Bard 相當或者更好。

最后,雖然 Claude 和 GPT-4 通常比 LIMA 表現更好,但在很多情況下 LIMA 確實產生了更好的回答。值得注意的是,即使是 GPT-4 也有 19% 的情況更喜歡 LIMA 的輸出。

分析

雖然研究者主要是針對 SOTA 模型來評估 LIMA,但值得注意的是,其中一些基線實際上是高度調諧的產物,在訓練過程中可能已經接觸了數百萬的真實用戶 prompt,因此創造了一個非常高的標準。因此,研究者通過手動分析 50 個隨機樣本來提供一個絕對評估(absolute assessment)。

他們將每個樣本標記為三個類別中的一個:

失敗,回答不符合 prompt 的要求;

通過,回答符合 prompt 的要求;

優秀,模型對 prompt 提供了一個極好的回答。

結果如圖 3 所示,50% 的 LIMA 答案被認為是優秀的,而且它能夠遵循 50 個分析的 prompt 中除 6 個以外的所有 prompt,研究者沒有觀察到失敗案例中的任何明顯的趨勢。

e98a7b56-f967-11ed-90ce-dac502259ad0.png

在 50 個分析樣本中,有 43 個具有標準格式要求(例如問答、書信)。該研究分析了 13 個額外的分布外樣本(總共 20 個),結果發現 20% 回答失敗,35% 通過,45% 非常好。雖然樣本數量非常小,但 LIMA 已經在其訓練分布之外實現了類似的性能結果,這表明 LIMA 能夠很好地泛化。

最后,該研究分析了訓練集中少量與安全相關的樣本(只有 13 個),并使用來自測試集的 30 個潛在敏感 prompt,發現 LIMA 安全地回答了其中的 80%(包括 10 個帶有惡意 prompt 中的 6 個)。在某些情況下,LIMA 完全拒絕執行任務,但當惡意意圖比較模糊時,LIMA 更有可能提供不安全的回答。

為什么「Less More」?對數據多樣性、質量和數量的消減

接下來,研究者通過消融實驗探討了訓練數據的多樣性、質量和數量的影響。他們觀察到,對于對齊的目的,擴大輸入多樣性和輸出質量有可衡量的積極影響,僅僅擴大數量則可能不會有。

e9a38448-f967-11ed-90ce-dac502259ad0.png

多樣性。為了測試 prompt 多樣性的效果,同時控制質量和數量,研究者比較了經過質量過濾的 Stack Exchange 數據和 wikiHow 數據的訓練效果,前者有異質的 prompt 和極好的回答,后者則有同質的 prompt 和極好的回答。雖然在此將二者作為多樣性的代表進行比較,但研究者也表示,在從兩個不同來源的數據中采樣時,可能會有其他混淆因素。他們從每個來源中抽出 2000 個訓練樣本,如圖 5 顯示,更多樣化的 Stack Exchange 數據產生了明顯更好的性能。

質量。為了測試回答質量的影響,研究者從 Stack Exchange 中抽取了 2000 個樣本,沒有經過任何質量或風格的過濾,并將在這個數據集上訓練的模型與在過濾過的數據集上訓練的模型進行比較。如圖 5 所示,在經過過濾和未經過過濾的數據源上訓練的模型之間有 0.5 分的顯著差異。

數量。增加實例的數量是在許多機器學習環境中提高性能的一個著名策略。為了測試它對該設置的影響,研究者從 Stack Exchange 中抽取了指數級增加的訓練集。如圖 6 所示,訓練集規模的翻倍并沒有改善回答質量。這個結果表明,對齊不一定只受制于訓練樣本的數量,還與 prompt 多樣性函數有關。

e9ab62e4-f967-11ed-90ce-dac502259ad0.png

多輪對話

一個僅在 1000 次單回合互動中進行微調的模型能否參與多回合對話?研究者還在 10 個現場對話中測試了 LIMA,將每個回答標記為失敗、通過或優秀。

對于一個零樣本聊天機器人來說,LIMA 的回答展現出了驚人的一致性,它能夠參考對話中以前的步驟信息。但很明顯的是,該模型的操作超出了分布范圍;在 10 個對話中的 6 個,LIMA 在 3 次互動中未能遵循 prompt。

為了提高它的對話能力,研究者收集了 30 個多輪對話鏈。在這些對話中,有 10 個對話是由作者創作的,而剩下的 20 個對話是基于 Stack Exchange 的評論鏈,研究者對其進行了編輯以適應助手的風格。利用合并后的 1030 個樣本,他們從預訓練的 LLaMa 模型中微調了一個新版本的 LIMA,并根據用于零樣本模型的相同 prompt 進行了 10 次現場對話。

圖 7 顯示了回答質量的分布。增加對話后,大大改善了生成質量,將優秀回答的比例從 45.2% 提高到 76.1%。此外,失敗率從每 42 個回合有 15 次失敗(零樣本)下降到每 46 次有 1 次失敗(微調)。

研究者進一步比較了整個對話的質量,發現微調模型在 10 個對話中的 7 個表現明顯更好,在 3 個對話中與零樣本模型打成平手。從僅僅 30 個樣本中獲得的這種能力的飛躍,以及零樣本模型可以進行對話的事實,加強了這樣的假設:這種能力是在預訓練中學習的,并且可以通過有限的監督來調用。

e9c1e9d8-f967-11ed-90ce-dac502259ad0.png

綜上所述,在 1000 個精心策劃的例子上對一個強大的預訓練語言模型進行微調,可以在廣泛的 prompt 中產生顯著的、有競爭力的結果。然而,這種方法也有局限性:首先,構建這樣的樣本所付出的腦力勞動是巨大的,而且很難擴大規模。其次,LIMA 并不像產品級模型那樣魯棒,雖然 LIMA 通常會產生良好的反應,但在解碼過程中一個不幸運的樣本或一個敵對的 prompt 往往會導致一個弱的反應。盡管如此,這項工作中提出的證據表明,用簡單的方法來解決復雜的對齊問題是有潛力的。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30763

    瀏覽量

    268909
  • 語言模型
    +關注

    關注

    0

    文章

    521

    瀏覽量

    10268
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15347

原文標題:沒有RLHF,一樣媲美GPT-4、Bard,Meta發布650億參數語言模型LIMA

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Llama 3 與 GPT-4 比較

    沿。 、技術架構 Llama 3和GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama 3 采用了
    的頭像 發表于 10-27 14:17 ?334次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    款基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計,其獨特的作用在于,讓人們能夠用GPT-4來查找G
    的頭像 發表于 06-29 09:55 ?543次閱讀

    OpenAI API Key獲取:開發人員申請GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語言理解和生成能力,成為了許多開發者的首選工具。獲取GPT-4 API Key并將其應用于項目,如開發
    的頭像 發表于 06-24 17:40 ?2343次閱讀
    OpenAI API Key獲取:開發人員申請<b class='flag-5'>GPT-4</b> API Key教程

    開發者如何調用OpenAI的GPT-4o API以及價格詳情指南

    ?目前,OpenAI新模型GPT-4o和GPT-4 Turbo的價格如下: GPT-4o 對比 GPT-4 Turbo
    的頭像 發表于 05-29 16:00 ?1.1w次閱讀
    開發者如何調用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價格詳情指南

    Meta高管稱大語言模型永遠無法像人類一樣

    Meta的人工智能主管楊立昆近日表示,盡管ChatGPT等生成式人工智能產品備受矚目,但其背后的大型語言模型(LLM)永遠無法實現像人類一樣的推理和計劃能力。
    的頭像 發表于 05-27 09:50 ?436次閱讀

    阿里云正式發布通義千問2.5,中文性能全面趕超GPT-4 Turbo

    在通義大模型發布周年之際,阿里云邁出了歷史性的步。近日,阿里云正式發布通義千問2.5版本,其性能全面超越
    的頭像 發表于 05-13 11:16 ?970次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方面表現出色,超越了GPT-4
    的頭像 發表于 05-09 14:17 ?952次閱讀

    商湯科技推出6000參數模型,全力對標GPT-4 Turbo?

    稍晚些時候,商湯科技發布公告稱,4月23日在上海臨港AIDC舉辦技術交流日活動,推出了6000參數模型(日日新5.0),其知識、數學、推
    的頭像 發表于 04-25 10:11 ?392次閱讀

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布
    的頭像 發表于 04-24 16:49 ?1100次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據悉,此模型沿用GPT-4 Turbo系列特有的12.8萬token窗口規模及截至2023年12月的知識庫架構,其創新亮點則是強大的視覺理解功能。
    的頭像 發表于 04-10 10:49 ?405次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發表于 03-13 13:42 ?724次閱讀

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    世的GPT-4被拉下神壇, Claude 3很可能對GPT-4實現全方位的碾壓 。 Anthropic發布3個模型,全方位實現
    的頭像 發表于 03-06 22:22 ?635次閱讀
    新火種AI|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內的所
    的頭像 發表于 03-05 09:58 ?649次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業Anthropic震撼發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵領域展現出卓越性能,成功擊敗了此前被廣泛認為是全球最強AI
    的頭像 發表于 03-05 09:49 ?680次閱讀

    全球最強大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了場革命性的突破。Anthropic公司發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵指標
    的頭像 發表于 03-05 09:42 ?645次閱讀
    主站蜘蛛池模板: 香港论理午夜电影网| 久久久久综合网| 豆奶视频在线高清观看| 2021全国精品卡一卡二| 亚洲在线成色综合网站| 亚洲成在人线视频| 小小水蜜桃免费影院| 四虎影视永久无码精品| 日本19禁啪啪吃奶大尺度| 轻轻挺进女教师的身体| 暖暖 免费 高清 日本视频5| 就去色电影| 龙岩综合频道| 麻豆啊传媒app黄版破解免费| 嘟嘟嘟影院免费观看视频| 草久久久久| 成人精品在线视频| 第一次处破女高清电影| 成人啪啪色婷婷久色社区| 超清无码波多野吉衣与黑人| 大桥未久电影在线观看| 东京热百度影音| 国产互换后人妻的疯狂VIDEO| av天堂网2017avtt| 99久久久国产精品免费调教| 99视频全部看免费观| no视频在线观看| 俄罗斯性xxxx| 国产精品资源在线观看网站| 国精一区二区AV在线观看网站| 国产午夜永久福利视频在线观看| 国产精品永久免费视频| 好大好爽CAO死我了BL| 久久精品国产免费| 免费女人光着全身网站| 秋霞三级理伦免费观看| 甜性涩爱dvd| 伊人久久丁香色婷婷啪啪| 97人人爽人人爽人人人片AV| 成 人 网 站免费观看| 国产精品亚洲精品久久品|