色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于表征工程的生成式語(yǔ)言大模型人類偏好對(duì)齊策略

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:FudanNLP ? 2024-01-03 14:25 ? 次閱讀

最近復(fù)旦大學(xué)自然語(yǔ)言處理組鄭驍慶和黃萱菁團(tuán)隊(duì)提出了基于表征工程(Representation Engineering)的生成式語(yǔ)言大模型人類偏好對(duì)齊方法RAHF(如圖1所示),作為基于人類反饋的強(qiáng)化學(xué)習(xí)算法RLHF[1]的代替方法之一,其性能上超過(guò)其他現(xiàn)有的替代方案,媲美RLHF。實(shí)現(xiàn)較為簡(jiǎn)單,訓(xùn)練時(shí)對(duì)于硬件資源要求也相對(duì)較低。

論 文 內(nèi)容

動(dòng)機(jī)

62b7baae-aa00-11ee-8b88-92fbcf53809c.png

圖1.不同人類偏好對(duì)齊算法的對(duì)比。(a)人類反饋的強(qiáng)化學(xué)習(xí)算法RLHF;(b)基于對(duì)比學(xué)習(xí)的偏好優(yōu)化方法DPO;(c)基于提示工程的HIR;(d) 基于表征工程的RAHF。

構(gòu)建類似ChatGPT生成式語(yǔ)言大模型一般要經(jīng)過(guò)語(yǔ)言模型提令精調(diào)強(qiáng)化學(xué)習(xí)三個(gè)主要訓(xùn)練步驟,其中第三步使用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)人類期望對(duì)齊既有一定的技術(shù)難度,又需要多次人工標(biāo)注反饋,因而實(shí)現(xiàn)上有一定挑戰(zhàn)。經(jīng)過(guò)前兩步語(yǔ)言模型和提令精調(diào)之后,語(yǔ)言大模型仍然會(huì)生成帶有偏見、歧視或者令人不適的回答。為了提升大模型的安全性、可用性和可信性,與人類期望對(duì)齊是必不可少的步驟。然而目前研究表明利用人類反饋的強(qiáng)化學(xué)習(xí)算法[1](RLHF)存在訓(xùn)練不穩(wěn)定、對(duì)超參數(shù)敏感和訓(xùn)練代價(jià)較高等問(wèn)題。

針對(duì)基于強(qiáng)化學(xué)習(xí)的人類偏好對(duì)齊方法的上述不足,最近提出了一些替代的方法,相關(guān)實(shí)現(xiàn)思路和方法包括:

(1)借助對(duì)比學(xué)習(xí)的方法[2-4],代表性工作為DPO(Direct preference optimization)[2],即提高符合人類偏好回復(fù)生成概率的同時(shí),降低人類滿意度較低回復(fù)的生成概率;

(2)基于提示工程的方法[5-6],代表性工作為HIR(Hindsight instruction relabeling)[5],即根據(jù)與人類偏好相符程度,設(shè)計(jì)不同的提示。在推理時(shí)使用匹配人類偏好較高的提示,從而引出更好的回答。

雖然上述方法都是Reward-free的方法(即不需要訓(xùn)練獎(jiǎng)勵(lì)評(píng)估模型),但實(shí)驗(yàn)表明這些替代強(qiáng)化學(xué)習(xí)方法存在容易受到訓(xùn)練集中噪聲樣本的影響(比如:錯(cuò)誤標(biāo)注、Dull Sentences和較短回復(fù)等)。主要原因是它們都是采用在樣本上直接精調(diào)的方式實(shí)現(xiàn)與人類偏好對(duì)齊,因而易受樣本質(zhì)量的影響,而基于人類反饋的強(qiáng)化學(xué)習(xí)算法先訓(xùn)練評(píng)估模型,然后采用評(píng)估模型的評(píng)分來(lái)引導(dǎo)模型的訓(xùn)練過(guò)程。即使訓(xùn)練樣本存在的噪聲,也通過(guò)評(píng)估模型的“過(guò)濾”,對(duì)最終模型不會(huì)產(chǎn)生直接的影響。

方法

為了獲得輕量級(jí)、易實(shí)現(xiàn)和Reward-free的人類偏好對(duì)齊方法,同時(shí)也緩解最終模型受訓(xùn)練樣本中噪聲數(shù)據(jù)的不利影響。受到表征工程Representation Engineering)[7]方面最新進(jìn)展的啟發(fā),我們提出了RAHF(Representation Alignment from Human Feedback)方法。在神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)權(quán)重決定了隱層表征、隱層表征決定了網(wǎng)絡(luò)輸出、網(wǎng)絡(luò)輸出決定了網(wǎng)絡(luò)行為(如:安全、真實(shí)、偏見等方面)。我們通過(guò)首先發(fā)現(xiàn)模型在生成不同質(zhì)量回復(fù)時(shí)網(wǎng)絡(luò)隱層激發(fā)模式及差異,然后利用差異來(lái)對(duì)模型行為進(jìn)行調(diào)整和操控。具體方法包括以下三個(gè)主要步驟:

(1)使用帶偏好注釋的數(shù)據(jù)集來(lái)讓大型語(yǔ)言模型“感知”人類的偏好;

(2)收集模型在不同偏好“刺激”情況下的隱層激活模式;

(3)利用收集到的激活模式及差異來(lái)調(diào)整模型使其與與人類偏好對(duì)齊。

我們嘗試了兩種方法讓模型“感知”人類偏好:?jiǎn)我荒P停≧AHF-SCIT)和二元模型(RAHF-DualLLMs)。都取得了不錯(cuò)的結(jié)果,雖然二元模型RAHF-DualLLMs性能更佳,但單一模型RAHF-SCIT實(shí)現(xiàn)更為簡(jiǎn)單,對(duì)硬件資源的要求也更低。

結(jié)果

我們?cè)趯?duì)話任務(wù)上對(duì)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所提出的RAHF人類偏好對(duì)齊方法在各項(xiàng)指標(biāo)上都優(yōu)于其他非強(qiáng)化學(xué)習(xí)方法,并取得了與RLHF-PPO相媲美的結(jié)果。如表1所示,在Anthropic-HH數(shù)據(jù)集上相對(duì)于首選回復(fù)的勝率(結(jié)果使用GPT-4進(jìn)行評(píng)判),我們所提出的RAHF-DualLLMs超過(guò)了除RLHF-PPO之外的所有代替方法,并且與RLHF-PPO僅有0.01的差距。表2報(bào)告了在不同生成采樣溫度下,偏好注釋數(shù)據(jù)上我們自己所訓(xùn)練的獎(jiǎng)勵(lì)模型(Reward model)和第三方提供的獎(jiǎng)勵(lì)模型上的各方法的平均得分比較,這些數(shù)據(jù)也與表1的結(jié)果相吻合,并且表現(xiàn)出相似的趨勢(shì)。

62ce68ee-aa00-11ee-8b88-92fbcf53809c.png

表1. 在Anthropic-HH數(shù)據(jù)集上相對(duì)于首選回復(fù)的勝率(結(jié)果使用GPT-4進(jìn)行評(píng)判)。

62d67b42-aa00-11ee-8b88-92fbcf53809c.png

表2. 在不同生成采樣溫度下,偏好注釋數(shù)據(jù)上所訓(xùn)練的獎(jiǎng)勵(lì)模型(Reward model)和第三方提供的獎(jiǎng)勵(lì)模型上的各方法的平均得分比較。

這項(xiàng)工作我們嘗試了一種受認(rèn)知神經(jīng)科學(xué)理論啟發(fā)的基于表征工程來(lái)實(shí)現(xiàn)生成式語(yǔ)言大模型與人類偏好對(duì)齊的策略,旨在提出一種輕量級(jí)和易實(shí)現(xiàn)的解決方案。目前仍然還有許多可改進(jìn)的空間,我們希望這項(xiàng)研究能夠有助于更可控人工智能技術(shù)的發(fā)展。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:基于表征工程的生成式語(yǔ)言大模型人類偏好對(duì)齊

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    的未來(lái)發(fā)展方向進(jìn)行了展望,包括跨領(lǐng)域、跨模態(tài)和自動(dòng)提示生成能力方向,為讀者提供了對(duì)未來(lái)技術(shù)發(fā)展的深刻見解。《大語(yǔ)言模型原理與工程實(shí)踐》是
    發(fā)表于 04-30 15:35

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

    學(xué)習(xí)能力。這些模型生成能力強(qiáng)和靈活性強(qiáng)為特點(diǎn),逐漸演變成一種通用計(jì)算平臺(tái)。其參數(shù)多樣性、生成能力和涌現(xiàn)性使其不僅在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    ,這也是如今生成 AI 中大語(yǔ)言模型最流行訓(xùn)練架構(gòu)。(3) Encoder-Decoder預(yù)訓(xùn)練語(yǔ)言
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    如此卓越的性能,就是通過(guò)其核心能力對(duì)海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再進(jìn)行微調(diào)或?qū)ζ涫裁葱透玫母鶕?jù)人類的指令和偏好,發(fā)揮這些性能。隨著語(yǔ)言模型參數(shù)的不斷增加,
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    對(duì)齊訓(xùn)練基于人類反饋和標(biāo)注的偏好數(shù)據(jù)進(jìn)行,使模型輸出內(nèi)容與人類價(jià)值觀致。此舉提高
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    ,它通過(guò)抽象思考和邏輯推理,協(xié)助我們應(yīng)對(duì)復(fù)雜的決策。 相應(yīng)地,我們?cè)O(shè)計(jì)了兩類任務(wù)來(lái)檢驗(yàn)大語(yǔ)言模型的能力。類是感性的、無(wú)需理性能力的任務(wù),類似于人類的系統(tǒng)1,如情感分析和抽取
    發(fā)表于 05-07 17:21

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    開拓深度學(xué)習(xí)的思路。對(duì)于新涌現(xiàn)的大語(yǔ)言模型的能力,主要是表現(xiàn)在學(xué)習(xí)能力的提升、語(yǔ)言理解和生成能力、創(chuàng)新和探索的能力。 基礎(chǔ)技術(shù) 詞表示技術(shù) 詞表示
    發(fā)表于 05-12 23:57

    語(yǔ)言模型:原理與工程實(shí)踐+初識(shí)2

    系列變革。 大語(yǔ)言模型是深度學(xué)習(xí)的應(yīng)用之,可以認(rèn)為,這些模型的目標(biāo)是模擬人類交流,為了理解
    發(fā)表于 05-13 00:09

    一種基于策略元素三元組的策略描述語(yǔ)言

    分析常用策略描述語(yǔ)言的缺點(diǎn),總結(jié)策略的主要配置方式,分析策略的組成成員,提出策略主要元素ECA三元組并給出其關(guān)系,設(shè)計(jì)
    發(fā)表于 04-09 09:22 ?19次下載

    一種基于域的遞增策略部署模型

    在介紹策略、域和策略目標(biāo)等基本概念的基礎(chǔ)上,提出了個(gè)通用性的策略部署模型,該模型采用基于域的分
    發(fā)表于 05-25 21:47 ?7次下載

    一種基于用戶偏好的權(quán)重搜索及告警選擇方法

    用戶在現(xiàn)有交互方式下選擇最為嚴(yán)重的告警時(shí)完全依據(jù)其個(gè)人偏好,而未考慮處理不同告警所需成本的差異性問(wèn)題。為此,提出一種基于用戶偏好的權(quán)重搜索及告警選擇方法。挖掘用戶對(duì)不同嚴(yán)重程度告警的偏好
    發(fā)表于 04-29 16:26 ?4次下載
    <b class='flag-5'>一種</b>基于用戶<b class='flag-5'>偏好</b>的權(quán)重搜索及告警選擇方法

    LLMs實(shí)際上在假對(duì)齊

    LLM的訓(xùn)練分為預(yù)訓(xùn)練和安全訓(xùn)練。預(yù)訓(xùn)練是指在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,因此LLM獲得了各種強(qiáng)大的能力,如文本生成、推理和主題知識(shí)等。安全訓(xùn)練使用有監(jiān)督的微調(diào)、RLHF、RLAIF和其他技術(shù)來(lái)對(duì)齊模型
    的頭像 發(fā)表于 11-20 17:41 ?1275次閱讀
    LLMs實(shí)際上在假<b class='flag-5'>對(duì)齊</b>!

    語(yǔ)言模型中的語(yǔ)言與知識(shí):一種神秘的分離現(xiàn)象

    自然語(yǔ)言處理領(lǐng)域存在著個(gè)非常有趣的現(xiàn)象:在多語(yǔ)言模型中,不同的語(yǔ)言之間似乎存在著一種隱含的
    發(fā)表于 02-20 14:53 ?805次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語(yǔ)言</b>與知識(shí):<b class='flag-5'>一種</b>神秘的分離現(xiàn)象

    2024 年 19 最佳大型語(yǔ)言模型

    大型語(yǔ)言模型是2023年生成人工智能熱潮背后的推動(dòng)力。然而,它們已經(jīng)存在了段時(shí)間了。LLM是黑盒AI系統(tǒng),它使用深度學(xué)習(xí)對(duì)超大數(shù)據(jù)集進(jìn)行
    的頭像 發(fā)表于 08-30 12:56 ?926次閱讀
    2024 年 19 <b class='flag-5'>種</b>最佳大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    文詳解視覺語(yǔ)言模型

    視覺語(yǔ)言模型(VLM)是一種多模態(tài)、生成 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1612次閱讀
    <b class='flag-5'>一</b>文詳解視覺<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>
    主站蜘蛛池模板: 耻辱诊察室1一4集动漫在线观看 | 伊人亚洲AV久久无码精品 | 被爽到叫呻呤视频免费视频 | 超碰高清熟女一区二区 | 91国在线啪精品一区 | 久久久久国产一级毛片高清片 | 免费看大黄高清网站视频在线 | 青青青青久久久久国产的 | 歪歪漫画羞羞漫画国产 | 国产精品禁18久久久夂久 | 在线中文高清资源免费观看 | 国产欧美日韩精品a在线观看高清 | 妇少水多18P蜜泬17P亚洲乱 | 美女不要啊 | 亚洲视频一| 国产成人精品男人的天堂网站 | 国产日韩精品一区二区三区在线 | 国产在线亚洲精品观 | 老司机福利视频一区在线播放 | 高清午夜福利电影在线 | 小黄文污到你湿 | 亚洲国产成人爱AV在线播放丿 | 99午夜高清在线视频在观看 | 亚洲国产成人久久一区www妖精 | 国产三级在线观看视频 | 国精产品一区一区三区有限 | 中文无码第3页不卡av | 在线播放真实国产乱子伦 | 97在线国内自拍视频 | 武汉美女洗澡 | 国产人妻人伦精品无码.麻豆 | 最新黄yyid | 吻嘴胸全身好爽床大全 | 玩高中女同桌肉色短丝袜脚文 | 在线免费观看国产精品 | 大地影院免费观看视频 | 97国产蝌蚪视频在线观看 | 色列少女漫画 | 试看做受120秒免费午夜剧场 | 强伦姧久久久久久久久久 | 漂亮的保姆3集电影免费观看中文 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品