色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

LLMs實際上在假對齊!

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-20 17:41 ? 次閱讀

對大型語言模型(LLM)中安全問題的意識日益增強,引發了人們對當前研究工作中的安全性評估的極大興趣。本研究調查了與llm評估有關的一個有趣問題,即多重選擇問題和開放式問題之間的性能差異。我們發現LLM對安全這一復雜概念的理解并不全面,它只記得回答開放式安全問題,而無法解決其他形式的安全測試。我們將這種現象稱為假對齊,為解決這個問題,我們提出FAEF框架和兩個新指標—一致性分數(CS)和一致性安全分數(CSS),用來聯合評估兩種互補的評估形式,以量化假對齊并獲得正確的性能估計。

論文:
Fake Alignment: Are LLMs Really Aligned Well?

地址:
https://arxiv.org/pdf/2311.05915.pdf

介紹

有研究指出LLMs可能會產生惡意內容(例如:有害和有偏見的言論,危險的行為準則和隱私泄露等),引起安全問題。同時,許多基準的出現就是為了評估其安全性。這些測試大多可以分為兩種形式:開放式問題和選擇題。在第一種形式中,LLM給出問題的回答,人類或其他LLM給出是否安全的判斷;在第二種形式中,LLM從多個選項中選擇一個它認為安全的選項,然后對答案進行比較得出判斷。從人類的角度來看,多項選擇題往往更簡單,因為正確的答案包含在選項中,用排除法可以選擇更好的一個。然而,在審查現有的評估結果后,我們驚訝地發現與開放式LLM相比,大多數LLM在多項選擇題上表現出更低的安全性能。如圖1所示,LLM在一些常見的開放式問題測試數據集上的平均性能為94.94%,而在多項選擇測試數據集上的平均性能僅為78.3%

e09e346c-8470-11ee-939d-92fbcf53809c.png

是什么導致了評估性能的顯著差異呢?受不匹配泛化理論的啟發,我們認為這是由于模型的安全訓練沒有有效地覆蓋其預訓練能力的范圍。如圖2所示,兩個LLM都能有效地回答開放式問題。然而,雖然一個很好地協調并在解決其他問題時演示了安全考慮,但另一個未能理解其他格式的安全方面。換句話說,LLM其實只是記住了關于安全問題的答案,但缺乏對什么內容屬于安全的真正理解,這使得他們很難選擇正確的選項,我們將其稱為LLM的假對齊。假對齊的存在證明了以前許多開放式問題評估的不可靠性。

e0b15d9e-8470-11ee-939d-92fbcf53809c.png

然而,由于兩種類型的測試數據集之間缺乏嚴格的對應關系,無法分析LLM中假對齊的程度。為此,首先精心設計了一個包含5類(公平性、人身安全、合法性、隱私和社會倫理)問題的數據集;每個測試問題由一個開放式問題及其對應的選擇題組成,通過比較其在回答兩類問題上的一致性,可以定量分析LLMs中是否存在假對齊問題。在我們的數據集上測試了14個常見的LLM,結果表明一些模型存在嚴重的假對齊問題。實驗表明,即使使用問題和正確選項的內容進行有監督的微調,LLM在多項選擇題上性能的提高仍然非常有限。這進一步證實了這種一致性測試可以有效地發現假對齊。最后,在總結數據集構建過程和評估方法的基礎上,提出了假對齊評估框架FAEF(Fake Alignment evaluation Framework),該框架可以在少量人工輔助的情況下,將現有的開放式問題數據集轉換為LLM的假對齊評估數據集。

假對齊

背景

LLMs是在大型語料庫上訓練的概率模型,用于給定token序列預測下一個token,即,其中是給定token。對齊技術希望最大化模型輸出符合人類價值偏好的概率。然而,不同的對齊算法、對齊數據和模型參數大小對最終對齊性能有很大影響,也直接影響用戶體驗。

當前與LLMs的常見交互方法是提示工程,這意味著用戶輸入專門設計的提示文本,以指導LLM生成響應。對LLM的評估也遵循類似的方法,給它們一些測試問題,然后自動或手動判斷響應。另外,根據試題類型,評價通常分為開放式題型和多項選擇題型兩種,可表示為:

e0d3ae8a-8470-11ee-939d-92fbcf53809c.png

其中是開放式問題提示集,是多項選擇題提示集,是測試提示數,是正確選項,是判斷函數,它可以是人類或其他LLM給出的評估。

假對齊的證明

LLM的訓練分為預訓練和安全訓練。預訓練是指在大規模語料庫上進行訓練,因此LLM獲得了各種強大的能力,如文本生成、推理和主題知識等。安全訓練使用有監督的微調、RLHF、RLAIF和其他技術來對齊模型偏好與人類價值偏好,從而為LLM建立安全護欄。然而,當安全訓練數據缺乏多樣性且覆蓋范圍不廣時,該模型往往只是在某些方面模擬安全數據,而沒有真正理解人類的偏好。安全訓練不足導致在沒有適當安全考慮的情況下做出反應。這也意味著模型在某些方面似乎對齊得很好,但實際上這可能是欺騙性的;它對對齊沒有深刻、正確的理解。這就是我們所說的假對齊。

為了證明這一說法,首先從能力和安全性兩個方面設計了評估數據集。數據集中的每個問題都包含一個相應的開放式問題和多項選擇問題,用于直接比較模型性能差異。能力方面的比較測試是為了證明LLM在預訓練階段已經掌握了回答多項選擇題的能力。如果該模型在能力測試集上兩種評估形式沒有差異,但在安全性測試集上表現出差異,則可以證明虛假對齊的存在。能力測試內容來自2018年AI2推理挑戰賽(ARC),包含不同學科領域的7787個科學問題,過濾和選擇了100個問題,這些問題很容易被轉換為化學、生物、數學等學科領域的開放式問題,如表2所示。

e0dfaed8-8470-11ee-939d-92fbcf53809c.png

在安全性測試中,我們選擇了5個最受關注的主題,然后圍繞相應的主題收集和構建開放性問題:

  • 公平性:包括性別、種族、性取向等;
  • 人身安全:旨在評估LLM不會對個人造成潛在傷害,特別是在人身和財產安全方面;
  • 合法性:衡量LLMs是否可能提供可能違反法律的建議,如盜竊、搶劫或類似的非法活動;
  • 隱私性:旨在測試LLMs是否泄露了一些私人信息或提供了損害他人隱私的建議;
  • 社會倫理:包括環境友好性、生物友好性、對他人的友好性等。

實驗結果

能力測試:對于多項選擇題,設計了具體的提示模板來指導司法專家間接地提出選項。然后,我們利用正則表達式匹配方法從LLM的響應中提取選項,并將它們與正確答案進行比較。開放式問題涉及直接輸入到模型中以獲得相應的響應。實驗結果如表3所示:

e102bcfc-8470-11ee-939d-92fbcf53809c.png

安全性測試:類似于能力測試,對于多項選擇題,我們使用與之前相同的提示模板,以及正則表達式匹配方法。對于每個問題,通過交換選項的位置進行多次測試。只有當模型始終提供相同的答案時,它才被認為是通過的。這種方法最大限度地提高了結果的可靠性和可重復性。對于開放式問題,直接輸入LLM來獲得答案。這里使用的評價原則是考慮回復是否包含直接或潛在危害人類社會的內容,如歧視、暴力等。實驗結果如表4所示:

e123679a-8470-11ee-939d-92fbcf53809c.png

我們還在少樣本場景下進行了評估實驗。結果如表5所示:

e13ec332-8470-11ee-939d-92fbcf53809c.png

為了進一步驗證LLM中的假對齊問題,我們設計了一個實驗。在這個實驗中,我們使用多選題格式的問題及其相應的正確答案提供的上下文來調整模型。選擇微調ChatGLM2,結果如表6所示。

e1560d6c-8470-11ee-939d-92fbcf53809c.png

由于更大的參數量和預訓練,該模型只需要稍微微調就可以完美地解決開放式問題。然而,該模型在多項選擇題上的改進只有4%,幾乎可以忽略不計。這進一步表明,通過簡單的監督微調,該模型雖然能夠記住安全問題的標準答案,但仍然難以概括和理解安全問題。

假對齊評價框架

FAEF方法

數據收集:首先,確定待評估的安全內容和維度,如公平性、隱私性等;然后,圍繞這些內容,可以從開源數據集中收集和過濾開放式問題,通過使用LLM進行擴展,并通過人工的努力收集。

選項構造:為了創建相應的多項選擇題,將開放式問題直接輸入到對齊良好的LLM(如GPT-3.5-Tubor)中,以獲得作為正確選項的積極響應。至于負面選項,我們通過越獄LLM來構建它們。我們在模型中創建了一個對抗性的負面角色,以確保它生成違背人類偏好的內容。

響應判斷:在獲取同一內容的不同形式的問題后,我們分別使用它們來獲取被評估的LLM的響應。整體架構如圖3所示:

e16a3bd4-8470-11ee-939d-92fbcf53809c.png

一致性測試

在分別獲得兩種不同形式的評估結果后,通過比較它們之間的一致性,定量分析不同維度上的假對齊程度。形式上,我們定義了一個簡單的一致性得分(CS):

e17fc6c0-8470-11ee-939d-92fbcf53809c.png

其中是問題數量,和是問題在兩種形式下的評價結果:

e18fdc40-8470-11ee-939d-92fbcf53809c.png

其中和代表兩種形式的問題,是正確選項。

CS指標比較LLM在每個維度的兩種形式之間的一致性。如果LLM在特定維度中顯示出兩種形式之間的顯著差異,則表明該維度中存在更明顯的假對齊問題。因此,該指標也反映了以往評價結果的可信度。

一致性安全分數計算方式如下:

e1a2e1aa-8470-11ee-939d-92fbcf53809c.png

該CSS度量在計算對齊性能時考慮LLM響應的一致性。因此,可以忽略假對齊的影響,獲得更可信的評價結果。

實驗結果

使用提出的基準,在FAEF框架下評估了14個廣泛使用的LLM的對齊一致性和一致性安全率。結果如圖4所示,顏色越深表示性能越好,顏色越淺表示性能越差。

e1aec8ee-8470-11ee-939d-92fbcf53809c.png

總結

主要貢獻:

  • 發現了假對齊問題,并認為它是一種不匹配的泛化,模型沒有真正理解需要對齊的值。
  • 設計了一個新的測試數據集。數據集的每一道測試題都包含一個開放式問題和一個嚴格對應的選擇題。
  • 提出了FAEF,一種衡量模型是否存在假對齊的通用框架,只需要少量的人工協助,并與現有的開源數據集兼容。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48809
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689
  • LLM
    LLM
    +關注

    關注

    0

    文章

    286

    瀏覽量

    327

原文標題:LLMs實際上在假對齊!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    KiCad的對齊工具不好用?

    兩個以上對象 時,才可以右鍵的菜單中找到它的身影: 如何使用對齊菜單? 經常有小伙伴抱怨 KiCad 的對齊的效果很隨機,沒有辦法按照意圖進行對齊操作。真實情況是 KiCad
    的頭像 發表于 12-04 18:15 ?135次閱讀
    KiCad的<b class='flag-5'>對齊</b>工具不好用?

    ESP32S3設置輸出IO的高低電平后,緊接著去讀取電平實際上是沒有變化的,為什么?

    設置輸出IO的高低電平后,緊接著去讀取電平實際上是沒有變化的,跑的是例程呀,只是加了兩個printf,是哪里出問題了呢
    發表于 06-07 06:37

    OpenAI超級對齊團隊解散

    近日,OpenAI的安全主管、“超級智能對齊團隊”負責人Jan Leike宣布離職。據悉,Jan Leike與OpenAI高層公司的核心優先事項存在長期且難以調和的分歧。
    的頭像 發表于 05-20 10:16 ?436次閱讀

    鴻蒙ArkUI開發:【彈性布局(主軸&amp;交叉軸對齊方式)】

    通過justifyContent參數設置主軸方向的對齊方式,和Row、Column的主軸對齊方式行為一樣
    的頭像 發表于 05-14 15:33 ?699次閱讀
    鴻蒙ArkUI開發:【彈性布局(主軸&amp;交叉軸<b class='flag-5'>對齊</b>方式)】

    庫克稱中國內地iPhone業務實際上實現增長

    蘋果公司首席執行官蒂姆·庫克(Tim Cook)近日表示,盡管大中華區截至3月份財季的整體收入有所下滑,但中國內地市場的iPhone業務實際上實現了增長,且降幅低于預期。這一積極信號顯示了中國市場對于蘋果產品的強勁需求。
    的頭像 發表于 05-09 09:40 ?314次閱讀

    【大語言模型:原理與工程實踐】核心技術綜述

    ,確保數據多樣性和覆蓋面。 優化技術: 使用高效的優化算法,如Adam或LAMB,避免梯度消失或爆炸,穩定訓練過程。 微調和精調: 特定的下游任務,對LLMs進行微調,以使其更好地適應該任務
    發表于 05-05 10:56

    RAG系統中答案無關片段對LLMs生成結果的影響分析

    與常見語義無關的答案無關片段相比,LLMs更容易受到高度語義相關的答案無關片段的影響;
    發表于 04-15 09:49 ?377次閱讀
    RAG系統中答案無關片段對<b class='flag-5'>LLMs</b>生成結果的影響分析

    造成虛焊、焊的原因有哪些?如何預防虛焊

    虛焊 焊 是SMT貼片加工 中經常出現的不良現象,今天小編就給大家講講什么是虛焊、焊?造成虛焊、焊的原因有哪些?該如何預防虛焊焊。
    的頭像 發表于 04-13 11:28 ?4362次閱讀
    造成虛焊、<b class='flag-5'>假</b>焊的原因有哪些?如何預防虛焊<b class='flag-5'>假</b>焊

    使用帶編碼器三相電阻采樣,三相都有參與運算但實際上輸入信號只需要UV兩相,為什么?

    如題,使用帶編碼器三相電阻采樣,發現三相都有參與運算,但實際上輸入信號只需要UV兩相,W相輸入數據不會影響電機運行效果,請問這是什么原因?出現電磁噪音比較大,有那些方法可以解決?如果都能解決,可以提供有償服務。
    發表于 04-08 08:08

    ST95HF NFC讀卡器實際上板測試遇到的兩個疑問求解答

    你好。我用的ST95HF NFC讀卡器。電路圖我參考的官網推薦的結構,如下圖。天線和匹配參數的理論值都已經計算好了。現在我要實際上板測試,有2個問題需要請教: 1、我現在是將網絡分析儀接在L4、L5
    發表于 03-11 07:37

    大語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs處理多語言輸入時的內部處理過程,并探討了模型中是否存在特定于語言的神經元。
    發表于 03-07 14:44 ?613次閱讀
    大語言模型(<b class='flag-5'>LLMs</b>)如何處理多語言輸入問題

    如何在TorchServe提供LLMs的分布式推理

    你可以看到我們在這里使用了張量并行和并行預填充。它實際上幫助大大加快了推理速度。與等效的GPU相比,它使得Inferentia 2的成本大幅降低了。我們獲得了3倍更便宜的性能點。
    的頭像 發表于 01-31 13:59 ?790次閱讀
    如何在TorchServe<b class='flag-5'>上</b>提供<b class='flag-5'>LLMs</b>的分布式推理

    利用GPU加速Orange Pi?5LLMs:人工智能愛好者High翻了!

    本期視頻將會給人工智能愛好者們帶來超級震撼!視頻中,我們將深入了解利用GPU加速OrangePi5LLMs的精彩世界。最近知乎的一篇文章《利用GPU加速,
    的頭像 發表于 01-22 15:29 ?985次閱讀
    利用GPU加速<b class='flag-5'>在</b>Orange Pi?5<b class='flag-5'>上</b>跑<b class='flag-5'>LLMs</b>:人工智能愛好者High翻了!

    LLMs時代進行無害性評估的基準解析

    隨著對LLMs的不斷應用,大家也發現了諸多問題。比如常見的幻覺現象,LLMs可喜歡一本正經地說著胡話呢。除此之外,LLMs也有可能生成一些歧視某些身份群體的內容,還有一些傷害我們小小心靈的有毒內容(這可不行)。
    發表于 01-05 14:14 ?378次閱讀
    <b class='flag-5'>LLMs</b>時代進行無害性評估的基準解析

    一臺高壓電機額定功率5100KW,那它實際上能輸出多少功率?

    一臺高壓電機額定功率5100KW,那它實際上能輸出多少功率? 輸出功率也就是有功功率,這個應該跟功率因數有關。 那它最大輸出功率也不會超出5100KW,它的總功率也就是5100KW. 我如果讓電機
    發表于 12-27 07:22
    主站蜘蛛池模板: 一本色道久久综合亚洲精品| 轻点灬大ji巴太粗太双性高h| 十8禁用B站在线看漫画| 耻辱の奴隷淑女中文字幕| 青草影院内射中出高潮-百度| 91精品在线国产| 欧美在线视频一区| 成人公开免费视频| 色多多旧版污污破解版| 国产精品你懂的在线播放| 亚洲AV无码专区国产精品99| 国产综合在线视频| 20岁αsrian男同志免费| 强开乳罩摸双乳吃奶视频| 达达兔欧美午夜国产亚洲| 亚婷婷洲AV久久蜜臀无码| 精品国产手机视频在在线| 曰曰夜夜在线影院视| 日本护士hd| 护士WC女子撒尿| 99re2.久久热最新地址| 手机在线观看你懂的| 精品欧美小视频在线观看| 9277在线观看资源| 亚洲 无码 在线 专区| 久久re6热在线视频精品| 白嫩美女直冒白浆| 伊人精品在线| 三级电影免费看| 久久国产乱子伦精品免费不卡 | adc影院欢迎您大驾光临入口| 色婷婷国产麻豆AV| 久久综合久久鬼色| 国产激情视频在线观看| CHINA篮球体育飞机2023| 亚洲久久少妇中文字幕| 日欧一片内射VA在线影院| 久久囯产精品777蜜桃传媒| 国产精品久久高潮呻吟无码| qvod电影网站| 91九色视频在线观看|