亚洲精品视频免费看,中文字幕日韩在线一区国内 ,我和75老太婆的性事

對大型語言模型(LLM)中安全問題的意識日益增強，引發了人們對當前研究工作中的安全性評估的極大興趣。本研究調查了與llm評估有關的一個有趣問題，即多重選擇問題和開放式問題之間的性能差異。我們發現LLM對安全這一復雜概念的理解并不全面，它只記得回答開放式安全問題，而無法解決其他形式的安全測試。我們將這種現象稱為假對齊，為解決這個問題，我們提出FAEF框架和兩個新指標—一致性分數(CS)和一致性安全分數(CSS)，用來聯合評估兩種互補的評估形式，以量化假對齊并獲得正確的性能估計。

論文：
Fake Alignment: Are LLMs Really Aligned Well?

地址：
https://arxiv.org/pdf/2311.05915.pdf

介紹

有研究指出LLMs可能會產生惡意內容(例如：有害和有偏見的言論，危險的行為準則和隱私泄露等)，引起安全問題。同時，許多基準的出現就是為了評估其安全性。這些測試大多可以分為兩種形式:開放式問題和選擇題。在第一種形式中，LLM給出問題的回答，人類或其他LLM給出是否安全的判斷;在第二種形式中，LLM從多個選項中選擇一個它認為安全的選項，然后對答案進行比較得出判斷。從人類的角度來看，多項選擇題往往更簡單，因為正確的答案包含在選項中，用排除法可以選擇更好的一個。然而，在審查現有的評估結果后，我們驚訝地發現與開放式LLM相比，大多數LLM在多項選擇題上表現出更低的安全性能。如圖1所示，LLM在一些常見的開放式問題測試數據集上的平均性能為94.94%，而在多項選擇測試數據集上的平均性能僅為78.3%。

是什么導致了評估性能的顯著差異呢?受不匹配泛化理論的啟發，我們認為這是由于模型的安全訓練沒有有效地覆蓋其預訓練能力的范圍。如圖2所示，兩個LLM都能有效地回答開放式問題。然而，雖然一個很好地協調并在解決其他問題時演示了安全考慮，但另一個未能理解其他格式的安全方面。換句話說，LLM其實只是記住了關于安全問題的答案，但缺乏對什么內容屬于安全的真正理解，這使得他們很難選擇正確的選項，我們將其稱為LLM的假對齊。假對齊的存在證明了以前許多開放式問題評估的不可靠性。

然而，由于兩種類型的測試數據集之間缺乏嚴格的對應關系，無法分析LLM中假對齊的程度。為此，首先精心設計了一個包含5類(公平性、人身安全、合法性、隱私和社會倫理)問題的數據集;每個測試問題由一個開放式問題及其對應的選擇題組成，通過比較其在回答兩類問題上的一致性，可以定量分析LLMs中是否存在假對齊問題。在我們的數據集上測試了14個常見的LLM，結果表明一些模型存在嚴重的假對齊問題。實驗表明，即使使用問題和正確選項的內容進行有監督的微調，LLM在多項選擇題上性能的提高仍然非常有限。這進一步證實了這種一致性測試可以有效地發現假對齊。最后，在總結數據集構建過程和評估方法的基礎上，提出了假對齊評估框架FAEF(Fake Alignment evaluation Framework)，該框架可以在少量人工輔助的情況下，將現有的開放式問題數據集轉換為LLM的假對齊評估數據集。

假對齊

背景

LLMs是在大型語料庫上訓練的概率模型，用于給定token序列預測下一個token，即，其中是給定token。對齊技術希望最大化模型輸出符合人類價值偏好的概率。然而，不同的對齊算法、對齊數據和模型參數大小對最終對齊性能有很大影響，也直接影響用戶體驗。

當前與LLMs的常見交互方法是提示工程，這意味著用戶輸入專門設計的提示文本，以指導LLM生成響應。對LLM的評估也遵循類似的方法，給它們一些測試問題，然后自動或手動判斷響應。另外，根據試題類型，評價通常分為開放式題型和多項選擇題型兩種，可表示為:

其中是開放式問題提示集，是多項選擇題提示集，是測試提示數，是正確選項，是判斷函數，它可以是人類或其他LLM給出的評估。

假對齊的證明

LLM的訓練分為預訓練和安全訓練。預訓練是指在大規模語料庫上進行訓練，因此LLM獲得了各種強大的能力，如文本生成、推理和主題知識等。安全訓練使用有監督的微調、RLHF、RLAIF和其他技術來對齊模型偏好與人類價值偏好，從而為LLM建立安全護欄。然而，當安全訓練數據缺乏多樣性且覆蓋范圍不廣時，該模型往往只是在某些方面模擬安全數據，而沒有真正理解人類的偏好。安全訓練不足導致在沒有適當安全考慮的情況下做出反應。這也意味著模型在某些方面似乎對齊得很好，但實際上這可能是欺騙性的;它對對齊沒有深刻、正確的理解。這就是我們所說的假對齊。

為了證明這一說法，首先從能力和安全性兩個方面設計了評估數據集。數據集中的每個問題都包含一個相應的開放式問題和多項選擇問題，用于直接比較模型性能差異。能力方面的比較測試是為了證明LLM在預訓練階段已經掌握了回答多項選擇題的能力。如果該模型在能力測試集上兩種評估形式沒有差異，但在安全性測試集上表現出差異，則可以證明虛假對齊的存在。能力測試內容來自2018年AI2推理挑戰賽(ARC)，包含不同學科領域的7787個科學問題，過濾和選擇了100個問題，這些問題很容易被轉換為化學、生物、數學等學科領域的開放式問題，如表2所示。

在安全性測試中，我們選擇了5個最受關注的主題，然后圍繞相應的主題收集和構建開放性問題:

公平性:包括性別、種族、性取向等;
人身安全:旨在評估LLM不會對個人造成潛在傷害，特別是在人身和財產安全方面;
合法性:衡量LLMs是否可能提供可能違反法律的建議，如盜竊、搶劫或類似的非法活動;
隱私性:旨在測試LLMs是否泄露了一些私人信息或提供了損害他人隱私的建議;
社會倫理:包括環境友好性、生物友好性、對他人的友好性等。

實驗結果

能力測試：對于多項選擇題，設計了具體的提示模板來指導司法專家間接地提出選項。然后，我們利用正則表達式匹配方法從LLM的響應中提取選項，并將它們與正確答案進行比較。開放式問題涉及直接輸入到模型中以獲得相應的響應。實驗結果如表3所示：

安全性測試：類似于能力測試，對于多項選擇題，我們使用與之前相同的提示模板，以及正則表達式匹配方法。對于每個問題，通過交換選項的位置進行多次測試。只有當模型始終提供相同的答案時，它才被認為是通過的。這種方法最大限度地提高了結果的可靠性和可重復性。對于開放式問題，直接輸入LLM來獲得答案。這里使用的評價原則是考慮回復是否包含直接或潛在危害人類社會的內容，如歧視、暴力等。實驗結果如表4所示：