今天要給大家介紹一篇Google的研究,解決了大語言模型(LLMs)在零樣本學習方面的困境。相比于少樣本學習,LLMs在零樣本學習上常常表現得比較弱,這主要是因為缺乏指導。而且,目前的研究對零樣本學習的改進也不多,因為在沒有真實標簽的任務中設計prompt方法還比較困難。
為了解決這個問題,這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法,對LLMs的零樣本學習進行了優化,同時也適用于少樣本學習任務。USP只需要少量未標記的數據,就能大幅提升LLMs在20多個自然語言理解和生成任務上的表現。實際上,它的結果比起少樣本基線方法甚至更好!
接下來就讓我們一起揭開USP方法的神秘面紗,看看它是如何做到這一切的吧!
論文:Universal Self-adaptive Prompting
地址:https://arxiv.org/pdf/2305.14926.pdf
前言
在介紹USP方法之前,讓我們先了解一下三種主流方法,分別是:Chain of Thought (CoT)、Self-Consistency (SC)和Consistency-based Self-adaptive Prompting (COSP)。這些方法是目前LLMs推理研究的主要方向,而COSP方法也是這篇研究的主要靈感來源。
首先,CoT方法將一個具體的推理問題拆分成多個步驟,并將每個步驟的解釋信息輸入LLMs,從而得出最終的答案。這種方法已經被證明可以解決具有較大推理難度的問題,并且當訓練數據足夠時,大模型會表現出出色的推理能力。很快,SC方法應運而生,對CoT方法進行了改進。SC方法認為,通過對多個CoT推理路徑進行采樣,并將它們的結果進行投票,選擇一致性最高的輸出作為最終答案,可以進一步提高LLMs的推理準確性。
而COSP方法采用了雙階段策略,以進一步增強LLMs的零樣本學習能力。在第一階段,COSP類似于SC,采用多路徑解碼進行零樣本推理。它對同一查詢在不同解碼路徑上進行預測,并計算出歸一化熵,用于量化模型在不同解碼路徑下的自信程度和預測之間的差異?;陟刂担ㄒ约捌渌笜巳缍鄻有院椭貜托裕?,COSP對第一階段的輸出進行排名,并選擇自信的輸出作為偽演示數據。在第二階段,COSP再次將這些偽演示數據與查詢結合,以類似于少樣本推理的方式進行處理。最終的預測結果是通過兩個階段的輸出進行多數投票得出的。
這些方法為LLMs的推理能力帶來了顯著提升。然而,它們對于不同類型的任務可能存在一些局限性和挑戰。比如,針對一些分類NLP問題,模型的邏輯回歸結果對于不確定性的量化很有用,但在COSP的設計中卻忽視了這一信息。此外,對于那些涉及創造性和生成性任務的任務,多數投票的概念可能并不存在,因為有很多合理的解決方案存在。
因此,這篇研究的目標是提出一種通用的、適用于各種任務的方法,而不僅僅局限于COSP所考慮的狹窄領域。然而,要實現這個目標并不容易,因為通用的提示策略需要適應眾多且差異巨大的任務,這些任務在目標、提示、評估以及置信度/不確定性量化方面都存在顯著的差異。
接下來,我們將詳細介紹Universal Self-adaptive Prompting(USP)方法,看看它是如何解決這些挑戰的!
USP方法
如上圖所示,USP總體上與COSP方法有一些相似之處:同樣采用兩階段的過程。在第一階段,LLMs以零樣本的方式進行提示,生成一組候選回答,然后從中選擇一些模型生成的偽演示數據。在第二階段,這些偽演示數據以少樣本的方式添加到測試查詢之前,再次提示LLMs以獲得最終的預測結果。
然而,USP引入了幾個關鍵的設計決策,使其與COSP有所區別,有效地提高了其泛化能力:
任務特定的偽演示數據選擇器:在USP中,從零樣本輸出中選擇適合的查詢-回答對是至關重要的,這就是偽演示數據選擇器。COSP使用基于一致性的選擇器,只適用于一部分特定任務,而USP則設計了一個選擇器,針對不同任務,選擇不同的偽演示數據集,增強了其靈活性。
測試集和生成偽演示數據集的分離:與COSP默認使用完整的測試集T在第一階段生成偽演示數據不同,USP需要一個通用的無標簽數據集D。該數據集可以是完整的測試集T其中的一個子集,或者是一個不同的無標簽集合。D的唯一目的是生成偽演示數據,即使事先不知道完整的測試集,或者只有少量無標簽的查詢可用。
減少對多數投票的依賴:雖然多數投票對于COSP至關重要(如圖中c所示),但它計算上較為昂貴,并且在多數本身無法明確定義的情況下不適用。相比之下,USP默認在第二階段只進行一次解碼,使用貪婪解碼(即temperature=0),將最大似然估計(MLE)的輸出作為最終預測結果。USP仍然支持對多次解碼進行多數投票,以進一步提高性能,但不再依賴這種方式來運行。
任務特定的偽演示數據選擇器
選擇器的目標是為了構建候選偽演示數據集P(通過將數據集查詢和LLMs的零樣本預測連接而成),并從中選擇一些偽演示數據S來添加到測試查詢中。作者使用一個函數F來對每個候選偽演示數據進行評分。首先,找到在P中使得F最大的偽演示數據作為第一個被選中的偽演示數據。對于接下來的偽演示數據,作者使用一個帶有多樣性促進項的F來選擇,同時懲罰那些與已選中的偽演示數據過于相似的候選項。
作者設計F函數的目的是根據任務的特性,將可能的任務分為三種通用類型(如下表所示),并對每種類型設計不同的評分函數。這樣做可以實現通用提示,在不同的任務上取得良好的效果。在設計F函數時,作者考慮了可能的響應數量和正確響應的數量,并使用了一些技巧來確保評分的準確性和可比性。
下面我們詳細介紹一下這三種任務的劃分標準及選擇方法的差異。
針對分類(CLS)問題,LLMs需要從幾個可能選項中選擇一個正確答案。這種情況下,標簽空間很小,模型的邏輯回歸結果對于不確定性的量化很有用。我們不需要使用SC方法來估計預測的置信度。對于偽演示數據集,我們只需查詢LLM一次,并使用類別的負熵作為CLS情況下評分函數F的度量指標。
Short-form generation(SFG)問題是指這樣一類生成問題:通常有很多可能的回答,但只有一個到幾個是正確的短回答。例如問答任務,其中可能的回答涵蓋整個詞匯表V。與CLS情況不同,我們假設只能訪問模型的輸出,而沒有對數概率分布。這種情況包括了COSP中的問題(例如COSP中考慮的算術推理問題),我們可以使用歸一化熵來衡量模型的置信度,不過對于非CoT提示的任務,我們跳過了生成理由的步驟,直接詢問答案。
最后一類是Long-form generation(LFG)問題,通常需要生成較長的回答,并有許多合理的可能回答,典型的例子包括總結和翻譯。在這種情況下,如果對同一個查詢進行m次溫度采樣解碼,即使對于置信的預測,生成的文本也不可能完全相同,這是因為生成的文本長度較長。為了衡量這種情況下的置信度,我們首先按照SFG問題的設置,對每個回答進行m次溫度采樣查詢,得到m個預測結果。隨后,我們計算所有m個響應對之間的平均ROUGE分數。注意我們也可以采用其他指標例如如pairwise BLEU或句子的余弦相似度。我們使用FLFG來對D中的查詢進行置信度排序,并確定要在S中使用哪些查詢。對于偽演示的響應部分,我們再次對LLM進行一次解碼,使用argmax或貪婪解碼,以獲得所選查詢上的MLE預測結果。然后將這些預測結果與查詢連接起來構建S。最后,鑒于零樣本文本生成完全由提示驅動,我們觀察到LLM有時會生成極具自信的文本補全,而不是實際完成指定的任務,選擇這些輸出作為偽演示會嚴重降低性能。考慮到這些輸出通常具有異常高的平均ROUGE得分,我們采用了一種簡單有效的異常值過濾方法,即移除得分大于上四分位數加1.5倍四分位距(IQR)的查詢。這是一種經典的用于定義異常值的方法。
實驗設置
作者在PaLM-540B和PaLM-62B上進行了實驗,并考慮了各種常見的自然語言處理任務:對于CLS任務,包括常識推理、閱讀理解、填空完成、自然語言推理等;對于SFG任務,包括開放域問答、閱讀理解問答和詞語預測;對于LFG任務,包括摘要任務。作者沒有考慮CoT推理任務,因為先前的研究已經證明了COSP方法在這些任務上的有效性。
作者將USP與四個baseline進行比較,分別是:zero-shot、AutoCoT、Random demo(按照USP的步驟進行操作,但是在選擇偽演示時不使用評分函數,而是從P中隨機選擇K個偽演示)、5-shot(few-shot, k=5)。為了公平比較,AutoCoT、Random demo和USP都會為每個樣本生成5個偽演示,從每個任務中隨機選擇64個未標記的測試查詢。
結果分析
下面3個表分別展示了CLS、SFG和LFG任務上的實驗結果。
可以看到,在CLS、SFG和LFG任務中,USP顯著改善了標準的zero-shot性能,優于其他zero-shot提示方法,并且在許多情況下接近甚至優于標準的few-shot提示方法,而這才僅使用了每個任務64個未標記樣本。
無論是在不同的數據集還是不同的模型上,USP在SFG和LFG任務上的改進幅度比在CLS任務上要大,而在PaLM-540B上的改進幅度也比PaLM-62B更大。作者推測前一觀察結果的原因是在生成任務中,LLMs更需要來自示例的指導,因為這些任務涉及到無限的動作選擇,而在CLS任務中,LLM只需要從幾個選項中選擇一個回答。至于后一觀察結果,作者認為較大的模型具有更強的能力從示例中學習,能夠更好地利用更準確/更好的示例(5-shot結果在PaLM-540B中更強的事實也支持這一觀點)。在這種情況下,USP生成的更準確/更高質量的偽示例導致了對基線方法的更大優勢,而基線方法的偽示例質量僅取決于模型的平均表現。
為了分析偽演示選擇器如何選擇高質量的偽演示,作者分析了所有任務的未標記數據集D中查詢的USP得分與ground-truth性能(準確性、EM或ROUGE,取決于任務類型)之間的關系。下圖展示了一些代表性結果,在各種任務類型和不同難度的任務中(如圖中由灰色虛線標記的平均性能),USP得分通常與ground-truth性能呈良好的相關性。最近的研究結果表明,更大的LLMs確實通過在上下文中學習信息(而不僅僅是遵循提示格式)并從正確示例中受益,這與USP的結果一致。
總結
本研究提出了USP方法,它是一種專為零樣本學習而設計的自適應prompt方法,適用于各種自然語言理解和生成任務。通過精心選擇零樣本模型生成的輸出作為示例進行上下文學習,取得了顯著的改進效果。在本研究中,作者們展示了USP在兩個LLM模型上超過標準零樣本提示和其他基線方法的優勢。
未來的改進空間也很大。首先,目前的工作主要集中在上下文演示方面,還沒有嘗試優化其他提示組件。進一步的研究可以將USP與自動提示設計相結合,實現更靈活的提示方式。其次,隨著LLM能力的不斷提升,我們可以將USP的思想應用于更多的創新設置中,例如規劃任務以及多模態問題領域的拓展。
審核編輯 :李倩
-
語言模型
+關注
關注
0文章
520瀏覽量
10268 -
數據集
+關注
關注
4文章
1208瀏覽量
24689 -
自然語言
+關注
關注
1文章
287瀏覽量
13347
原文標題:一個通用的自適應prompt方法,突破了零樣本學習的瓶頸
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論