性色视频免费,中文字幕国产自拍,亚洲一卡2卡3卡4卡国产网站

今天要給大家介紹一篇Google的研究，解決了大語言模型（LLMs）在零樣本學習方面的困境。相比于少樣本學習，LLMs在零樣本學習上常常表現得比較弱，這主要是因為缺乏指導。而且，目前的研究對零樣本學習的改進也不多，因為在沒有真實標簽的任務中設計prompt方法還比較困難。

為了解決這個問題，這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法，對LLMs的零樣本學習進行了優化，同時也適用于少樣本學習任務。USP只需要少量未標記的數據，就能大幅提升LLMs在20多個自然語言理解和生成任務上的表現。實際上，它的結果比起少樣本基線方法甚至更好！

接下來就讓我們一起揭開USP方法的神秘面紗，看看它是如何做到這一切的吧！

論文：Universal Self-adaptive Prompting
地址：https://arxiv.org/pdf/2305.14926.pdf

前言

在介紹USP方法之前，讓我們先了解一下三種主流方法，分別是：Chain of Thought (CoT)、Self-Consistency (SC)和Consistency-based Self-adaptive Prompting (COSP)。這些方法是目前LLMs推理研究的主要方向，而COSP方法也是這篇研究的主要靈感來源。

首先，CoT方法將一個具體的推理問題拆分成多個步驟，并將每個步驟的解釋信息輸入LLMs，從而得出最終的答案。這種方法已經被證明可以解決具有較大推理難度的問題，并且當訓練數據足夠時，大模型會表現出出色的推理能力。很快，SC方法應運而生，對CoT方法進行了改進。SC方法認為，通過對多個CoT推理路徑進行采樣，并將它們的結果進行投票，選擇一致性最高的輸出作為最終答案，可以進一步提高LLMs的推理準確性。

而COSP方法采用了雙階段策略，以進一步增強LLMs的零樣本學習能力。在第一階段，COSP類似于SC，采用多路徑解碼進行零樣本推理。它對同一查詢在不同解碼路徑上進行預測，并計算出歸一化熵，用于量化模型在不同解碼路徑下的自信程度和預測之間的差異?；陟刂担ㄒ约捌渌笜巳缍鄻有院椭貜托裕?，COSP對第一階段的輸出進行排名，并選擇自信的輸出作為偽演示數據。在第二階段，COSP再次將這些偽演示數據與查詢結合，以類似于少樣本推理的方式進行處理。最終的預測結果是通過兩個階段的輸出進行多數投票得出的。

這些方法為LLMs的推理能力帶來了顯著提升。然而，它們對于不同類型的任務可能存在一些局限性和挑戰。比如，針對一些分類NLP問題，模型的邏輯回歸結果對于不確定性的量化很有用，但在COSP的設計中卻忽視了這一信息。此外，對于那些涉及創造性和生成性任務的任務，多數投票的概念可能并不存在，因為有很多合理的解決方案存在。

因此，這篇研究的目標是提出一種通用的、適用于各種任務的方法，而不僅僅局限于COSP所考慮的狹窄領域。然而，要實現這個目標并不容易，因為通用的提示策略需要適應眾多且差異巨大的任務，這些任務在目標、提示、評估以及置信度/不確定性量化方面都存在顯著的差異。

接下來，我們將詳細介紹Universal Self-adaptive Prompting（USP）方法，看看它是如何解決這些挑戰的！

USP方法

如上圖所示，USP總體上與COSP方法有一些相似之處：同樣采用兩階段的過程。在第一階段，LLMs以零樣本的方式進行提示，生成一組候選回答，然后從中選擇一些模型生成的偽演示數據。在第二階段，這些偽演示數據以少樣本的方式添加到測試查詢之前，再次提示LLMs以獲得最終的預測結果。

然而，USP引入了幾個關鍵的設計決策，使其與COSP有所區別，有效地提高了其泛化能力：

任務特定的偽演示數據選擇器：在USP中，從零樣本輸出中選擇適合的查詢-回答對是至關重要的，這就是偽演示數據選擇器。COSP使用基于一致性的選擇器，只適用于一部分特定任務，而USP則設計了一個選擇器，針對不同任務，選擇不同的偽演示數據集，增強了其靈活性。

測試集和生成偽演示數據集的分離：與COSP默認使用完整的測試集T在第一階段生成偽演示數據不同，USP需要一個通用的無標簽數據集D。該數據集可以是完整的測試集T其中的一個子集，或者是一個不同的無標簽集合。D的唯一目的是生成偽演示數據，即使事先不知道完整的測試集，或者只有少量無標簽的查詢可用。

減少對多數投票的依賴：雖然多數投票對于COSP至關重要（如圖中c所示），但它計算上較為昂貴，并且在多數本身無法明確定義的情況下不適用。相比之下，USP默認在第二階段只進行一次解碼，使用貪婪解碼（即temperature=0），將最大似然估計（MLE）的輸出作為最終預測結果。USP仍然支持對多次解碼進行多數投票，以進一步提高性能，但不再依賴這種方式來運行。

任務特定的偽演示數據選擇器

選擇器的目標是為了構建候選偽演示數據集P（通過將數據集查詢和LLMs的零樣本預測連接而成），并從中選擇一些偽演示數據S來添加到測試查詢中。作者使用一個函數F來對每個候選偽演示數據進行評分。首先，找到在P中使得F最大的偽演示數據作為第一個被選中的偽演示數據。對于接下來的偽演示數據，作者使用一個帶有多樣性促進項的F來選擇，同時懲罰那些與已選中的偽演示數據過于相似的候選項。

作者設計F函數的目的是根據任務的特性，將可能的任務分為三種通用類型（如下表所示），并對每種類型設計不同的評分函數。這樣做可以實現通用提示，在不同的任務上取得良好的效果。在設計F函數時，作者考慮了可能的響應數量和正確響應的數量，并使用了一些技巧來確保評分的準確性和可比性。

下面我們詳細介紹一下這三種任務的劃分標準及選擇方法的差異。

針對分類（CLS）問題，LLMs需要從幾個可能選項中選擇一個正確答案。這種情況下，標簽空間很小，模型的邏輯回歸結果對于不確定性的量化很有用。我們不需要使用SC方法來估計預測的置信度。對于偽演示數據集，我們只需查詢LLM一次，并使用類別的負熵作為CLS情況下評分函數F的度量指標。

Short-form generation（SFG）問題是指這樣一類生成問題：通常有很多可能的回答，但只有一個到幾個是正確的短回答。例如問答任務，其中可能的回答涵蓋整個詞匯表V。與CLS情況不同，我們假設只能訪問模型的輸出，而沒有對數概率分布。這種情況包括了COSP中的問題（例如COSP中考慮的算術推理問題），我們可以使用歸一化熵來衡量模型的置信度，不過對于非CoT提示的任務，我們跳過了生成理由的步驟，直接詢問答案。

最后一類是Long-form generation（LFG）問題，通常需要生成較長的回答，并有許多合理的可能回答，典型的例子包括總結和翻譯。在這種情況下，如果對同一個查詢進行m次溫度采樣解碼，即使對于置信的預測，生成的文本也不可能完全相同，這是因為生成的文本長度較長。為了衡量這種情況下的置信度，我們首先按照SFG問題的設置，對每個回答進行m次溫度采樣查詢，得到m個預測結果。隨后，我們計算所有m個響應對之間的平均ROUGE分數。注意我們也可以采用其他指標例如如pairwise BLEU或句子的余弦相似度。我們使用FLFG來對D中的查詢進行置信度排序，并確定要在S中使用哪些查詢。對于偽演示的響應部分，我們再次對LLM進行一次解碼，使用argmax或貪婪解碼，以獲得所選查詢上的MLE預測結果。然后將這些預測結果與查詢連接起來構建S。最后，鑒于零樣本文本生成完全由提示驅動，我們觀察到LLM有時會生成極具自信的文本補全，而不是實際完成指定的任務，選擇這些輸出作為偽演示會嚴重降低性能。考慮到這些輸出通常具有異常高的平均ROUGE得分，我們采用了一種簡單有效的異常值過濾方法，即移除得分大于上四分位數加1.5倍四分位距（IQR）的查詢。這是一種經典的用于定義異常值的方法。

實驗設置

作者在PaLM-540B和PaLM-62B上進行了實驗，并考慮了各種常見的自然語言處理任務：對于CLS任務，包括常識推理、閱讀理解、填空完成、自然語言推理等；對于SFG任務，包括開放域問答、閱讀理解問答和詞語預測；對于LFG任務，包括摘要任務。作者沒有考慮CoT推理任務，因為先前的研究已經證明了COSP方法在這些任務上的有效性。

作者將USP與四個baseline進行比較，分別是：zero-shot、AutoCoT、Random demo（按照USP的步驟進行操作，但是在選擇偽演示時不使用評分函數，而是從P中隨機選擇K個偽演示）、5-shot（few-shot, k=5）。為了公平比較，AutoCoT、Random demo和USP都會為每個樣本生成5個偽演示，從每個任務中隨機選擇64個未標記的測試查詢。

結果分析

下面3個表分別展示了CLS、SFG和LFG任務上的實驗結果。

可以看到，在CLS、SFG和LFG任務中，USP顯著改善了標準的zero-shot性能，優于其他zero-shot提示方法，并且在許多情況下接近甚至優于標準的few-shot提示方法，而這才僅使用了每個任務64個未標記樣本。

無論是在不同的數據集還是不同的模型上，USP在SFG和LFG任務上的改進幅度比在CLS任務上要大，而在PaLM-540B上的改進幅度也比PaLM-62B更大。作者推測前一觀察結果的原因是在生成任務中，LLMs更需要來自示例的指導，因為這些任務涉及到無限的動作選擇，而在CLS任務中，LLM只需要從幾個選項中選擇一個回答。至于后一觀察結果，作者認為較大的模型具有更強的能力從示例中學習，能夠更好地利用更準確/更好的示例（5-shot結果在PaLM-540B中更強的事實也支持這一觀點）。在這種情況下，USP生成的更準確/更高質量的偽示例導致了對基線方法的更大優勢，而基線方法的偽示例質量僅取決于模型的平均表現。

為了分析偽演示選擇器如何選擇高質量的偽演示，作者分析了所有任務的未標記數據集D中查詢的USP得分與ground-truth性能（準確性、EM或ROUGE，取決于任務類型）之間的關系。下圖展示了一些代表性結果，在各種任務類型和不同難度的任務中（如圖中由灰色虛線標記的平均性能），USP得分通常與ground-truth性能呈良好的相關性。最近的研究結果表明，更大的LLMs確實通過在上下文中學習信息（而不僅僅是遵循提示格式）并從正確示例中受益，這與USP的結果一致。