色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個通用的自適應prompt方法,突破了零樣本學習的瓶頸

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-06-01 14:48 ? 次閱讀

今天要給大家介紹一篇Google的研究,解決了大語言模型(LLMs)在零樣本學習方面的困境。相比于少樣本學習,LLMs在零樣本學習上常常表現得比較弱,這主要是因為缺乏指導。而且,目前的研究對零樣本學習的改進也不多,因為在沒有真實標簽的任務中設計prompt方法還比較困難。

為了解決這個問題,這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法,對LLMs的零樣本學習進行了優化,同時也適用于少樣本學習任務。USP只需要少量未標記的數據,就能大幅提升LLMs在20多個自然語言理解和生成任務上的表現。實際上,它的結果比起少樣本基線方法甚至更好!

接下來就讓我們一起揭開USP方法的神秘面紗,看看它是如何做到這一切的吧!

caf58d18-0018-11ee-90ce-dac502259ad0.png

論文:Universal Self-adaptive Prompting
地址:https://arxiv.org/pdf/2305.14926.pdf

前言

在介紹USP方法之前,讓我們先了解一下三種主流方法,分別是:Chain of Thought (CoT)、Self-Consistency (SC)和Consistency-based Self-adaptive Prompting (COSP)。這些方法是目前LLMs推理研究的主要方向,而COSP方法也是這篇研究的主要靈感來源。

首先,CoT方法將一個具體的推理問題拆分成多個步驟,并將每個步驟的解釋信息輸入LLMs,從而得出最終的答案。這種方法已經被證明可以解決具有較大推理難度的問題,并且當訓練數據足夠時,大模型會表現出出色的推理能力。很快,SC方法應運而生,對CoT方法進行了改進。SC方法認為,通過對多個CoT推理路徑進行采樣,并將它們的結果進行投票,選擇一致性最高的輸出作為最終答案,可以進一步提高LLMs的推理準確性。

而COSP方法采用了雙階段策略,以進一步增強LLMs的零樣本學習能力。在第一階段,COSP類似于SC,采用多路徑解碼進行零樣本推理。它對同一查詢在不同解碼路徑上進行預測,并計算出歸一化熵,用于量化模型在不同解碼路徑下的自信程度和預測之間的差異?;陟刂担ㄒ约捌渌笜巳缍鄻有院椭貜托裕?,COSP對第一階段的輸出進行排名,并選擇自信的輸出作為偽演示數據。在第二階段,COSP再次將這些偽演示數據與查詢結合,以類似于少樣本推理的方式進行處理。最終的預測結果是通過兩個階段的輸出進行多數投票得出的。

這些方法為LLMs的推理能力帶來了顯著提升。然而,它們對于不同類型的任務可能存在一些局限性和挑戰。比如,針對一些分類NLP問題,模型的邏輯回歸結果對于不確定性的量化很有用,但在COSP的設計中卻忽視了這一信息。此外,對于那些涉及創造性和生成性任務的任務,多數投票的概念可能并不存在,因為有很多合理的解決方案存在。

因此,這篇研究的目標是提出一種通用的、適用于各種任務的方法,而不僅僅局限于COSP所考慮的狹窄領域。然而,要實現這個目標并不容易,因為通用的提示策略需要適應眾多且差異巨大的任務,這些任務在目標、提示、評估以及置信度/不確定性量化方面都存在顯著的差異。

接下來,我們將詳細介紹Universal Self-adaptive Prompting(USP)方法,看看它是如何解決這些挑戰的!

USP方法

cafc0918-0018-11ee-90ce-dac502259ad0.png

如上圖所示,USP總體上與COSP方法有一些相似之處:同樣采用兩階段的過程。在第一階段,LLMs以零樣本的方式進行提示,生成一組候選回答,然后從中選擇一些模型生成的偽演示數據。在第二階段,這些偽演示數據以少樣本的方式添加到測試查詢之前,再次提示LLMs以獲得最終的預測結果。

然而,USP引入了幾個關鍵的設計決策,使其與COSP有所區別,有效地提高了其泛化能力:

任務特定的偽演示數據選擇器:在USP中,從零樣本輸出中選擇適合的查詢-回答對是至關重要的,這就是偽演示數據選擇器。COSP使用基于一致性的選擇器,只適用于一部分特定任務,而USP則設計了一個選擇器,針對不同任務,選擇不同的偽演示數據集,增強了其靈活性。

測試集和生成偽演示數據集的分離:與COSP默認使用完整的測試集T在第一階段生成偽演示數據不同,USP需要一個通用的無標簽數據集D。該數據集可以是完整的測試集T其中的一個子集,或者是一個不同的無標簽集合。D的唯一目的是生成偽演示數據,即使事先不知道完整的測試集,或者只有少量無標簽的查詢可用。

減少對多數投票的依賴:雖然多數投票對于COSP至關重要(如圖中c所示),但它計算上較為昂貴,并且在多數本身無法明確定義的情況下不適用。相比之下,USP默認在第二階段只進行一次解碼,使用貪婪解碼(即temperature=0),將最大似然估計(MLE)的輸出作為最終預測結果。USP仍然支持對多次解碼進行多數投票,以進一步提高性能,但不再依賴這種方式來運行。

任務特定的偽演示數據選擇器

選擇器的目標是為了構建候選偽演示數據集P(通過將數據集查詢和LLMs的零樣本預測連接而成),并從中選擇一些偽演示數據S來添加到測試查詢中。作者使用一個函數F來對每個候選偽演示數據進行評分。首先,找到在P中使得F最大的偽演示數據作為第一個被選中的偽演示數據。對于接下來的偽演示數據,作者使用一個帶有多樣性促進項的F來選擇,同時懲罰那些與已選中的偽演示數據過于相似的候選項。

作者設計F函數的目的是根據任務的特性,將可能的任務分為三種通用類型(如下表所示),并對每種類型設計不同的評分函數。這樣做可以實現通用提示,在不同的任務上取得良好的效果。在設計F函數時,作者考慮了可能的響應數量和正確響應的數量,并使用了一些技巧來確保評分的準確性和可比性。

cb0a1ada-0018-11ee-90ce-dac502259ad0.png

下面我們詳細介紹一下這三種任務的劃分標準及選擇方法的差異。

針對分類(CLS)問題,LLMs需要從幾個可能選項中選擇一個正確答案。這種情況下,標簽空間很小,模型的邏輯回歸結果對于不確定性的量化很有用。我們不需要使用SC方法來估計預測的置信度。對于偽演示數據集,我們只需查詢LLM一次,并使用類別的負熵作為CLS情況下評分函數F的度量指標。

Short-form generation(SFG)問題是指這樣一類生成問題:通常有很多可能的回答,但只有一個到幾個是正確的短回答。例如問答任務,其中可能的回答涵蓋整個詞匯表V。與CLS情況不同,我們假設只能訪問模型的輸出,而沒有對數概率分布。這種情況包括了COSP中的問題(例如COSP中考慮的算術推理問題),我們可以使用歸一化熵來衡量模型的置信度,不過對于非CoT提示的任務,我們跳過了生成理由的步驟,直接詢問答案。

最后一類是Long-form generation(LFG)問題,通常需要生成較長的回答,并有許多合理的可能回答,典型的例子包括總結和翻譯。在這種情況下,如果對同一個查詢進行m次溫度采樣解碼,即使對于置信的預測,生成的文本也不可能完全相同,這是因為生成的文本長度較長。為了衡量這種情況下的置信度,我們首先按照SFG問題的設置,對每個回答進行m次溫度采樣查詢,得到m個預測結果。隨后,我們計算所有m個響應對之間的平均ROUGE分數。注意我們也可以采用其他指標例如如pairwise BLEU或句子的余弦相似度。我們使用FLFG來對D中的查詢進行置信度排序,并確定要在S中使用哪些查詢。對于偽演示的響應部分,我們再次對LLM進行一次解碼,使用argmax或貪婪解碼,以獲得所選查詢上的MLE預測結果。然后將這些預測結果與查詢連接起來構建S。最后,鑒于零樣本文本生成完全由提示驅動,我們觀察到LLM有時會生成極具自信的文本補全,而不是實際完成指定的任務,選擇這些輸出作為偽演示會嚴重降低性能。考慮到這些輸出通常具有異常高的平均ROUGE得分,我們采用了一種簡單有效的異常值過濾方法,即移除得分大于上四分位數加1.5倍四分位距(IQR)的查詢。這是一種經典的用于定義異常值的方法。

實驗設置

作者在PaLM-540B和PaLM-62B上進行了實驗,并考慮了各種常見的自然語言處理任務:對于CLS任務,包括常識推理、閱讀理解、填空完成、自然語言推理等;對于SFG任務,包括開放域問答、閱讀理解問答和詞語預測;對于LFG任務,包括摘要任務。作者沒有考慮CoT推理任務,因為先前的研究已經證明了COSP方法在這些任務上的有效性。

作者將USP與四個baseline進行比較,分別是:zero-shot、AutoCoT、Random demo(按照USP的步驟進行操作,但是在選擇偽演示時不使用評分函數,而是從P中隨機選擇K個偽演示)、5-shot(few-shot, k=5)。為了公平比較,AutoCoT、Random demo和USP都會為每個樣本生成5個偽演示,從每個任務中隨機選擇64個未標記的測試查詢。

結果分析

下面3個表分別展示了CLS、SFG和LFG任務上的實驗結果。

cb1a3f64-0018-11ee-90ce-dac502259ad0.png

cb25ec2e-0018-11ee-90ce-dac502259ad0.png

cb2ff598-0018-11ee-90ce-dac502259ad0.png

可以看到,在CLS、SFG和LFG任務中,USP顯著改善了標準的zero-shot性能,優于其他zero-shot提示方法,并且在許多情況下接近甚至優于標準的few-shot提示方法,而這才僅使用了每個任務64個未標記樣本。

無論是在不同的數據集還是不同的模型上,USP在SFG和LFG任務上的改進幅度比在CLS任務上要大,而在PaLM-540B上的改進幅度也比PaLM-62B更大。作者推測前一觀察結果的原因是在生成任務中,LLMs更需要來自示例的指導,因為這些任務涉及到無限的動作選擇,而在CLS任務中,LLM只需要從幾個選項中選擇一個回答。至于后一觀察結果,作者認為較大的模型具有更強的能力從示例中學習,能夠更好地利用更準確/更好的示例(5-shot結果在PaLM-540B中更強的事實也支持這一觀點)。在這種情況下,USP生成的更準確/更高質量的偽示例導致了對基線方法的更大優勢,而基線方法的偽示例質量僅取決于模型的平均表現。

為了分析偽演示選擇器如何選擇高質量的偽演示,作者分析了所有任務的未標記數據集D中查詢的USP得分與ground-truth性能(準確性、EM或ROUGE,取決于任務類型)之間的關系。下圖展示了一些代表性結果,在各種任務類型和不同難度的任務中(如圖中由灰色虛線標記的平均性能),USP得分通常與ground-truth性能呈良好的相關性。最近的研究結果表明,更大的LLMs確實通過在上下文中學習信息(而不僅僅是遵循提示格式)并從正確示例中受益,這與USP的結果一致。

cb3dfcf6-0018-11ee-90ce-dac502259ad0.png

總結

本研究提出了USP方法,它是一種專為零樣本學習而設計的自適應prompt方法,適用于各種自然語言理解和生成任務。通過精心選擇零樣本模型生成的輸出作為示例進行上下文學習,取得了顯著的改進效果。在本研究中,作者們展示了USP在兩個LLM模型上超過標準零樣本提示和其他基線方法的優勢。

未來的改進空間也很大。首先,目前的工作主要集中在上下文演示方面,還沒有嘗試優化其他提示組件。進一步的研究可以將USP與自動提示設計相結合,實現更靈活的提示方式。其次,隨著LLM能力的不斷提升,我們可以將USP的思想應用于更多的創新設置中,例如規劃任務以及多模態問題領域的拓展。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    520

    瀏覽量

    10268
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689
  • 自然語言
    +關注

    關注

    1

    文章

    287

    瀏覽量

    13347

原文標題:一個通用的自適應prompt方法,突破了零樣本學習的瓶頸

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    模糊自適應PID控制方法

    種模糊自適應PID控制方法https://bbs.elecfans.com/jishu_260252_1_1.html
    發表于 08-18 09:55

    什么是自適應算術編碼?

    算術編碼是種無失真的編碼方法,能有效地壓縮信源冗余度,屬于熵編碼的種。算術編碼的重要特點就是可以按分數比特逼近信源熵,
    發表于 10-23 07:36

    基于神經網絡自適應諧波電流抑制方法

    在傳統諧波注入法基礎上提出種神經網絡自適應 諧波電流抑制 方法,根據自適應噪聲抵消技術運用人工神經網絡的自適應和自
    發表于 08-22 15:44 ?14次下載
    基于神經網絡<b class='flag-5'>自適應</b>諧波電流抑制<b class='flag-5'>方法</b>

    種超聲測距的魯棒自適應建模方法

    種超聲測距的魯棒自適應建模方法,很好的學習資料,快來下載吧。
    發表于 03-23 17:52 ?11次下載

    基于自適應正弦濾波的序電流互感器在線檢測方法_楊浩

    基于自適應正弦濾波的序電流互感器在線檢測方法_楊浩
    發表于 03-15 17:25 ?1次下載

    基于自適應圖像分類方法

    的角度出發,針對自適應圖像分類問題,提出種新的基于協同特征的無監督方法。首先,所有源樣本被作為字典;然后,距離目標樣本最近的三
    發表于 12-04 16:07 ?1次下載

    基于模型的自適應方法綜述

    自適應為管理現代軟件系統的復雜性提供了有效的解決方案,被設計為自適應系統的軟件能夠持續的演化以應對環境中的不確定性,在現有的研究工作中,基于模型的自適應方法
    發表于 12-19 15:09 ?1次下載
    基于模型的<b class='flag-5'>自適應</b><b class='flag-5'>方法</b>綜述

    基于直推判別字典學習樣本分類方法

    樣本分類的目標是對訓練階段未出現過的類別的樣本進行識別和分類,其主要思路是,借助類別語義信息,將可見類別的知識轉移到未見類別中.提出了種直推式的字典
    發表于 12-25 10:15 ?0次下載
    基于直推判別字典<b class='flag-5'>學習</b>的<b class='flag-5'>零</b><b class='flag-5'>樣本</b>分類<b class='flag-5'>方法</b>

    分層學習自適應動態規劃

    本文基于嬰兒的認知發育模型LOC (Levels of Consciousness)提出了基于分層學習自適應動態規劃方法以改進學習和優化。根據LOC模型中感知的層次性以及工作目標的層
    發表于 01-05 15:13 ?0次下載
    分層<b class='flag-5'>學習</b>的<b class='flag-5'>自適應</b>動態規劃

    模糊時序自適應預測方法

    結合數據特征及分布特點提出種基于譜聚類的模糊時間序列自適應預測方法。首先基于譜聚類的思想,根據樣本數據特征獲取其所屬論域的個數及范圍,實現向模糊時間序列的
    發表于 02-23 11:07 ?0次下載

    區塊鏈將成為自適應學習的催化劑

    自適應學習包括所有最新和先進的技術,如人工智能和機器學習,以根據每個人的需要獲取和張貼的內容。它包含了電子學習、個性化教育、微學習、代幣化、
    發表于 02-12 11:15 ?747次閱讀

    融合樣本學習和小樣本學習的弱監督學習方法綜述

    融合樣本學習和小樣本學習的弱監督學習方法綜述 來源:《系統工程與電子技術》,作者潘崇煜等 摘
    發表于 02-09 11:22 ?2301次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學習</b>的弱監督<b class='flag-5'>學習方法</b>綜述

    基于深度學習樣本SAR圖像目標識別

    將該框架推廣到廣義樣本學習,并針對域偏置問題,提出了- -種基于語義知識的域檢測方法。利用域檢測方法可以先將未見類別和已見類別進行區分,然
    發表于 12-29 14:27 ?660次閱讀

    形狀感知樣本語義分割

    由于大規模視覺語言預訓練取得了令人矚目的進展,最近的識別模型可以以驚人的高準確度對任意對象進行樣本和開放式分類。
    的頭像 發表于 04-28 11:26 ?814次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語義分割

    什么是樣本學習?為什么要搞樣本學習?

    樣本分類的技術目前正處于高速發展時期, 所涉及的具體應用已經從最初的圖像分類任務擴展到了其他計算機視覺任務乃至自然語言處理等多個相關領域。 對此, 本文將其稱為廣義樣本分類。 相應
    發表于 09-22 11:10 ?2170次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學習</b>?
    主站蜘蛛池模板: 2017日日干| 久久精品九九亚洲精品天堂| 欧美日韩国产在线一区二区| 伊人久久精品中文字幕| 国产人成高清在线视频99| 日本黄色成年人免费观看| 9277在线观看免费高清完整版| 精品亚洲AV无码蜜芽麻豆| 羞羞答答的免费视频在线观看| 纯肉小黄文高H| 欧美大片免费| 99国产精品| 免费视频国产| 中文在线中文资源| 九九免费的视频| 亚洲色欲啪啪久久WWW综合网| 国产一卡 二卡三卡四卡无卡乱码视频| 少妇无码太爽了视频在线播放 | 美女18黄| 2019欧洲hd| 快穿做妓女好爽H| 总攻催眠受的高h巨肉np| 久久青青草原| 真实农村女人野外自拍照片| 久久精品国产只有精品| 再插深点嗯好大好爽| 久久青草免费线观最新| 最新国自产拍天天更新| 猫咪av永久最新域名| 98色精品视频在线| 内射无码AV-区二区在线观看| 99精品视频免费观看| 欧美人与禽ZOZO性伦交视频 | 国产女合集第六部| 亚洲 欧美 中文 日韩 另类| 国产一区二区三区乱码在线观看| 亚洲高清毛片一区二区| 黄网13区| 18禁止看的免费污网站| 欧美性xxxx18| 干丝袜美女|