色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于優(yōu)化的元學(xué)習(xí)方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-12-15 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 簡(jiǎn)介

Prompt通過(guò)將輸入文本填入預(yù)設(shè)prompt模板的方式,將下游NLP任務(wù)形式與語(yǔ)言模型預(yù)訓(xùn)練任務(wù)統(tǒng)一起來(lái),來(lái)更好地利用預(yù)訓(xùn)練階段學(xué)習(xí)到的知識(shí),使模型更容易適應(yīng)于下游任務(wù),在一系列NLP任務(wù)上取得了很好的效果[1]。Soft prompt方法使用可學(xué)習(xí)的參數(shù)來(lái)替代prompt模板中固定的token,盡管在少標(biāo)注文本分類任務(wù)上性能優(yōu)異[2],但是其表現(xiàn)隨模型初始化參數(shù)不同會(huì)出現(xiàn)很大的波動(dòng)[1, 3]。人工選擇soft prompt模型參數(shù)需要對(duì)語(yǔ)言模型內(nèi)部工作機(jī)理的深入理解和大量試錯(cuò),并且在遇到不同少標(biāo)注任務(wù)時(shí)難以復(fù)用。

e59393fc-7c3f-11ed-8abf-dac502259ad0.png

圖1 MetaPrompting幫助模型找到一個(gè)更優(yōu)參數(shù)初始化點(diǎn),以更快、更好地適應(yīng)于新的少標(biāo)注任務(wù)

為了解決上述問(wèn)題,本文將目光從任務(wù)專用的soft prompt模型設(shè)計(jì)轉(zhuǎn)移到任務(wù)通用的模型參數(shù)初始化點(diǎn)搜索,以幫助模型快速適應(yīng)到不同的少標(biāo)注任務(wù)上。本文采用近年提出的基于優(yōu)化的元學(xué)習(xí)方法,例如MAML[4]、Reptile[5]等,來(lái)搜索更優(yōu)的soft prompt模型參數(shù)初始化點(diǎn),以解決模型對(duì)初始化點(diǎn)過(guò)于敏感的問(wèn)題。

本文在四個(gè)常用的少標(biāo)注文本分類數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),結(jié)果表明MetaPrompting相比其他基于元學(xué)習(xí)和prompt方法的強(qiáng)基線模型取得了更好的效果,達(dá)到了新的SOTA。

2. 方法

2.1 Soft prompt方法

Prompt方法通過(guò)將下游任務(wù)轉(zhuǎn)化成語(yǔ)言模型預(yù)訓(xùn)練目標(biāo)的形式,幫助模型更好地在下游任務(wù)上發(fā)揮性能。如圖2所示,對(duì)于一個(gè)新聞文本分類任務(wù),可以通過(guò)將輸入文本填入prompt模板的方式,將該文本分類任務(wù)轉(zhuǎn)化為MLM任務(wù)形式。之后將模型在[MASK]位置填入各個(gè)詞語(yǔ)的概率映射到不同標(biāo)簽上,即可完成文本分類任務(wù)的處理。

Soft prompt模型中,部分prompt tokens以可訓(xùn)練embedding的形式給出,并可以和預(yù)訓(xùn)練模型的參數(shù)一起進(jìn)行優(yōu)化,在保留離散token中語(yǔ)義信息的同時(shí),給予模型更多的靈活性。

e5ad9fe0-7c3f-11ed-8abf-dac502259ad0.png

圖2 Soft prompt方法

2.2 將基于優(yōu)化的元學(xué)習(xí)方法應(yīng)用于soft prompt模型

少標(biāo)注任務(wù)構(gòu)建

本文使用元階段(episode)風(fēng)格的少標(biāo)注學(xué)習(xí)范式。具體而言,每一個(gè)少標(biāo)注任務(wù)包含支持集和查詢集兩個(gè)部分,支持集中每個(gè)類別所對(duì)應(yīng)標(biāo)注樣本數(shù)量極少,本文通過(guò)將模型在支持集上進(jìn)行適配,在查詢集上進(jìn)行測(cè)試的方法,衡量模型的少標(biāo)注學(xué)習(xí)性能。本文將不同標(biāo)簽對(duì)應(yīng)的樣本分別劃分成用于訓(xùn)練、驗(yàn)證和測(cè)試的少標(biāo)注任務(wù),以衡量模型從源領(lǐng)域?qū)W習(xí)通用元知識(shí)來(lái)處理目標(biāo)領(lǐng)域少標(biāo)注任務(wù)的能力。

基于元學(xué)習(xí)的soft prompt模型優(yōu)化過(guò)程

MetaPrompting的整體優(yōu)化過(guò)程如圖3所示。元訓(xùn)練階段,模型在少標(biāo)注任務(wù)的支持集上進(jìn)行試探性參數(shù)更新,并在查詢集上進(jìn)行梯度回傳。元測(cè)試階段,模型在未見(jiàn)過(guò)的少標(biāo)注任務(wù)上進(jìn)行適配和預(yù)測(cè)。令和分別表示預(yù)訓(xùn)練模型和soft prompt的參數(shù),在元訓(xùn)練階段,模型在一個(gè)少標(biāo)注任務(wù)支持集上進(jìn)行適配的過(guò)程如下式所示:

e5d71456-7c3f-11ed-8abf-dac502259ad0.png

其中α是適配過(guò)程的學(xué)習(xí)率,表示模型進(jìn)行適配學(xué)習(xí)的步數(shù)。令模型在少標(biāo)注任務(wù)上適配學(xué)習(xí)之后的參數(shù)為和,可將模型在該少標(biāo)注任務(wù)上的優(yōu)化目標(biāo)描述為:

e5e858ce-7c3f-11ed-8abf-dac502259ad0.png

該優(yōu)化目標(biāo)模擬了模型在少標(biāo)注場(chǎng)景下進(jìn)行試探性參數(shù)更新,并根據(jù)試探性更新之后的情況優(yōu)化模型參數(shù)的策略。這種策略更多關(guān)注了模型在一步或多步更新之后的情況,因而可以幫助模型找到一個(gè)能快速適應(yīng)于新的少標(biāo)注任務(wù)的參數(shù)初始化點(diǎn)。

e6529d24-7c3f-11ed-8abf-dac502259ad0.png

圖3 MetaPrompting模型參數(shù)更新過(guò)程

實(shí)驗(yàn)中,本文還使用了MAML++[6]中的多步梯度回傳技巧,來(lái)使得優(yōu)化過(guò)程更加穩(wěn)定,達(dá)到更好的效果。

3. 實(shí)驗(yàn)

本文分別采用5way 1shot和5way 5shot的少標(biāo)注學(xué)習(xí)設(shè)定來(lái)測(cè)試模型性能。實(shí)驗(yàn)選擇了HuffPost、Amazon、Reuters和20newsgroup四個(gè)廣泛使用的文本分類數(shù)據(jù)集,結(jié)果以分類準(zhǔn)確率%給出。

實(shí)驗(yàn)結(jié)果如表1所示,表中20newsgroup數(shù)據(jù)集性能由于數(shù)據(jù)構(gòu)造問(wèn)題與原文略有出入,現(xiàn)為勘誤后結(jié)果,勘誤不影響實(shí)驗(yàn)結(jié)論。由實(shí)驗(yàn)結(jié)果可見(jiàn),MetaPrompting性能優(yōu)于當(dāng)前的SOTA模型ContrastNet[7]和其他基于元學(xué)習(xí)和提示學(xué)習(xí)的方法,取得了明顯的性能提升。相比于不使用元學(xué)習(xí)優(yōu)化目標(biāo)的Ours (Pretrain Init),引入元學(xué)習(xí)搜索模型參數(shù)初始化點(diǎn)的Ours (Meta Init)也得到了更好的性能,說(shuō)明了元學(xué)習(xí)方法在soft prompt模型參數(shù)優(yōu)化中的有效性。

表1 MetaPrompting主實(shí)驗(yàn)結(jié)果

e67c2004-7c3f-11ed-8abf-dac502259ad0.png

主實(shí)驗(yàn)中,為了與其他基線模型進(jìn)行公平的對(duì)比,將soft prompt參數(shù)和預(yù)訓(xùn)練模型參數(shù)一起進(jìn)行了優(yōu)化。為了更好地說(shuō)明MetaPrompting針對(duì)soft prompt參數(shù)初始化的作用,本文還參數(shù)進(jìn)行了固定預(yù)訓(xùn)練模型的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示,相比于參數(shù)隨機(jī)初始化的soft prompt模型,MetaPrompting取得了明顯的性能提升。

表2 MetaPrompting在固定預(yù)訓(xùn)練模型參數(shù)時(shí)的性能

e77114c4-7c3f-11ed-8abf-dac502259ad0.png

現(xiàn)實(shí)應(yīng)用場(chǎng)景中,往往難以得到內(nèi)容、形式十分相近的源領(lǐng)域數(shù)據(jù)。因此本文還對(duì)MetaPrompting在分布外數(shù)據(jù)上的性能進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示,即使源領(lǐng)域的數(shù)據(jù)內(nèi)容、形式上有較大的差異,MetaPrompting仍然可以學(xué)習(xí)到任務(wù)通用的元知識(shí),來(lái)輔助在目標(biāo)領(lǐng)域少標(biāo)注任務(wù)上的學(xué)習(xí)。

表3 MetaPrompting在不同內(nèi)容、形式的源領(lǐng)域數(shù)據(jù)上進(jìn)行元學(xué)習(xí)的性能

e7897e38-7c3f-11ed-8abf-dac502259ad0.png

本文還對(duì)MetaPrompting對(duì)于不同prompt模板的魯棒性進(jìn)行了測(cè)試。如表4所示,相比于隨機(jī)初始化的soft prompt模型,MetaPrompting尋找到的參數(shù)初始化點(diǎn)在不同prompt模板下性能方差更小,魯棒性更強(qiáng)。

表4 MetaPrompting在不同prompt模板下性能的方差

e79c70f6-7c3f-11ed-8abf-dac502259ad0.png

4. 總結(jié)

本文提出了MetaPrompting,將基于優(yōu)化的元學(xué)習(xí)方法推廣到soft prompt模型中,來(lái)處理少標(biāo)注文本任務(wù)。MetaPrompting利用源領(lǐng)域數(shù)據(jù)進(jìn)行元學(xué)習(xí),搜索能夠更快、更好地適應(yīng)于新的少標(biāo)注人物的模型參數(shù)初始化點(diǎn)。在4個(gè)少標(biāo)注文本分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MetaPrompting相比于樸素的soft prompt模型以及其他基于元學(xué)習(xí)的基線模型取得了更好的效果,達(dá)到了新的SOTA性能。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50363
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25421
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22605

原文標(biāo)題:參考文獻(xiàn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)篇、入門篇循序漸進(jìn)學(xué)習(xí)。參考兩份手冊(cè),提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)資料查找渠道。讓我們一起踏上W55MH32高性能以太網(wǎng)單片機(jī)的
    的頭像 發(fā)表于 05-26 09:07 ?82次閱讀
    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的<b class='flag-5'>學(xué)習(xí)方法</b>概述

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何監(jiān)督或關(guān)于結(jié)果的先驗(yàn)知識(shí)。
    的頭像 發(fā)表于 05-16 14:48 ?662次閱讀
    使用MATLAB進(jìn)行無(wú)監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?396次閱讀
    18個(gè)常用的強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出了一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過(guò)不同的繞組通電組合將電機(jī)轉(zhuǎn)子依次轉(zhuǎn)到6個(gè)不同的位置并記錄對(duì)應(yīng)的霍耳信號(hào),然后得出霍耳信號(hào)與定子繞組的對(duì)應(yīng)關(guān)系。所提出的方法快速
    發(fā)表于 03-25 15:15

    VirtualLab Fusion應(yīng)用:非近軸衍射分束器的設(shè)計(jì)與優(yōu)化

    地介紹了這一部分。 非近軸衍射分束器的嚴(yán)格分析 采用傅里葉模態(tài)法(FMM)對(duì)非近軸衍射分束器進(jìn)行了嚴(yán)格的評(píng)價(jià),該方法最初采用迭代傅里葉變換算法(IFTA)和薄近似算法(TEA)進(jìn)行設(shè)計(jì)。 高數(shù)值孔徑分
    發(fā)表于 03-10 08:56

    DeepSeek與Kimi揭示o1秘密,思維鏈學(xué)習(xí)方法顯成效

    據(jù)消息,OpenAI近日發(fā)布了一項(xiàng)重要研究報(bào)告。報(bào)告指出,DeepSeek和Kimi兩家機(jī)構(gòu)通過(guò)獨(dú)立研究,成功利用思維鏈學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)。 Kimi的研究員
    的頭像 發(fā)表于 02-18 15:13 ?465次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解
    的頭像 發(fā)表于 02-12 15:51 ?914次閱讀

    焊接技術(shù)流程優(yōu)化方法

    焊接是現(xiàn)代制造業(yè)中不可或缺的一部分,廣泛應(yīng)用于建筑、汽車、航空、船舶等領(lǐng)域。隨著科技的發(fā)展,對(duì)焊接技術(shù)的要求越來(lái)越高,優(yōu)化焊接流程顯得尤為重要。 1. 焊接工藝的優(yōu)化 1.1 選擇合適的焊接方法
    的頭像 發(fā)表于 01-19 13:52 ?1164次閱讀

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開(kāi)發(fā)生物學(xué)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個(gè)強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比,傳統(tǒng)方法在給定問(wèn)題上的開(kāi)發(fā)和測(cè)試速度更快。
    的頭像 發(fā)表于 12-30 09:16 ?1173次閱讀
    傳統(tǒng)機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    來(lái)源:Master編程樹(shù)“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆](méi)有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的機(jī)器學(xué)習(xí)的定義是“利用經(jīng)
    的頭像 發(fā)表于 11-16 01:07 ?957次閱讀
    什么是機(jī)器<b class='flag-5'>學(xué)習(xí)</b>?通過(guò)機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>能解決哪些問(wèn)題?

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    深度學(xué)習(xí)模型的魯棒性優(yōu)化是一個(gè)復(fù)雜但至關(guān)重要的任務(wù),它涉及多個(gè)方面的技術(shù)和策略。以下是一些關(guān)鍵的優(yōu)化方法: 一、數(shù)據(jù)預(yù)處理與增強(qiáng) 數(shù)據(jù)清洗 :去除數(shù)據(jù)中的噪聲和異常值,這是提高模型魯棒
    的頭像 發(fā)表于 11-11 10:25 ?1172次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?1017次閱讀

    AI大模型的性能優(yōu)化方法

    AI大模型的性能優(yōu)化是一個(gè)復(fù)雜而關(guān)鍵的任務(wù),涉及多個(gè)方面和策略。以下是一些主要的性能優(yōu)化方法: 一、模型壓縮與優(yōu)化 模型蒸餾(Model Distillation) 原理:通過(guò)訓(xùn)練一個(gè)
    的頭像 發(fā)表于 10-23 15:01 ?2390次閱讀

    嵌入式學(xué)習(xí)建議

    學(xué)習(xí)目的,并注意學(xué)習(xí)方法。要明確學(xué)習(xí)目的是打基礎(chǔ),還是為了適應(yīng)工作需要而進(jìn)行的短訓(xùn)。學(xué)習(xí)方法方面,要根據(jù)學(xué)習(xí)目的選擇合適的
    發(fā)表于 10-22 11:41

    《DNK210使用指南 -CanMV版 V1.0》第一章本書(shū)學(xué)習(xí)方法

    第一章 本書(shū)學(xué)習(xí)方法 為了讓讀者更好地學(xué)習(xí)和使用本書(shū),本章將為讀者介紹本書(shū)的學(xué)習(xí)方法,包括:本書(shū)的學(xué)習(xí)順序、編寫(xiě)規(guī)范、代碼規(guī)范、資料查找和學(xué)習(xí)
    發(fā)表于 08-28 17:57
    主站蜘蛛池模板: 张津瑜的9分58秒7段免费 | 综合伊人久久 | 成人公开免费视频 | 大胸美女脱内衣黄网站 | 扒开黑女人p大荫蒂老女人 扒开粉嫩的小缝末成年小美女 | 久久国产精品人妻中文 | 国产精品系列在线观看 | 欧美日韩高清一区二区三区 | 男人和女人全黄一级毛片 | 我要干av | 黑人玩弄极品人妻系列 | 在线观看国产人视频免费中国 | 向日葵视频app下载18岁以下勿看 | 日本欧美久久久久免费播放网 | 贵妇局长的蕾丝乳罩 | 月夜直播视频免费观看 | 亚洲最大成人 | 久久天堂视频 | 韩国电影久久 | 亚洲成人在线免费观看 | 色欲AV人妻精品麻豆AV | 99热这里只有精品 | 夫妻性姿势真人做视频 | 精品无人区一区二区三区 | 亚洲影院在线播放 | 波多野结衣网站www 波多野结衣教师系列6 | 最近中文字幕mv手机免费高清 | 亚洲第一综合天堂另类专 | 超碰98人人插 | 拔萝卜在线高清观看视频 | 亚洲成人综合在线 | 曰本aaaaa毛片午夜网站 | 手机在线成人精品视频网 | 夜夜狂射影院欧美极品 | 人妻夜夜爽99麻豆AV | 男女生爽爽爽视频免费观看 | 成人在线免费 | 97人人超碰国产精品最新蜜芽 | 国产精品一区二区激情 | 亚洲区欧美日韩综合 | 久 久 亚洲 少 妇 无 码 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品