色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型—LM-BFF

自然語(yǔ)言處理愛好者 ? 來(lái)源:AI部落聯(lián)盟 ? 作者:JasonCai ? 2021-08-16 11:21 ? 次閱讀

最近又出了個(gè)比較吸引人眼球的Prompt Learning,甚至該方法還被稱之為NLP的“第四范式”,具體有哪幾項(xiàng)請(qǐng)參考以下鏈接:

綜述文章:https://arxiv.org/pdf/2107.13586.pdf

相關(guān)資源:http://pretrain.nlpedia.ai

Part1什么是Prompt Learning

從BERT誕生開始,使用下游任務(wù)數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型 (LM)已成為 NLP 領(lǐng)域的通用做法。直到GPT-3模型首先將自然語(yǔ)言的提示信息(prompt)和任務(wù)示例(demonstration)作為上下文輸入給GPT-3,使得GPT-3只需要少數(shù)的幾個(gè)樣本,不需要訓(xùn)練底層的參數(shù)便能夠處理任務(wù)。應(yīng)該是受到這一做法的啟發(fā),目前很多研究聚焦在Prompt Learning上,只為了更好的激發(fā)語(yǔ)言模型的潛能。

在了解Prompt Learning之前,首先我們要知道什么是prompt。prompt是提示的意思,也就是說(shuō)需要提示模型我們想讓它干什么。通常在GPT-3中,我們輸入一段描述,再加上“翻譯”或者“問(wèn)答”的prompt,那么GPT-3會(huì)生成相應(yīng)的結(jié)果。

最近該玩法在NLU中也得到了應(yīng)用,比如情感分類任務(wù),給定一句話“I missed the bus today.”,在其之后添加一個(gè)prompt:“I felt so __”,之后讓語(yǔ)言模型用一個(gè)情感類的詞進(jìn)行完型填空,再將填空的詞語(yǔ)映射到標(biāo)簽,這樣一來(lái)就能夠解決分類任務(wù)了。

大家發(fā)現(xiàn)沒有,這樣一來(lái)減少了訓(xùn)練和測(cè)試階段之間的gap,因?yàn)槲覀冊(cè)陬A(yù)訓(xùn)練的時(shí)候使用的MLM任務(wù)就是一個(gè)完型填空任務(wù),通常使用分類任務(wù)fine-tuning模型的時(shí)候需要加一個(gè)hidden_size * label_size的FFN,還得專門去訓(xùn)練這個(gè)FFN的參數(shù)。但是如果使用Prompt Learning的方式,就省略了這一步了。這樣一來(lái)豈不是不用花大力氣訓(xùn)練模型了?哈哈是的,很多研究證明Prompt Learning在小樣本(few-shot)場(chǎng)景下很有效。

Part2Few-shot Learner

論文標(biāo)題:Making Pre-trained Language Models Better Few-shot Learners

論文來(lái)源:ACL2021

論文鏈接:https://arxiv.org/pdf/2012.15723.pdf

論文代碼:https://github.com/princeton-nlp/LM-BFF

本文主要有兩個(gè)貢獻(xiàn)點(diǎn):

(1)基于提示(prompt)進(jìn)行微調(diào),關(guān)鍵是如何自動(dòng)化生成提示模板;

(2)將樣本示例以上下文的形式添加到每個(gè)輸入中,關(guān)鍵是如何對(duì)示例進(jìn)行采樣;

1prompt-based fine-tuning

之前說(shuō)過(guò)GPT-3模型基于prompt生成文本。受到該啟發(fā)本文提出了一種可以應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型——LM-BFF(小樣本微調(diào)預(yù)訓(xùn)練模型)。

9d8d181e-fd9a-11eb-9bcf-12bb97331649.png

從上圖可以看出在預(yù)訓(xùn)練的時(shí)候使用的MLM任務(wù)就是一個(gè)完型填空任務(wù),在分類任務(wù)中微調(diào)的時(shí)候需要加一個(gè)hidden_size * label_size的FFN,微調(diào)的過(guò)程需要訓(xùn)練這個(gè)FFN的參數(shù)。在使用Prompt Learning的方式的時(shí)候省略了這一步。這樣一來(lái)就不用花大力氣訓(xùn)練模型了,而且該方法減少了訓(xùn)練和測(cè)試階段之間的gap,在小樣本(few-shot)場(chǎng)景下很有效。

在具體的實(shí)驗(yàn)過(guò)程中,作者發(fā)現(xiàn)使用不同的模板或不同的標(biāo)簽詞進(jìn)行微調(diào)得到的效果是不同的,如下圖所示:

9dda6e0c-fd9a-11eb-9bcf-12bb97331649.png

比如對(duì)于同一個(gè)標(biāo)簽詞,如果使用的prompt的模板不同(替換了某個(gè)單詞或者刪除某一個(gè)標(biāo)點(diǎn)符號(hào)),得到的結(jié)果會(huì)有較大的波動(dòng);而且當(dāng)選擇不同的標(biāo)簽詞時(shí),對(duì)預(yù)測(cè)的結(jié)果也會(huì)產(chǎn)生影響。這是由于人工設(shè)計(jì)模板和標(biāo)簽詞時(shí)候和模型本身具有的gap帶來(lái)的缺陷。因此作者提出一種自動(dòng)創(chuàng)建模板的方法。

2Automatic Prompt Generation

Prompt的自動(dòng)生成又分為了兩個(gè)部分(label的生成和模板的生成):

Label Generation

這個(gè)部分主要分成3步:

(1)首先在訓(xùn)練集中,針對(duì)未經(jīng)過(guò)微調(diào)的語(yǔ)言模型,對(duì)于每個(gè)label都找到使其條件概率最大Topk個(gè)單詞;

9e0efc26-fd9a-11eb-9bcf-12bb97331649.png

(2)綜合每個(gè)類別下的候選標(biāo)簽詞,然后找出使得訓(xùn)練集正確率最大的top-n個(gè)分配方式;

(3)使用dev集對(duì)模型進(jìn)行微調(diào),從n個(gè)分配方式中選擇最佳的一個(gè)標(biāo)簽詞,構(gòu)建標(biāo)簽映射關(guān)系M。

Prompt Generation

模板的生成則是使用的T5模型,固定標(biāo)簽詞,生成固定模板。

9e50d790-fd9a-11eb-9bcf-12bb97331649.png

整體過(guò)程如下所示:

Fine-tuning with Demonstration

在GPT-3中,微調(diào)的時(shí)候從訓(xùn)練集中隨機(jī)抽取32個(gè)示例,以上下文的形式添加到每個(gè)輸入中;

這種方式的缺陷在于:樣本示例的數(shù)量會(huì)受到模型最大輸入長(zhǎng)度的限制;不同類型的大量隨機(jī)示例混雜在一起,會(huì)產(chǎn)生很長(zhǎng)的上下文,不利于模型學(xué)習(xí)。

LM-BFF采用2種簡(jiǎn)單的方式進(jìn)行了改進(jìn):

對(duì)于每個(gè)輸入,從每個(gè)類別中隨機(jī)采樣一個(gè)樣本示例,最終將所有類別下的采樣示例進(jìn)行拼接輸入;

對(duì)于每個(gè)輸入,在每個(gè)類別中,通過(guò)與Sentence-BERT進(jìn)行相似度計(jì)算、并從排序得分的top50%中隨機(jī)選擇一個(gè)樣本示例。

Results

本文提出了一種簡(jiǎn)單而又有效的小樣本微調(diào)方法——LM-BFF。主要包括2部分:

采用提示自動(dòng)構(gòu)建方式來(lái)進(jìn)行「基于模板的微調(diào)方法」。

動(dòng)態(tài)選擇樣本示例,作為輸入的上下文。但LM-BFF也有以下缺陷:

LM-BFF仍落后基于全量標(biāo)注數(shù)據(jù)的標(biāo)準(zhǔn)微調(diào)方法(PS:廢話,數(shù)據(jù)目前還是越多好~)

LM-BFF自動(dòng)構(gòu)建提示的方法雖然有效,但擴(kuò)展搜索空間在現(xiàn)實(shí)應(yīng)用中仍是一個(gè)巨大挑戰(zhàn);

LM-BFF僅支持幾種特定的任務(wù):1)能自然轉(zhuǎn)化為「空白填空」問(wèn)題,如結(jié)構(gòu)化預(yù)測(cè)的NER任務(wù)可能就不適合;2)句子輸入不要太長(zhǎng);3)不要包含過(guò)多的類別;其中2)和3)可以在長(zhǎng)距離語(yǔ)言模型中進(jìn)行改善。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    353

    瀏覽量

    15344
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22033

原文標(biāo)題:Prompt Learning-使用模板激發(fā)語(yǔ)言模型潛能

文章出處:【微信號(hào):NLP_lover,微信公眾號(hào):自然語(yǔ)言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫(kù),如
    的頭像 發(fā)表于 12-20 10:32 ?69次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1227次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是一個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)鍵考慮因素: 定義目標(biāo)和需求 : 確定你的L
    的頭像 發(fā)表于 11-08 09:30 ?507次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?215次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    大語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語(yǔ)言的通用知識(shí)
    的頭像 發(fā)表于 07-11 10:11 ?422次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預(yù)訓(xùn)練模型,通過(guò)大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以
    的頭像 發(fā)表于 07-09 09:59 ?597次閱讀

    人臉識(shí)別模型訓(xùn)練是什么意思

    人臉識(shí)別模型訓(xùn)練是指通過(guò)大量的人臉數(shù)據(jù),使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法,訓(xùn)練出一個(gè)能夠識(shí)別和分類人臉的模型。這個(gè)模型可以
    的頭像 發(fā)表于 07-04 09:16 ?579次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)
    的頭像 發(fā)表于 07-03 18:20 ?2770次閱讀

    大語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    種語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,此處預(yù)訓(xùn)練為自然語(yǔ)言處理領(lǐng)域的里程碑 分詞技術(shù)(Tokenization) Word粒度:我/賊/喜歡/看/大語(yǔ)言
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    操作。所謂零樣本提示(Zero-Shot Prompt),指的是在提示詞中不包含與指令任務(wù)相似的任何示例。 當(dāng)大語(yǔ)言模型訓(xùn)練完成后,它便具備了分析情緒和識(shí)別命名實(shí)體等常見任務(wù)的能力,這些能力源于
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    就無(wú)法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個(gè)詞映射為一個(gè)低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語(yǔ)料庫(kù)中利用某種語(yǔ)言模型進(jìn)行
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    預(yù)訓(xùn)練和微調(diào),直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transformer網(wǎng)絡(luò),它包含多個(gè)自注意力層,能夠捕
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大能力,同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。書中對(duì)大語(yǔ)言
    發(fā)表于 04-30 15:35

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?782次閱讀
    主站蜘蛛池模板: 影音先锋 av天堂| 中文字幕一区二区三区在线观看| 欧美末成年videos丨| 全部免费特黄特色大片看片| 在线观看国产精美视频| 国产制服丝袜91在线| 天天操狠狠操夜夜操| 成人国产亚洲精品A区天堂蜜臀| 免费xxx成年大片| 最新高清无码专区在线视频| 久久精品一卡二卡三卡四卡视频版| 亚洲国产AV无码综合在线| 99视频网址| 国产女人与黑人在线播放| 世界第一黄暴漫画家| 纯肉小黄文高H| 巨胸美女狂喷奶水www网麻豆| 日韩欧美中文字幕一区| 俺来也俺去也视频久久| 麻豆AV福利AV久久AV| 中文天堂www资源| 久青草国产观看在线视频| 曰本真人00XX动太图| 久久久无码精品亚洲A片猫咪 | 短篇合集纯肉高H深陷骚 | 超级最爽的乱淫片免费| 久久久影院亚洲精品| 在线a视频| 午夜国产视频| 俄罗斯aaaaa一级毛片| 色噜噜视频| 国产AV午夜精品一区二区入口| 色列少女漫画| 国产精品久久久久久久久齐齐| 无人视频在线观看免费播放影院| 国产精品视频人人做人人爽| 香蕉久久夜色精品国产小说| 国产亚洲精品久久久久| 青草在线观看视频| 成人AV精品视频| 玩弄人妻少妇500系列网址|