色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

介紹幾篇EMNLP'22的語言模型訓練方法優化工作

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 2022-12-22 16:14 ? 次閱讀

來自:圓圓的算法筆記

今天給大家介紹3篇EMNLP 2022中語言模型訓練方法優化的工作,這3篇工作分別是:

針對檢索優化語言模型:優化語言模型訓練過程,使能夠生成更合適的句子表示用于檢索——RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder;

針對事實知識提取優化語言模型:在語言模型訓練過程中引入知識庫,提升語言模型對事實知識的抽取能力——Pre-training Language Models with Deterministic Factual Knowledge;

針對目標域效果優化語言模型:將語言模型在目標domain繼續訓練,在不遺忘原始知識的情況下學到目標doman新知識——Continual Training of Language Models for Few-Shot Learning。

后臺回復【語言模型】,可以獲取14種深度學習語言模型的梳理資料。

1 針對檢索優化語言模型

在query-document檢索任務中,核心是獲取到query和document的句子表征,然后利用向量檢索的方式完成檢索任務。BERT已經成為提取句子表示向量的主流方法。然而,BERT在預訓練階段的主要任務是MLM,缺少對句子整體表示提取的優化目標,導致句子表示提取能力不足。

RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder這篇文章對BERT的訓練方式進行了優化,使得BERT能提取更高質量的句子表示,進而提升檢索效果。RetroMAE的整體結構如下圖所示,包括一個Encoder和一個Decoder。對于每一個樣本,Encoder的輸入隨機mask掉15%的token,和原始BERT類似,利用Encoder得到整體的句子表示。在Decoder側,輸入Encoder的句子表示,以及mask掉70%的token的樣本,讓Decoder還原整個句子。Encoder是一個比較復雜的BERT模型,Decoder則使用一個比較簡單的單層Transformer模型。

本文的模型設計思路是,Decoder提供的信息盡可能少、模型的復雜度盡可能低,這樣可以迫使Encoder生成的句子表示包含更完整的句子信息,保障了Encoder生成的句子embedding的質量。相比對比學習學習句子表示的方法,RetroMAE的優勢是效果不依賴于數據增強方法和正負樣本構造方法的選擇。

8baaea7a-7f73-11ed-8abf-dac502259ad0.png

2 針對事實知識提取優化語言模型

隨著prompt的興起,預訓練語言模型經常被用于進行知識抽取。構造一個prompt模板,以完形填空的形式讓模型預測空缺位置的token,實現知識抽取。然而,預訓練語言模型的抽取結果有時會很大程度上受到prompt選擇的影響,如下表所示,魯棒性較差。一個核心原因是,在訓練語言模型的過程中,有些被mask掉的部分并不一定只有唯一一個正確答案。當被mask部分存在多個正確答案,而模型在訓練過程中被要求只預測一個正確答案時,就會導致其他本來正確的答案被強行設置成為負樣本,進而影響了模型效果。

8bc2b222-7f73-11ed-8abf-dac502259ad0.png

Pre-training Language Models with Deterministic Factual Knowledge針對這個問題,提出了在構造預訓練樣本時,引入知識庫對數據進行過濾。核心是在KG中查找知識信息,看樣本中被mask掉的實體是否這段文本的描述中唯一確定的正確答案。如果是,那么這個樣本不會給語言模型帶來歧義,正常參與訓練;否則就是一個多答案樣本,從訓練數據中去除掉。通過這種數據過濾的方式,讓模型在訓練階段見到的預測任務都是只有一個確定答案的,解決了多答案mask token預測的影響。

8bd673d4-7f73-11ed-8abf-dac502259ad0.png

為了進一步提升模型能力,文中提出了Clue Contrastive Learning和Clue Classification兩個任務。Clue Contrastive Learning的目標是讓模型具備一種能力:當上下文指向的答案是確定性的時候,就預測一個更有信心一些。通過構造確定性樣本和非確定性樣本,以這對樣本的對比關系進行學習。Clue Classification讓語言模型知道上下文信息中存在什么樣的線索。通過保留決定性線索、刪除決定性線索、刪除其他非決定性線性構造三種樣本用于分類。

3 針對目標域效果優化語言模型

在使用預訓練語言模型解決下游NLP任務時,如果目標任務的有label數據較少,一種能提升效果的方法是先將語言模型在目標任務domain上無監督語料上繼續訓練,讓語言模型適應目標任務的文本分布。在面對下游各類、持續增加的任務時,我們需要不斷的使用新任務domain的語言訓練語言模型。這樣做的風險可能會破壞原來語言模型學到的知識,導致信息遺忘等問題,帶來老任務上效果的下降。

Continual Training of Language Models for Few-Shot Learning提出了一種語言模型連續學習的方法解決上述問題。核心思路是借鑒了Adapter,在語言模型中插入多個CL組件(全連接層),模型在目標domain語言上繼續學習的過程中,只更新這些CL組件,原始的語言模型保持參數不變。在具體任務上finetune時,語言模型和CL組件一起更新。

8be67842-7f73-11ed-8abf-dac502259ad0.png

這里面的一個關鍵模塊是使用task id生成CL組件中的mask,每個任務的mask代表了哪些神經元對于當前任務最重要,這些神經元會在后續新任務的訓練中被mask掉,不進行梯度更新,防止新任務對老任務已經學到的信息造成影響。每次訓練一個新任務時,會把老任務的mask匯總起來控制住不更新的神經元,并且對新的task也學習一套mask。

4 總結

本文主要介紹了3篇EMNLP 2022中和語言模型優化相關的工作,涉及檢索、知識提取、持續學習等方面。語言模型在很多場景有各種各樣的應用,學術界對于語言模型的優化方向,逐漸從原來的大規模預訓練方式、模型結構優化,轉向到細領域的針對性優化。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4677

    瀏覽量

    94283
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22405

原文標題:介紹幾篇EMNLP'22的語言模型訓練方法優化工作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    復用和優化效果。這些趨勢共同推動了大語言模型在深度學習研究和應用中的重要地位。數據效應指出大型模型需要更多數據進行訓練,以提高性能。其次,表
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練數據的需求也相
    發表于 05-07 17:10

    Pytorch模型訓練實用PDF教程【中文】

    本教程以實際應用、工程開發為目的,著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發中,主要涉及三大部分,分別是數據、
    發表于 12-21 09:18

    優化神經網絡訓練方法有哪些?

    優化神經網絡訓練方法有哪些?
    發表于 09-06 09:52

    基于粒子群優化的條件概率神經網絡的訓練方法

    訓練方法。我們將這種基于粒子群優化的條件概率神經網絡用于人臉年齡估計,實驗結果表明這種網絡能夠顯著地提高識別的準確率。
    發表于 01-08 16:35 ?0次下載

    微軟在ICML 2019上提出了一個全新的通用預訓練方法MASS

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的預訓練方法:屏蔽序列到序列預訓練(MASS: Masked Sequence to Sequence Pre-training
    的頭像 發表于 05-11 09:19 ?3619次閱讀
    微軟在ICML 2019上提出了一個全新的通用預<b class='flag-5'>訓練方法</b>MASS

    新的預訓練方法——MASS!MASS預訓練幾大優勢!

    專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的預訓練方法:屏蔽序列到序列預訓練(MASS: Masked Sequence to Sequence Pre-training)。MASS對句子隨機屏蔽一個長度為k的
    的頭像 發表于 05-11 09:34 ?7298次閱讀
    新的預<b class='flag-5'>訓練方法</b>——MASS!MASS預<b class='flag-5'>訓練</b>幾大優勢!

    關于語言模型和對抗訓練工作

    訓練方法不僅能夠在BERT上有提高,而且在RoBERTa這種已經預訓練好的模型上也能有所提高,說明對抗訓練的確可以幫助模型糾正易錯點。
    的頭像 發表于 11-02 15:26 ?2272次閱讀
    關于<b class='flag-5'>語言</b><b class='flag-5'>模型</b>和對抗<b class='flag-5'>訓練</b>的<b class='flag-5'>工作</b>

    一種側重于學習情感特征的預訓練方法

    在大規模無監督語料上預訓練語言模型正逐漸受到自然語言處理領琙硏究者的關注。現有模型在預訓練階段
    發表于 04-13 11:40 ?4次下載
    一種側重于學習情感特征的預<b class='flag-5'>訓練方法</b>

    現代交互技術下的兒童語言表達訓練方法

    現代交互技術下的兒童語言表達訓練方法
    發表于 06-27 11:27 ?3次下載

    Multilingual多語言訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預訓練語言模型,整體思路基于BERT,并提出了針對多語言
    的頭像 發表于 05-05 15:23 ?3248次閱讀

    訓練語言模型帶來的硬件挑戰

    生成式AI和大語言模型(LLM)正在以難以置信的方式吸引全世界的目光,本文簡要介紹了大語言模型訓練
    的頭像 發表于 09-01 17:14 ?1915次閱讀
    <b class='flag-5'>訓練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>帶來的硬件挑戰

    混合專家模型 (MoE)核心組件和訓練方法介紹

    ) 的 Transformer 模型在開源人工智能社區引起了廣泛關注。在本篇博文中,我們將深入探討 MoEs 的核心組件、訓練方法,以及在推理過程中需要考量的各種因素。 讓我們開始吧! 簡短總結 混合專家模型 (MoEs
    的頭像 發表于 01-13 09:37 ?1846次閱讀
    混合專家<b class='flag-5'>模型</b> (MoE)核心組件和<b class='flag-5'>訓練方法</b><b class='flag-5'>介紹</b>

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉
    的頭像 發表于 07-16 10:11 ?2684次閱讀

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型
    的頭像 發表于 02-10 09:37 ?282次閱讀
    主站蜘蛛池模板: 日本护士性生活 | 久久无码AV亚洲精品色午夜 | 欧美一级做a爰片免费 | 柏木舞子在线 | 亚洲 欧美 日韩 卡通 另类 | 99精品视频在线观看 | 浪潮色诱AV久久久久久久 | 在线亚洲专区中文字幕 | JK白丝校花爽到娇喘视频 | 求个av网站 | 99久久精品国产国产毛片 | 我与恶魔的h生活ova | 性色AV乱码一区二区三区视频 | 青青草国产精品久久 | 久久精品中文字幕有码日本 | 国内高清在线观看视频 | 中文字幕日本在线mv视频精品 | 日韩欧美一区二区三区免费看 | 男人女人边摸边吃奶边做 | 亚洲色图在线视频 | 大学生一级毛片免费看 | 国产成人无码一区AV在线观看 | 日本福利片午夜免费观着 | 精品国产国产综合精品 | 99re10久久热| 国产日韩精品一区二区三区在线 | 亚洲精品无AMM毛片 亚洲精品网址 | 97人妻碰视频在线观看 | 黄色免费网址在线观看 | 西西人体一级裸片 | 色列少女漫画 | gay台湾无套男同志xnxⅹ | 暖暖 免费 高清 日本视频5 | 神马电影dy888午夜我不卡 | 里番acg纲手的熟蜜姬训练场 | 乡土女性网动态图解 | 帅小伙和警官同性3p | 久久婷婷五月综合色精品首页 | 久久久青青| 日本在线高清不卡免费播放 | 午夜免费无码福利视频麻豆 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品