色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微調前給預訓練模型參數增加噪音提高效果的方法

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調前給預訓練模型參數增加噪音提高預訓練語言模型在下游任務的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現,就在自己的數據上進行了實驗,發現確實有所提高,為此分享給大家;不過值得注意的是,「不同數據需要加入噪音的程度是不同」,需要自行調參。

模型

自2018年BERT模型橫空出世,預訓練語言模型基本上已經成為了自然語言處理領域的標配,「pretrain+finetune」成為了主流方法,下游任務的效果與模型預訓練息息相關;然而由于預訓練機制以及數據影響,導致預訓練語言模型與下游任務存在一定的Gap,導致在finetune過程中,模型可能陷入局部最優。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預訓練模型的參數增加少量噪音,給原始模型增加一些擾動,從而提高預訓練語言模型在下游任務的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預訓練語言模型參數矩陣為,其中,表示模型中參數矩陣的個數,擾動如下:

其中,表示從到范圍內均勻分布的噪聲;表示控制噪聲強度的超參數;表示標準差。

代碼實現如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應用到各種預訓練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發現在矩陣級均勻噪聲最優。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數據量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數據集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結

蠻有意思的一篇論文,加入少量噪音,提高下游微調效果,并且可插拔方便易用,可以納入到技術庫中。

本人在自己的中文數據上做了一些實驗,發現結果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結果,僅供參考。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 噪音
    +關注

    關注

    1

    文章

    170

    瀏覽量

    23915
  • 模型
    +關注

    關注

    1

    文章

    3261

    瀏覽量

    48914
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13581

原文標題:ACL2022 | NoisyTune:微調前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    的應用。MAML算法通過二階優化找到對任務變化敏感的模型參數,實現了快速適應。上下文學習則引入了注意力機制,使模型能夠根據當前場景動態調整行為策略。在
    發表于 12-24 15:03

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發表于 11-05 17:43 ?583次閱讀

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?1109次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發表于 07-11 10:11 ?448次閱讀

    模型為什么要微調?大模型微調的原理

    在人工智能(AI)領域,特別是自然語言處理(NLP)領域,大模型(如BERT、GPT系列等)的出現為許多復雜任務提供了強大的解決方案。然而,這些訓練的大模型雖然具有廣泛的適用性,但在
    的頭像 發表于 07-10 10:43 ?4238次閱讀

    人臉識別模型訓練失敗原因有哪些

    : 1.1 數據量不足 人臉識別模型需要大量的數據進行訓練,以提高模型的泛化能力。如果數據量不足,模型可能無法學習到足夠的特征,導致
    的頭像 發表于 07-04 09:17 ?656次閱讀

    訓練模型的基本原理和應用

    訓練好的模型,這些模型通常在某些通用任務上表現出色,并且可以作為后續特定任務的起點,通過遷移學習或微調(Fine-tuning)等方式進行適應和優化。以下是對
    的頭像 發表于 07-03 18:20 ?2938次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    如此卓越的性能,就是通過其核心能力對海量數據進行訓練,再進行微調或對其什么型更好的根據人類的指令和偏好,發揮這些性能。隨著語言模型參數的不
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發展的一個轉折點,還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    訓練微調,直到模型的部署和性能評估。以下是對這些技術的綜述: 模型架構: LLMs通常采用深層的神經網絡架構,最常見的是Transf
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    更好地擬合訓練數據,并在推理和泛化時表現出色。此外,特征復用通過共享參數提高效率和性能,使得大語言模型能夠更有效地利用學到的特征。最后,優化效果
    發表于 05-04 23:55

    基于雙級優化(BLO)的消除過擬合的微調方法

    這篇論文試圖解決的問題是大型訓練模型在下游任務中進行微調時出現的過擬合問題。盡管低秩適應(LoRA)及其變體通過學習低秩增量矩陣有效地減少了與完全
    的頭像 發表于 04-02 16:46 ?709次閱讀
    基于雙級優化(BLO)的消除過擬合的<b class='flag-5'>微調</b><b class='flag-5'>方法</b>

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    一階段訓練的獎勵模型,對有監督微調模型對用戶提示詞補全結果的質量進行評估,與語言模型建模目標綜合得到更好的
    發表于 03-11 15:16

    混合專家模型 (MoE)核心組件和訓練方法介紹

    ): 與稠密模型相比,訓練速度更快 與具有相同參數數量的模型相比,具有更快的推理速度 需要大量顯存,因為所有專家系統都需要加載到內存中 在
    的頭像 發表于 01-13 09:37 ?1302次閱讀
    混合專家<b class='flag-5'>模型</b> (MoE)核心組件和<b class='flag-5'>訓練方法</b>介紹
    主站蜘蛛池模板: 日本VA在线视频播放| 欧美乱妇狂野欧美在线视频| 超碰最新网站| 97久久久久| 最近中文字幕2018MV高清在线 | 一个人免费观看HD完整版| 亚洲成人免费看| 亚洲国产成人精品久久久久| 相声flash| 亚洲国产成人99精品激情在线| 小寡妇好紧进去了好大看视频| 无限资源在线完整高清观看1 | 耻辱の奴隷淑女中文字幕| 草莓视频在线免费观看| yy8090理论三级在线看| 啊叫大点声欠CAO的SAO贷| 白丝美女被狂躁免费漫画| YY6080A旧里番在线观看| 被老师按在办公桌吸奶头| 成人 迅雷下载| 福利片福利一区二区三区| 国产精品国产三级国产专区53| 国产精品视频大全| 国自产精品手机在线视频| 精品午夜久久影视| 久色视频网| 欧美精品一区二区在线电影| 日本一区精品久久久久影院| 偷窥wc美女毛茸茸视频| 亚洲精品成人在线| 语文老师扒开胸罩喂我奶| 116美女写真午夜电影z| A级韩国乱理伦片在线观看| 俄罗斯bbbb| 国产亚洲一区在线| 久久超碰国产精品最新| 男生射女生| 视频成人app永久在线观看| 亚洲免费网站在线观看| 中文字幕一区二区三区在线观看 | 欧美精品九九99久久在免费线|