微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

寫在前面

昨天看完NoisyTune論文，做好實(shí)驗(yàn)就來了。一篇ACL2022通過微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果方法-NoisyTune，論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址：https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實(shí)現(xiàn)，就在自己的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)，發(fā)現(xiàn)確實(shí)有所提高，為此分享給大家；不過值得注意的是，「不同數(shù)據(jù)需要加入噪音的程度是不同」，需要自行調(diào)參。

模型

自2018年BERT模型橫空出世，預(yù)訓(xùn)練語言模型基本上已經(jīng)成為了自然語言處理領(lǐng)域的標(biāo)配，「pretrain+finetune」成為了主流方法，下游任務(wù)的效果與模型預(yù)訓(xùn)練息息相關(guān)；然而由于預(yù)訓(xùn)練機(jī)制以及數(shù)據(jù)影響，導(dǎo)致預(yù)訓(xùn)練語言模型與下游任務(wù)存在一定的Gap，導(dǎo)致在finetune過程中，模型可能陷入局部最優(yōu)。

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音，給原始模型增加一些擾動(dòng)，從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果，如下圖所示，

通過矩陣級(jí)擾動(dòng)（matrix-wise perturbing）方法來增加噪聲，定義預(yù)訓(xùn)練語言模型參數(shù)矩陣為，其中，表示模型中參數(shù)矩陣的個(gè)數(shù)，擾動(dòng)如下：

其中，表示從到范圍內(nèi)均勻分布的噪聲；表示控制噪聲強(qiáng)度的超參數(shù)；表示標(biāo)準(zhǔn)差。

代碼實(shí)現(xiàn)如下：

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法，可以應(yīng)用到各種預(yù)訓(xùn)練語言模型中，可插拔且操作簡單。

如下表所示，在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯(cuò)的效果。

并且比較的四種不同增加噪聲的方法，發(fā)現(xiàn)在矩陣級(jí)均勻噪聲最優(yōu)。

在不同數(shù)據(jù)量下，NoisyTune方法相對(duì)于finetune均有所提高。

在不同噪聲強(qiáng)度下，效果提升不同，對(duì)于GLUE數(shù)據(jù)集，在0.1-0.15間為最佳。

總結(jié)

蠻有意思的一篇論文，加入少量噪音，提高下游微調(diào)效果，并且可插拔方便易用，可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實(shí)驗(yàn)，發(fā)現(xiàn)結(jié)果也是有一些提高的，一般在0.3%-0.9%之間，但是噪聲強(qiáng)度在0.2時(shí)最佳，并且在噪聲強(qiáng)度小于0.1或大于0.25后，會(huì)比原始效果差。個(gè)人實(shí)驗(yàn)結(jié)果，僅供參考。

審核編輯：李倩

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

噪音

噪音

+關(guān)注

關(guān)注
1

文章
170

瀏覽量
24232
模型

模型

+關(guān)注

關(guān)注
1

文章
3527

瀏覽量
50497
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
628

瀏覽量
14178

原文標(biāo)題：ACL2022 | NoisyTune：微調(diào)前加入少量噪音可能會(huì)有意想不到的效果

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 一個(gè)給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

发布文章

精選推薦
更多

文章

資料

帖子

伺服電機(jī)中的回原點(diǎn)方式

工控論壇
3小時(shí)前

171 閱讀

鎖相放大器中混頻器的工作原理

中科院半導(dǎo)體所
3小時(shí)前

157 閱讀

【RT-Trace】功能再升級(jí)！GDB?Server功能?+?Flash一鍵燒錄，嵌入式開發(fā)更加便捷！|?技術(shù)集結(jié)

RT-Thread官方賬號(hào)
21小時(shí)前

441 閱讀

一文讀懂示波器眼圖

羅德與施瓦茨中國
21小時(shí)前

765 閱讀

詳解hal_entry入口函數(shù)

瑞薩MCU小百科
21小時(shí)前

343 閱讀

77GHz車載雷達(dá)現(xiàn)狀趨勢(shì)及總體電路設(shè)計(jì)實(shí)現(xiàn)方案

黃博
1680KB

5積分

148下載

iot_device_assistant物聯(lián)網(wǎng)設(shè)備助手

斗地主之神
10.48 MB

2積分

5下載

Sandstorm個(gè)人云平臺(tái)

張健
2.78 MB

免費(fèi)

0下載

bither-desktop bither的桌面客戶端

王煥鎖
2.66 MB

2積分

2下載

8A34001 ClockMatrix評(píng)估套件數(shù)據(jù)手冊(cè)

2.50 MB

免費(fèi)

0下載

基于米爾瑞芯微RK3576開發(fā)板部署運(yùn)行TinyMaix：超輕量級(jí)推理框架

blingbling111
1天前

350 閱讀

Allegro更新原理圖導(dǎo)入網(wǎng)表后，Xnet混亂何解？

zdvf
1天前

533 閱讀

【RA-Eco-RA6M4開發(fā)板評(píng)測(cè)】介紹、環(huán)境搭建、工程測(cè)試

jf_07365693
1天前

566 閱讀

【HZ-RK3568開發(fā)板免費(fèi)體驗(yàn)】系統(tǒng)燒寫

ouxiaolong
1天前

557 閱讀

【微五科技CF5010RBT60開發(fā)板試用體驗(yàn)】+高級(jí)定時(shí)器輸出PWM測(cè)試

安安踢球球
1天前

606 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多