色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

文本分類任務的Bert微調trick大全

自然語言處理愛好者 ? 來源:ChallengeHub ? 作者: 致Great ? 2021-07-18 09:49 ? 次閱讀

1

前言

大家現在打比賽對預訓練模型非常喜愛,基本上作為NLP比賽基線首選(圖像分類也有預訓練模型)。預訓練模型雖然很強,可能通過簡單的微調就能給我們帶來很大提升,但是大家會發現比賽做到后期,bert等預訓練模型煉丹一定程度的時候很難有所提升,分數達到了瓶頸,這個時候需要針對具體的任務如何進行微調使用,就涉及到了考經驗積累的tricks。

這篇論文做了非常大的充足實驗,為我們提供了寶貴的BERT微調經驗及方法論,當需要應用BERT到具體的現實任務上時,可以參照這篇論文提供的調參路線進行優化,我在NLP比賽中也屢試不爽,總有一個trick是你的菜,推薦大家讀一讀這篇論文!

2

論文摘要

這篇論文的主要目的在于在文本分類任務上探索不同的BERT微調方法并提供一種通用的BERT微調解決方法。這篇論文從三種路線進行了探索:(1) BERT自身的微調策略,包括長文本處理、學習率、不同層的選擇等方法;(2) 目標任務內、領域內及跨領域的進一步預訓練BERT;(3) 多任務學習。微調后的BERT在七個英文數據集及搜狗中文數據集上取得了當前最優的結果。有興趣的朋友可以點擊上面的實驗代碼,跑一跑玩一玩~

3

論文背景與研究動機

文本分了是NLP中非常經典的任務,就是判斷給定的一個文本所屬的具體類別,比如判斷文本情感是正向還是負向。盡管已經有相關的系研究工作表明基于大語料預訓練模型可以對文本分類以及其他NLP任務有非常不錯的效果收益和提升,這樣做的一個非常大的好處我們不需要從頭開始訓練一個新的模型,節省了很大資源和時間。

一種常見的預訓練模型就是我們常見的詞嵌入,比如Word2Vec,Glove向量,或者一詞多義詞向量模型Cove和ELMo,這些詞向量經常用來當做NLP任務的附加特征。另一種預訓練模型是句子級別上的向量化表示,如ULMFiT。其他的還有OpenAI GPT及BERT。

雖然BERT在許多自然語言理解任務上取得了驚人的成績,但是它的潛力還尚未被完全探索出來。很少有研究來進一步改進BERT在目標任務上的性能。這篇論文的主要目的就是通過探索多種方式最大化地利用BERT來增強其在文本分類任務上的性能。本篇論文的主要貢獻如下:

(1)提出了一個通用的解決方案來微調預訓練的 BERT 模型,它包括三個步驟:(1)進一步預訓練 BERT任務內訓練數據或領域內數據;(2) 如果有多個相關任務可用,可選用多任務學習微調 BERT;(3) 為目標任務微調BERT。

(2)本文研究了 BERT 在目標任務上的微調方法,包括長文本預處理、逐層選擇、逐層學習率、災難性遺忘

(3)我們在七個廣泛研究的英文文本分類數據集和一個中文新聞分類數據集上取得了SOTA成果

4

論文核心

Fine-Tuning Strategies:當我們為目標任務微調 BERT 時,有很多方法可以使用 BERT。例如,BERT 的不同層捕獲不同級別的語義和句法信息,哪一層更適合目標任務?我們如何選擇更好的優化算法和學習率?

Further Pre-training:BERT 在通用域中訓練,其數據分布與目標域不同。一個自然的想法是使用目標域數據進一步預訓練 BERT。這個真的非常有效,在微調達到一定瓶頸之后,可以嘗試下在比賽語料上ITPT,也就是繼續預訓練。在海華閱讀理解比賽以及基于文本挖掘的企業隱患排查質量分析模型都得到了成功驗證~

Multi-Task Fine-Tuning:在沒有預先訓練的 LM 模型的情況下,多任務學習已顯示出其利用多個任務之間共享知識優勢的有效性。當目標域中有多個可用任務時,一個有趣的問題是,在所有任務上同時微調 BERT 是否仍然帶來好處。

5

微調策略

1. 處理長文本我們知道BERT 的最大序列長度為 512,BERT 應用于文本分類的第一個問題是如何處理長度大于 512 的文本。本文嘗試了以下方式處理長文章。

Truncation methods 截斷法文章的關鍵信息位于開頭和結尾。我們可以使用三種不同的截斷文本方法來執行 BERT 微調。

head-only: keep the first 510 tokens 頭部510個字符,加上兩個特殊字符剛好是512 ;

tail-only: keep the last 510 tokens;尾部510個字符,同理加上兩個特殊字符剛好是512 ;

head+tail: empirically select the first 128and the last 382 tokens.:尾部結合

Hierarchical methods 層級法輸入的文本首先被分成k = L/510個片段,喂入 BERT 以獲得 k 個文本片段的表示向量。每個分數的表示是最后一層的 [CLS] 標記的隱藏狀態,然后我們使用均值池化、最大池化和自注意力來組合所有分數的表示。

上表的結果顯示,head+tail的截斷法在IMDb和Sogou數據集上表現最好。后續的實驗也是采用這種方式進行處理。

2. 不同層的特征BERT 的每一層都捕獲輸入文本的不同特征。文本研究了來自不同層的特征的有效性, 然后我們微調模型并記錄測試錯誤率的性能。

我們可以看到:最后一層表征效果最好;最后4層進行max-pooling效果最好3. 災難性遺忘Catastrophic forgetting (災難性遺忘)通常是遷移學習中的常見詬病,這意味著在學習新知識的過程中預先訓練的知識會被遺忘。因此,本文還研究了 BERT 是否存在災難性遺忘問題。我們用不同的學習率對 BERT 進行了微調,發現需要較低的學習率,例如 2e-5,才能使 BERT 克服災難性遺忘問題。在 4e-4 的較大學習率下,訓練集無法收斂。

這個也深有體會,當預訓練模型失效不能夠收斂的時候多檢查下超參數是否設置有問題。4. Layer-wise Decreasing Layer Rate 逐層降低學習率下表 顯示了不同基礎學習率和衰減因子在 IMDb 數據集上的性能。我們發現為下層分配較低的學習率對微調 BERT 是有效的,比較合適的設置是 ξ=0.95 和 lr=2.0e-5

為不同的BERT設置不同的學習率及衰減因子,BERT的表現如何?把參數θ hetaθ劃分成{ θ 1 , … , θ L } { heta^1,dots, heta^L}{θ1,…,θL},其中θ l heta^lθl

6

ITPT:繼續預訓練

Bert是在通用的語料上進行預訓練的,如果要在特定領域應用文本分類,數據分布一定是有一些差距的。這時候可以考慮進行深度預訓練。

Within-task pre-training:Bert在訓練語料上進行預訓練In-domain pre-training:在同一領域上的語料進行預訓練Cross-domain pre-training:在不同領域上的語料進行預訓練

Within-task pretraining

BERT-ITPT-FiT 的意思是“BERT + with In-Task Pre-Training + Fine-Tuning”,上圖表示IMDb 數據集上進行不同步數的繼續預訓練是有收益的。2 In-Domain 和 Cross-Domain Further Pre-Training

我們發現幾乎所有進一步的預訓練模型在所有七個數據集上的表現都比原始 BERT 基礎模型。一般來說,域內預訓練可以帶來比任務內預訓練更好的性能。在小句子級 TREC 數據集上,任務內預訓練會損害性能,而在使用 Yah 的領域預訓練中。Yah. A.語料庫可以在TREC上取得更好的結果。

這篇論文與其他模型進行了比較,結果如下表所示:

我們可以看到ITPT和IDPT以及CDPT的錯誤率相比其他模型在不同數據集有不同程度下降。

7

多任務微調

所有任務都會共享BERT層及Embedding層,唯一不共享的層就是最終的分類層,每個任務都有各自的分類層。

上表表明對于基于BERT多任務微調,效果有所提升,但是對于CDPT的多任務微調是有所下降的,所以說多任務學習對于改進對相關文本分類子任務的泛化可能不是必要的。

8

小樣本學習 Few-Shot Learning

實驗表明:BERT能夠為小規模數據帶來顯著的性能提升。

9

BERT Large模型上進一步預訓練

實驗結果表明:在特定任務上微調BERT Large模型能夠獲得當前最優的結果。

接下來給大家帶來干貨部分:不同學習率策略的使用

不同學習率策略

Constant Schedule

Constant Schedule with Warmup

Cosine with Warmup

Cosine With Hard Restarts

Linear Schedule with Warmup

Polynomial Decay with Warmup

參考資料

一起讀論文 | 文本分類任務的BERT微調方法論

NLP重鑄篇之BERT如何微調文本分類

【論文解析】如何將Bert更好地用于文本分類(How to Fine-Tune BERT for Text Classification?)

How to Fine-Tune BERT for Text Classification 論文筆記

Bert微調技巧實驗大全

論文閱讀筆記:這篇文章教你在文本分類任務上微調BERT

How to Fine-Tune BERT for Text Classification?讀論文-如何讓Bert在finetune小數據集時更“穩”一點

論文標題:How to Fine-Tune BERT for Text Classification?中文

中文標題:如何微調 BERT 進行文本分類?

論文作者:復旦大學邱錫鵬老師課題組

實驗代碼:https://github.com/xuyige/BERT4doc-Classification

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 文本分類
    +關注

    關注

    0

    文章

    18

    瀏覽量

    7391

原文標題:文本分類上分利器: Bert微調trick大全

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監控攝像頭或執行機器學習任務。在這些場景中,圖像中經常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉換,以便通過程序分析文本
    的頭像 發表于 03-25 09:30 ?348次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發表于 03-05 06:48

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    。對于文本數據,可以采用同義詞替換、句法變換、上下文擴展等技術。微調策略和方法全參數微調:對模型的所有參數進行再訓練。雖然需要大量的計算資源,但它可以充分適應特定任務。輕量級
    發表于 01-14 16:51

    如何使用自然語言處理分析文本數據

    媒體、新聞報道、用戶評論等)收集你感興趣的文本數據。 數據清洗 :去除無關字符(如HTML標簽、特殊符號等),確保文本數據干凈且一致。 2. 預處理 分詞 :將文本分割成有意義的單元(單詞、短語或句子),這取決于使用的語言和分析
    的頭像 發表于 12-05 15:27 ?1450次閱讀

    RK3588 技術分享 | 在Android系統中使用NPU實現Yolov5分類檢測

    : NPU幫助機器完成更高效的翻譯、文本分類和情感分析,推動了自然語言處理技術的發展。 實例分享:Yolov5分類檢測 在RK3588處理器上,不僅可以基于Linux系統使用NPU,也可以
    發表于 10-24 10:13

    雷達的基本分類方法

    電子發燒友網站提供《雷達的基本分類方法.pdf》資料免費下載
    發表于 09-11 09:09 ?6次下載

    NVIDIA文本嵌入模型NV-Embed的精度基準

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數創下了嵌入準確率的新紀錄海量文本嵌入基準測試(MTEB)涵蓋 56 項嵌入任務
    的頭像 發表于 08-23 16:54 ?2429次閱讀
    NVIDIA<b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準

    RK3588 技術分享 | 在Android系統中使用NPU實現Yolov5分類檢測

    : NPU幫助機器完成更高效的翻譯、文本分類和情感分析,推動了自然語言處理技術的發展。 實例分享:Yolov5分類檢測 在RK3588處理器上,不僅可以基于Linux系統使用NPU,也可以
    發表于 08-20 11:13

    示波器探頭補償微調旋鈕的作用

    示波器探頭補償微調旋鈕是一種用于調整示波器探頭性能的重要組件。 一、示波器探頭補償微調旋鈕的作用 校準探頭性能 示波器探頭補償微調旋鈕的主要作用是校準探頭的性能。由于探頭在生產過程中可能存在一定
    的頭像 發表于 08-09 11:31 ?1203次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?1196次閱讀

    利用TensorFlow實現基于深度神經網絡的文本分類模型

    要利用TensorFlow實現一個基于深度神經網絡(DNN)的文本分類模型,我們首先需要明確幾個關鍵步驟:數據預處理、模型構建、模型訓練、模型評估與調優,以及最終的模型部署(盡管在本文中,我們將重點放在前四個步驟上)。下面,我將詳細闡述這些步驟,并給出一個具體的示例。
    的頭像 發表于 07-12 16:39 ?1449次閱讀

    大模型為什么要微調?大模型微調的原理

    在人工智能(AI)領域,特別是自然語言處理(NLP)領域,大模型(如BERT、GPT系列等)的出現為許多復雜任務提供了強大的解決方案。然而,這些預訓練的大模型雖然具有廣泛的適用性,但在特定任務上往往
    的頭像 發表于 07-10 10:43 ?7093次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預訓練模型,通過大量文本數據進行預訓練,可以用于各種NLP任務,如文本分類、問答、命名實體識別
    的頭像 發表于 07-09 09:59 ?1327次閱讀

    llm模型和chatGPT的區別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學習技術構建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務,如文本生成、文本分類、機器翻譯等。目前
    的頭像 發表于 07-09 09:55 ?1915次閱讀

    卷積神經網絡在文本分類領域的應用

    顯著成就后,也逐漸被引入到文本分類任務中。卷積神經網絡通過模擬人類視覺系統的信息處理方式,能夠有效地提取文本中的局部特征,進而實現高精度的文本分類。本文將對卷積神經網絡在
    的頭像 發表于 07-01 16:25 ?1142次閱讀
    主站蜘蛛池模板: 精品久久综合1区2区3区激情 | 无码日韩人妻精品久久蜜桃入口 | 日本ccc三级 | 先锋资源av| 一本道久久综合久久88 | 午夜成a人片在线观看 | 国产成人免费不卡在线观看 | 国产麻豆91网在线看 | 久久九九少妇免费看A片 | 久久国产精品萌白酱免费 | 亚洲国产果果在线播放在线 | 久久只有这里有精品4 | 亚洲精品蜜桃AV久久久 | 亚洲免费在线 | 日韩精品AV一区二区三区 | YELLOW日本动漫高清免费 | 国产自产视频在线观看香蕉 | 国产成人啪精视频精东传媒网站 | 国产69精品久久久久无码麻豆 | 亚洲 欧美 中文 日韩 另类 | 欧美色图天堂网 | 受被三个攻各种道具PLAY | 色偷拍自怕亚洲在线 | 国产精品欧美久久久久天天影视 | 国产精品久久久久久久久久久 | 99久久精品费精品国产一区二 | 国产精品色吧国产精品 | 翁公咬着小娇乳H边走边欢A | 国产亚洲日韩另类在线观看 | 狠狠色狠狠色综合日日91app | 国产AV电影区二区三区曰曰骚网 | jizz丝袜 | 99久久伊人一区二区yy5o99 | 伊人影院中文字幕 | 女人高潮被爽到呻吟在线观看 | 久久操韩国自偷拍 | 精品久久久久久久国产潘金莲 | 亞洲人妻AV無碼在線視頻 | 中文字幕无线手机在线 | 肉动漫无码无删减在线观看 | 成人中文字幕在线观看 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品