色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

讓長短期記憶人工神經網絡重返巔峰

深度學習自然語言處理 ? 來源:AINLP ? 作者:葉文杰 ? 2021-04-04 17:08 ? 次閱讀

1.開篇

去年年底,各大榜單上風起云涌,各路英雄在榜單上為了分數能多個0.01而不停的躁動,迫不及待地想要向外界秀秀自己的肌肉。

怎么回事呀,小老弟?

我們打開了中文NLP知名的評測網站CLUE,卻看到……

dbd9022a-88e9-11eb-8b86-12bb97331649.png

怎么全是Bert和它的兄弟?

遙想4年前,還全是RNN,LSTM和CNN的天下,怎么轉眼都不見了?LSTM不禁長嘆:年輕人,不講武德!欺負我這個25歲的老同志。

那么有沒有辦法讓LSTM重新煥發青春呢?有!知識蒸餾!

2.什么是知識蒸餾?

知識蒸餾的思想很簡單,就是讓一個教師模型來指導學生模型,讓學生模型學到教師模型的知識,而知識蒸餾的的核心也就是知識。

dc2489c0-88e9-11eb-8b86-12bb97331649.png

依據蒸餾所用的知識,可以把蒸餾分成三種:

Response-based Distillation:學學教師最后的輸出就夠我喝一壺了。

Feature-based distillation:中間層的知識也不能放過,畢竟神經網絡最擅長的就是學習到層級信息

Relation-based distillation:這些表面的知識完全不夠,還要深挖層與層之間的關系,樣本與樣本之間的關系。

而這些知識之所以有效,主要是因為隱含的特征 (dark knowledge) 無法在數據層面表示出來,模型可以學習到這些特征。One-hot 無法衡量類間的區別,知識蒸餾一定程度上起到了標簽平滑的作用。比如說馬,驢和樹他們在標注上都是不同的,通過one-hot表示呈現的區別也一致,很顯然,馬和驢的相似性強于馬和樹,而我們的標注無法衡量這種相似性,但是我們的教師模型卻可以學到這樣的知識。

細看這些年的BERT蒸餾都是這些套路:

DistilBERT: 學學教師最后的輸出就夠我喝一壺了

PKDBERT: 中間層的我也都要學

TinyBERT: embedding層的知識呢?我全都要!

TinyBERT對于知識的態度

既然能用蒸餾訓練出一個性能強悍的小BERT,那可不可以用同樣的方法來蒸餾LSTM,讓他煥發第二春呢?

3.師夷長技以制夷

蒸餾的第一步是要選取一個表現優秀的教師模型,NER大榜的TOP1被RoBERTa搶先了,于是我們也選取RoBERTa作為我們的教師模型,在驗證集上得分81.55。同時,在同樣的訓練集下訓練雙向LSTM,得分68.56。兩者F1得分差距較大,直接嘗試response-baseddistillation:

模型 NER F1 (Valid)
Roberta 81.55
LSTM (Baseline) 68.56
LSTM (蒸餾) 71.01

得分有所提升,但是和榜單上那個78、79的相比還是有很大的距離。這可怎么辦?

這可怎么辦?

有什么能進一步提升模型能力的方法,想想各類BERT都在幾個T的數據上用幾十塊GPU訓練了幾百個小時,我們的LSTM只用個1萬訓練集當然不可能擊敗他們。我們也要用數據增強!

4.數據增強

CLUE NER的數據集是來源于清華大學開源的數據集THUCTC,所以我們嘗試使用THU-News數據集進行增強。隨機采樣30萬條進行測試。

dcf7dd3e-88e9-11eb-8b86-12bb97331649.png

這個0如此之純粹,讓人一度以為是不是跑錯了代碼,然后連續運行三次,得到的結果都是0!

我們趕緊拿到報告,找到里面的bad case(沒有一條不是bad case),發現結果很直白,所有的預測全是O(非實體)。趕緊找來增強數據集出來看看,看到了這個:

他?亦或是她?也許都會有。
總會有花花修的,¥%……&&() ———當下沖動的想問問她姐姐是誰暴捶一頓……
今日懸念揭曉,幾家雀躍幾家驚訝,《精靈傳說》正式與大家見面,
help item/ヘ兒プアイテム)等等 。
credits作為zynga旗下游戲在facebook平臺上的主要支付方式。
成為勇士中的王者!
令附:
為了鼓勵大家多交朋友,目前android版本所有禮物都可以無限次免費贈送,現在就去吧!
《馬里奧賽車wii》wii任天堂株式會社
這是由大眾對文化價值觀認同決定的。2010年有差不多接近1億左右的玩家,

THU-News新聞數據集-游戲部分

可以看出,大部分樣本一個實體都沒有,和我們的任務完全就不是相同的分布(skewed),用這種數據集來訓練模型,訓練出來的模型將所有的標簽都認為成O(非實體)。

5.那么怎么從這些雜亂的數據集中提取出可以用作增強的數據集呢?

如果讓人工來清洗數據集的話,對于數據增強需要幾十幾百倍的數據,NER標注數據有有一點難度。人工根本行不通!

鑒于我們在使用知識蒸餾訓練模型,那能不能請教師模型來幫忙清洗數據?

dd66a390-88e9-11eb-8b86-12bb97331649.png

我們進行了個大膽的嘗試,不對數據集進行任何清洗,直接用教師模型對2000萬的雜亂數據集進行推理,然后只保留了教師模型認為包含實體的數據:

至少包含一個實體 至少包含兩個實體
甚至吸引了剃了平頭的六番隊隊長朽木白哉~!哈哈哈(大誤~。 聯合導演兼主演吳亞橋擔當形象大使的《劍網3》“收費游戲免費玩”高校威武計劃。
2008年12月“it時代周刊:2008年最具商業價值網站”; 游戲委員會稱,對游戲的審核需要很長時間,所以像蘋果和谷歌系統旗下的游戲,
嘟嘟的目標是召集100名玩家在三江源辦一場變身舞會,在這里希望大家幫她一起達成愿望。 咪兔數位科技旗下《穿越火線online》全新改版“末世錄”正式上線!玩家不僅能體驗到全新的“
但這一次overkill依然把自己的作品托付給了一家日本公司:soe(索尼娛樂在線)。 北美區全球爭霸戰亞軍隊伍tsg對上韓國全球爭霸戰冠軍隊伍shipit,分別采取圣騎、戰士、
在最初階段,微軟發言人曾表示:“微軟決不允許他人修改自己的產品 dice已經抓住使命召喚的這根軟肋了。
infi始終不給soccer拉后紅血單位的機會, tesl臺灣電競聯盟提供了720p以上的高畫質在線直播、與我視傳媒共同合作,在i‘
阿里納斯因槍擊隊友事件被游戲除名 看完上面這個名單,你可能會說gbasp和ndsi也沒有《馬里奧》游戲首發,
來自世界各地的媒體紛紛希望能夠在e3任天堂展位上,搶先試玩到這款新主機,使得展位大排長龍。今日, 有玩家說:這真是索任結合啊,游戲是任天堂的,但是按鍵是索尼風格的……
一統亂世》即將在明日正式登場。今次數據片改版將會開放多部族結盟的“聯盟系統”、爭奪地圖占領權的“ 最后todd透露,“我們不知道會為《上古卷軸5》制作什么樣的dlc,
始料不及《西游iii》你猜不到的結局 并且可以用這個地圖編輯器做出很多目前流行的地圖,塔防、dota等經典地圖都可以在《星際2》

教師模型輔助清洗后的數據

教師模型為我們選擇的這份數據集干凈的多,不包含無實體,無意義的句子。但是作為交換,原來的2000萬數據集只剩下110萬左右。

利用篩選后的數據集訓練模型,得到:

模型 數據集 蒸餾 NER F1 參數
Roberta-Large (教師模型) train 81.55 311.24M
LSTM (Baseline) train 68.56 9.66M (x32.21)
LSTM train 71.01 9.66M (x32.21)
LSTM train+10w增強 72.61 9.66M (x32.21)
LSTM train+20w增強 74.61 9.66M (x32.21)
LSTM train+30w增強 76.51 9.66M (x32.21)
LSTM train+40w增強 77.30 9.66M (x32.21)
LSTM train+50w增強 77.40 9.66M (x32.21)
LSTM train+60w增強 78.14 9.66M (x32.21)
LSTM train+110w增強 79.68 9.66M (x32.21)


CLUE NER 結果

ddbb38c4-88e9-11eb-8b86-12bb97331649.png

不同增強數據集增強效果

可以看出,隨著增強數據集數量的提升,學生模型效果也在逐步提升。使用110萬數據集,驗證集的分數可以達到79.68。繼續增加數據,效果應該還會有進一步提升。提交到榜單上,測試集的分數可以達到78.299,CLUENER單項排第二名,眾多的BERT中擠出了一個LSTM。

nice!

6. 總結

利用少量的訓練集訓練教師模型,隨后收集增強數據集用來訓練學生模型可以大幅提升學生模型的能力。這樣在業務的初期,只需要利用少量的標注語料,便可達到一個相對可觀的一個效果,并且在服務部署方面使用小模型可以完成對GPU的一個釋放,實際測試中使用學生LSTMGPU加速比達到3.72倍,CPU加速比達到15倍。

而模型蒸餾這樣一個teacher-student的框架,可以十分靈活的選擇教師模型和學生模型選,比如教師模型可以通過集成選擇一個最好的效果,學生模型也可以任意嘗試各式的模型結構比如CNN,LSTM,Transformers。當然其他的模型壓縮方法,比如說剪枝,近秩分解也可以與這樣的一個框架結合。而對于數據增強,在實際業務中,我們無需去尋找額外的公開數據集,直接從實際業務中就能獲取大量的數據來進行增強,這樣省去我們篩選數據的時間,也能更好的提升模型的效果。

這樣的一套框架在分類,意圖識別槽位提取,多模態等相應業務中都取得了較好的效果,甚至在增強數據集到達一定程度時超過了教師模型的效果。

原文標題:【知識蒸餾】讓LSTM重返巔峰!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    47350

    瀏覽量

    238750
  • 自然語言處理

    關注

    1

    文章

    618

    瀏覽量

    13572
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22049

原文標題:【知識蒸餾】讓LSTM重返巔峰!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    LSTM神經網絡的結構與工作機制

    LSTM(Long Short-Term Memory,長短期記憶神經網絡是一種特殊的循環神經網絡(RNN),設計用于解決長期依賴問題,特別是在處理時間序列數據時表現出色。以下是LS
    的頭像 發表于 11-13 10:05 ?406次閱讀

    LSTM神經網絡在語音識別中的應用實例

    語音識別技術是人工智能領域的一個重要分支,它使計算機能夠理解和處理人類語言。隨著深度學習技術的發展,特別是長短期記憶(LSTM)神經網絡的引入,語音識別的準確性和效率得到了顯著提升。
    的頭像 發表于 11-13 10:03 ?575次閱讀

    LSTM神經網絡與傳統RNN的區別

    在深度學習領域,循環神經網絡(RNN)因其能夠處理序列數據而受到廣泛關注。然而,傳統RNN在處理長序列時存在梯度消失或梯度爆炸的問題。為了解決這一問題,LSTM(長短期記憶神經網絡
    的頭像 發表于 11-13 09:58 ?353次閱讀

    LSTM神經網絡的優缺點分析

    長短期記憶(Long Short-Term Memory, LSTM)神經網絡是一種特殊的循環神經網絡(RNN),由Hochreiter和Schmidhuber在1997年提出。LST
    的頭像 發表于 11-13 09:57 ?1454次閱讀

    LSTM神經網絡的基本原理 如何實現LSTM神經網絡

    LSTM(長短期記憶神經網絡是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴信息。在處理序列數據時,如時間序列分析、自然語言處理等,LSTM因其能夠有效地捕捉時間序列中的長期依
    的頭像 發表于 11-13 09:53 ?449次閱讀

    BP神經網絡人工神經網絡的區別

    BP神經網絡人工神經網絡(Artificial Neural Networks,簡稱ANNs)之間的關系與區別,是神經網絡領域中一個基礎且重要的話題。本文將從定義、結構、算法、應用及
    的頭像 發表于 07-10 15:20 ?1121次閱讀

    如何理解RNN與LSTM神經網絡

    在深入探討RNN(Recurrent Neural Network,循環神經網絡)與LSTM(Long Short-Term Memory,長短期記憶網絡
    的頭像 發表于 07-09 11:12 ?654次閱讀

    rnn是遞歸神經網絡還是循環神經網絡

    RNN(Recurrent Neural Network)是循環神經網絡,而非遞歸神經網絡。循環神經網絡是一種具有時間序列特性的神經網絡,能夠處理序列數據,具有
    的頭像 發表于 07-05 09:52 ?585次閱讀

    人工神經網絡模型包含哪些層次

    、多層感知機、卷積神經網絡、循環神經網絡長短期記憶網絡等。 感知機(Perceptron) 感知機是
    的頭像 發表于 07-05 09:17 ?612次閱讀

    人工神經網絡模型的分類有哪些

    人工神經網絡(Artificial Neural Networks, ANNs)是一種模擬人腦神經元網絡的計算模型,它在許多領域,如圖像識別、語音識別、自然語言處理、預測分析等有著廣泛的應用。本文將
    的頭像 發表于 07-05 09:13 ?1245次閱讀

    遞歸神經網絡是循環神經網絡

    。 遞歸神經網絡的概念 遞歸神經網絡是一種具有短期記憶功能的神經網絡,它能夠處理序列數據,如時間序列、文本、語音等。與傳統的前饋
    的頭像 發表于 07-04 14:54 ?793次閱讀

    用于自然語言處理的神經網絡有哪些

    自然語言處理(Natural Language Processing, NLP)是人工智能領域的一個重要分支,旨在計算機能夠理解和處理人類語言。隨著深度學習技術的飛速發展,神經網絡模型在NLP領域
    的頭像 發表于 07-03 16:17 ?1263次閱讀

    神經網絡人工智能的關系是什么

    神經網絡人工智能的關系是密不可分的。神經網絡人工智能的一種重要實現方式,而人工智能則是神經網絡
    的頭像 發表于 07-03 10:25 ?1157次閱讀

    什么神經網絡模型適合做分類

    神經網絡是一種強大的機器學習模型,廣泛應用于各種分類任務。在本文中,我們將詳細介紹幾種適合分類任務的神經網絡模型,包括前饋神經網絡、卷積神經網絡、循環
    的頭像 發表于 07-02 11:14 ?988次閱讀

    利用神經網絡對腦電圖(EEG)降噪

    數據與干凈的EEG數據構成訓練數據,并且分成訓練、驗證和測試數據集。 繪制有噪聲EEG數據與干凈的EEG數據 顯然,傳統的任何算法很難將EEG數據從噪聲中濾出來。 定義神經網絡結構,之所以選擇長短期記憶
    發表于 04-30 20:40
    主站蜘蛛池模板: 成人公开免费视频| 99无人区码一码二码三| 欧美人妇无码精品久久| 久久99精品AV99果冻传媒| 国产精品久久久久久久A片冻果| 99re5久久热在线| 116美女写真成人午夜视频| 亚洲一区日韩一区欧美一区a| 香港论理午夜电影网| 色综合久久久久久| 日韩精品一卡二卡三卡四卡2021| 奇虎成人网| 女警被黑人20厘米强交| 免费一级特黄欧美大片久久网| 久久亚洲精选| 蜜臀AV中文字幕熟女人妻| 麻豆蜜桃国语精品无码视频| 久热这里只有精品99国产6| 久久综合网久久综合| 麻豆官网入口| 免费毛片在线播放| 欧美另类videosbest| 日本 稀土矿| 乳欲性高清在线| 午夜色网站| 亚洲乱码中文字幕久久| 印度老妇女bbbxxx| 自拍偷拍2| 99久久久久精品国产免费麻豆| xxx动漫xxx在线观看| 动漫成人片| 国产探花在线精品一区二区| 护士们的母狗| 理论片午午伦夜理片I| 暖暖视频在线高清播放| 日韩精品一区VR观看| 兔费看少妇性L交大片免费| 亚洲精品无码专区在线播放| 日韩精品 中文字幕 有码| 收集最新中文国产中文字幕| 亚洲成人在线免费|