色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解讀一下DeBERTa在BERT上有哪些改造

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2021-04-15 14:44 ? 次閱讀

DeBERTa刷新了GLUE的榜首,本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對BERT的改造主要在三點

分散注意力機制

為了更充分利用相對位置信息,輸入的input embedding不再加入pos embedding, 而是input在經過transformer編碼后,在encoder段與“decoder”端 通過相對位置計算分散注意力

增強解碼器(有點迷)

為了解決預訓練和微調時,因為任務的不同而預訓練和微調階段的gap,加入了一個增強decoder端,這個decoder并非transformer的decoder端(需要decoder端有輸入那種),只是直觀上起到了一個decoder作用

解碼器前接入了絕對位置embedding,避免只有相對位置而丟失了絕對位置embedding

其實本質就是在原始BERT的倒數第二層transformer中間層插入了一個分散注意力計算

訓練trick

訓練時加入了一些數據擾動

mask策略中不替換詞,變為替換成詞的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力機制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起,這種早期就合并了位置信息在計算self-attention時,表達能力受限,維護信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是將pos信息拆分出來,單獨編碼后去content 和自己求attention,增加計算 “位置-內容” 和 “內容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計算方法

分散注意力機制首先在input中分離相對位置embedding,在原始char embedding+segment embedding經過編碼成后,與相對位置計算attention,

即是內容編碼,是相對的位置編碼, attention的計算中,融合了位置-位置,內容-內容,位置-內容,內容-位置

相對位置的計算

限制了相對距離,相距大于一個閾值時距離就無效了,此時距離設定為一個常數,距離在有效范圍內時,用參數用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增強型解碼器

強行叫做解碼器

用 EMD( enhanced mask decoder) 來代替原 BERT 的 SoftMax 層預測遮蓋的 Token。因為我們在精調時一般會在 BERT 的輸出后接一個特定任務的 Decoder,但是在預訓練時卻并沒有這個 Decoder;所以本文在預訓練時用一個兩層的 Transformer decoder 和一個 SoftMax 作為 Decoder。其實就是給后層的Transformer encoder換了個名字,千萬別以為是用到了Transformer 的 Decoder端

絕對位置embedding

在decoder前有一個騷操作是在這里加入了一層絕對位置embedding來彌補一下只有相對位置的損失,比如“超市旁新開了一個商場”,當mask的詞是“超市”,“商場”,時,只有相對位置時沒法區分這兩個詞的信息,因此decoder中加入一層

一些訓練tricks

將BERT的訓練策略中,mask有10%的情況是不做任何替換,這種情況attention偏向自己會非常明顯,DeBeta將不做替換改成了換位該位置詞絕對位置的pos embedding, 實驗中明顯能看到這種情況下的attention對自身依賴減弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在訓練下游任務時,給訓練集做了一點擾動來增強模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任務上整體效果相比還是有一丟丟提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7067

    瀏覽量

    89108
  • 編碼
    +關注

    關注

    6

    文章

    945

    瀏覽量

    54850
  • Decoder
    +關注

    關注

    0

    文章

    25

    瀏覽量

    10709

原文標題:SOTA來啦!BERT又又又又又又魔改了!DeBERTa登頂GLUE~

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    “碰一下”支付背后的4G技術

    不知道你是否有留意,近期,在線下支付場景中,多了個支付寶“碰一下”支付的設備,只需要“解鎖手機—碰一下—確認”即可完成支付,對比打開付款碼支付,步驟確實更加簡潔。
    的頭像 發表于 01-03 16:27 ?158次閱讀

    支付寶發布新代AI視覺搜索“探一下

    支付寶近日正式推出了基于自研多模態大模型技術的新代AI視覺搜索產品——“探一下”。這創新產品的問世,標志著支付寶AI技術應用領域邁出了重要
    的頭像 發表于 12-31 10:49 ?118次閱讀

    建議DFM工具里的拼版完善一下

    建議DFM工具里的拼版完善一下 異性板拼版時建議增加X Y偏移選項 比如我這個三角形板子,我選擇倒扣拼版時 是這樣有些浪費空間。 如果能增加x偏移量 y偏移量 可以做到這樣,這樣拼版就劃算多了, 建議在這里增加偏移量選項
    發表于 11-14 15:55

    內置誤碼率測試儀(BERT)和采樣示波器體化測試儀器安立MP2110A

    BERTWave MP2110A是款內置誤碼率測試儀(BERT)和采用示波器的體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發表于 09-23 14:34 ?357次閱讀
    內置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器<b class='flag-5'>一</b>體化測試儀器安立MP2110A

    自感線圈斷電時燈泡為啥會閃亮一下

    探討自感線圈斷電時燈泡為什么會閃亮一下的原因: 電流變化 :當電路中的電源被切斷時,流經線圈的電流會突然減少。這種快速的電流變化會導致自感電動勢的產生。 自感電動勢 :由于電流的快速減少,線圈中的自感電動勢會迅
    的頭像 發表于 08-29 14:36 ?1078次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?688次閱讀

    請問一下ESP8266有沒有位操作或者位帶的功能?

    請問一下ESP8266有沒有位操作或者位帶的功能,我們需要對塊連續內存區域(相當于顯存)進行位操作,如果不用位操作速度會很慢,ESP8266上有位操作或者位帶功能嗎?如果有,怎么操作?
    發表于 07-22 06:42

    歡創播報 支付寶“碰一下”正式發布

    1 支付寶“碰一下”正式發布 近日,支付寶開放日上,支付寶宣布升級條碼支付體驗,推出“支付寶碰一下”,用戶無需展示付款碼,解鎖手機碰一下商家收款設備,最快
    的頭像 發表于 07-11 11:32 ?899次閱讀
    歡創播報  支付寶“碰<b class='flag-5'>一下</b>”正式發布

    今天來解讀一下虛擬電廠的組成模式

    虛擬電廠
    的頭像 發表于 07-01 16:16 ?417次閱讀
    今天來<b class='flag-5'>解讀</b><b class='flag-5'>一下</b>虛擬電廠的組成模式

    求助,求大神幫忙解答AN65974同步Slave FIFO的讀時序

    你好,AN65974文檔中,我看不懂同步Slave FIFO的讀時序,你可以給我解讀一下么? 下圖中有我標注的我不懂的問題。非常感謝你!......
    發表于 05-31 06:27

    總結一下LM317的幾種經典應用電路

    說起LM317,我們做硬件的都很熟悉了,它是LDO的種,并且輸出電壓很容易通過外部電阻進行調整,今天總結一下LM317的幾種經典應用電路。
    的頭像 發表于 05-01 10:07 ?5801次閱讀
    總結<b class='flag-5'>一下</b>LM317的幾種經典應用電路

    求助一下

    視頻中的這個硬件有無大神能認出來,自己感覺可以用得上,但是不知道叫什么,哎,求助一下各位,是用來夾住個水杯的
    發表于 02-23 22:41

    簡單介紹一下電源紋波與電容嘯叫

    簡單介紹一下電源紋波與電容嘯叫? 電源紋波與電容嘯叫是電源系統中常見的兩種問題,它們會影響電子設備的性能和穩定性。本篇文章將詳細介紹電源紋波和電容嘯叫的定義、原因、對設備的影響以及常見的解決方法
    的頭像 發表于 02-04 09:42 ?1049次閱讀

    體驗一下這款免費的云手機,大家覺得效果怎么樣?

    現在市面上有許多云手機品牌,云手機品牌太多,都要把人挑花眼了,此時我們可以通過體驗一下免費的云手機,來了解這款云手機效果怎么樣,并且看看自己玩的游戲應用能不能兼容、運行是否流暢穩定,其實還是有不少
    的頭像 發表于 01-15 17:34 ?1413次閱讀

    盤點一下高通CES 2024汽車創新技術

    CES2024上,我們看到英特爾和AMD加入,加上原來的英偉達,高通需要和這些跨行的對手個賽道卷,目前高通在數字座艙、云連接、人工智能和自動駕駛領域是有定的積累的,我們來盤點
    的頭像 發表于 01-13 15:22 ?1800次閱讀
    盤點<b class='flag-5'>一下</b>高通CES 2024汽車創新技術
    主站蜘蛛池模板: 午夜福利体验免费体验区| 国产区精品综合在线| 北原夏美 快播| 蜜桃传媒视频| 在线看片亚洲| 久久国产精品无码视欧美| 亚洲不卡视频| 国产午夜视频在线| 乡村教师电影版| 国产成人在线播放| 日日夜夜天天操| yellow片高清视频免费看| 捏奶动态图吃奶动态图q| 99久久精品国产高清一区二区| 美女隐私黄www视频| 97免费视频观看| 男人和女人全黄一级毛片| 87.6在线收听| 男男高h浪荡受h| 99re2.久久热最新地址| 欧美狂野乱码一二三四区| av老司机色爱区综合| 秋霞午夜鲁丝片午夜精品久| adc网址在线观看| 日韩毛片大全| 国产精品视频在线自在线| 亚洲久热无码中文字幕| 九九热免费在线观看| 2020亚洲 欧美 国产 日韩| 欧美videosgratis杂交| 高h gl肉文| 亚洲精品偷拍影视在线观看| 久久久国产精品免费A片蜜臀| 2018国产天天弄谢| 人曽交Z00Z0OA片| 国产精品麻豆AV| 影音先锋av天堂| 欧美亚洲日韩国码在线观看| 国产精品视频国产永久视频 | 久久久96| yellow日本动漫观看免费|