乌克兰一级毛片,亚洲天堂第一区,私库在线观看

DeBERTa刷新了GLUE的榜首，本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對(duì)BERT的改造主要在三點(diǎn)

分散注意力機(jī)制

為了更充分利用相對(duì)位置信息，輸入的input embedding不再加入pos embedding, 而是input在經(jīng)過transformer編碼后，在encoder段與“decoder”端通過相對(duì)位置計(jì)算分散注意力

增強(qiáng)解碼器（有點(diǎn)迷）

為了解決預(yù)訓(xùn)練和微調(diào)時(shí)，因?yàn)槿蝿?wù)的不同而預(yù)訓(xùn)練和微調(diào)階段的gap，加入了一個(gè)增強(qiáng)decoder端，這個(gè)decoder并非transformer的decoder端（需要decoder端有輸入那種），只是直觀上起到了一個(gè)decoder作用

解碼器前接入了絕對(duì)位置embedding，避免只有相對(duì)位置而丟失了絕對(duì)位置embedding

其實(shí)本質(zhì)就是在原始BERT的倒數(shù)第二層transformer中間層插入了一個(gè)分散注意力計(jì)算

訓(xùn)練trick

訓(xùn)練時(shí)加入了一些數(shù)據(jù)擾動(dòng)

mask策略中不替換詞，變?yōu)樘鎿Q成詞的pos embedding

分散注意力機(jī)制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起，這種早期就合并了位置信息在計(jì)算self-attention時(shí)，表達(dá)能力受限，維護(hù)信息非常被弱化了

BERT embedding

本文的motivation就是將pos信息拆分出來，單獨(dú)編碼后去content 和自己求attention，增加計(jì)算 “位置-內(nèi)容” 和 “內(nèi)容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計(jì)算方法

分散注意力機(jī)制首先在input中分離相對(duì)位置embedding，在原始char embedding+segment embedding經(jīng)過編碼成后，與相對(duì)位置計(jì)算attention,

即是內(nèi)容編碼，是相對(duì)的位置編碼， attention的計(jì)算中，融合了位置-位置，內(nèi)容-內(nèi)容，位置-內(nèi)容，內(nèi)容-位置

相對(duì)位置的計(jì)算

限制了相對(duì)距離，相距大于一個(gè)閾值時(shí)距離就無效了，此時(shí)距離設(shè)定為一個(gè)常數(shù)，距離在有效范圍內(nèi)時(shí)，用參數(shù)用控制

增強(qiáng)型解碼器

強(qiáng)行叫做解碼器

用 EMD( enhanced mask decoder) 來代替原 BERT 的 SoftMax 層預(yù)測(cè)遮蓋的 Token。因?yàn)槲覀冊(cè)诰{(diào)時(shí)一般會(huì)在 BERT 的輸出后接一個(gè)特定任務(wù)的 Decoder，但是在預(yù)訓(xùn)練時(shí)卻并沒有這個(gè) Decoder；所以本文在預(yù)訓(xùn)練時(shí)用一個(gè)兩層的 Transformer decoder 和一個(gè) SoftMax 作為 Decoder。其實(shí)就是給后層的Transformer encoder換了個(gè)名字，千萬別以為是用到了Transformer 的 Decoder端

絕對(duì)位置embedding

在decoder前有一個(gè)騷操作是在這里加入了一層絕對(duì)位置embedding來彌補(bǔ)一下只有相對(duì)位置的損失，比如“超市旁新開了一個(gè)商場(chǎng)”，當(dāng)mask的詞是“超市”，“商場(chǎng)”，時(shí)，只有相對(duì)位置時(shí)沒法區(qū)分這兩個(gè)詞的信息，因此decoder中加入一層

一些訓(xùn)練tricks

將BERT的訓(xùn)練策略中，mask有10%的情況是不做任何替換，這種情況attention偏向自己會(huì)非常明顯，DeBeta將不做替換改成了換位該位置詞絕對(duì)位置的pos embedding, 實(shí)驗(yàn)中明顯能看到這種情況下的attention對(duì)自身依賴減弱

在訓(xùn)練下游任務(wù)時(shí)，給訓(xùn)練集做了一點(diǎn)擾動(dòng)來增強(qiáng)模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首，在大部分任務(wù)上整體效果相比還是有一丟丟提升

責(zé)任編輯：lq

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴