色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于NAT的選擇性知識蒸餾框架

深度學習自然語言處理 ? 來源:南大NLP ? 作者:南大NLP ? 2022-12-06 14:44 ? 次閱讀

01

研究動機

在本文中,我們研究了一種能夠高效推理的機器翻譯模型NAT (Non-Autoregressive Transformer)[1]。相較于傳統的Transformer,NAT能夠在解碼階段并行預測,從而大幅提升模型的推理速度。此外,NAT可以使得模型在訓練和測試階段從相同的分布進行預測,從而有效避免了順序解碼模型中經常出現的exposure bias問題。在WMT21 news translation shared task for German→English translation中,已經有NAT模型在翻譯質量上超過了許多順序解碼的模型。

盡管NAT在擁有許多潛在的優勢,目前的工作中這類模型仍然在很大程度上依賴于句子級別的知識蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預測所有token,NAT對單詞間依賴關系的建模能力較弱。這個特點使得在真實數據集上,NAT很容易受到multi-modality問題的影響:訓練數據中一個輸入可能對應多個不同的輸出。在這樣的背景下,Gu提出訓練一個AT (Autoregressive Transformer)[3]模型作為老師,將它的輸出作為NAT的學習對象。這種KD方式可以幫助NAT繞過multi-modality問題,從而大幅提升NAT的翻譯表現。

e0ba8f3e-751e-11ed-8abf-dac502259ad0.png

圖1:Selective KD的流程示意圖

KD在幫助NAT提升表現的同時,也會帶來一些負面影響,例如模型在低頻詞上的準確率較低[4]、AT teacher的錯誤會傳播到NAT上等。此外,如果NAT僅能在AT teacher的輸出上學習,這類模型的翻譯質量將很難有更進一步的突破。我們的研究希望能夠在避免multi-modality的情況下,讓NAT能夠從真實的數據分布中學到知識蒸餾的過程中缺失的信息,從而提升NAT的表現。

為達到這樣的目的,我們提出了selective KD:在KD數據上訓練一個NAT作為評估模型,并通過它來選擇需要蒸餾的句子。通過這種方式,我們可以讓模型接觸到翻譯質量更高的真實數據,同時避免了嚴重的multi-modality情況。受課程學習的影響,我們也在訓練過程中動態調整蒸餾數據的比例。“用評估模型有選擇地蒸餾數據”和“動態調節蒸餾數據的比例”共同構成了我們的Selective KD訓練框架。

02

解決方案

2.1評估模型

我們首先將數據蒸餾產生的結果劃分為四種不同的情況:

較輕的modality change:某些單詞可能被替換為同義詞,句式和語義并沒有發生顯著的變化

較輕的錯誤:在保持原有句式和語義的情況下,發生了一些小錯誤,例如單詞重復

嚴重的modality change:語義不變的情況下,句子的表達方式發生了顯著的變化

嚴重的錯誤:翻譯的質量很糟糕

對于情況1,我們可以容忍較輕的modality change,這種情況下真實數據和蒸餾數據都可以被視作正確的學習目標,同時引入真實數據不會大幅增加數據集的復雜程度。情況2中,用真實數據替換蒸餾數據可以得到更高的翻譯質量,找出屬于這種情況的樣本是我們方法的主要目標。情況3中,由于引入真實數據會惡化multi-modality問題,我們希望蒸餾這部分數據。情況4很少發生,我們認為這種情況下該訓練樣本對NAT可能太過困難,引入真實數據帶來的提升很有限。總的來說,我們希望能找到情況1、2對應的訓練樣本,在訓練過程中將它們的原始數據作為學習對象。

e0e43014-751e-11ed-8abf-dac502259ad0.png



圖2:4種不同的情況對應的案例

為了篩選情況1、2中的數據,我們在蒸餾數據上訓練一個NAT作為評估模型,通過比較評估模型的輸出和真實數據計算一個score,判斷一個真實翻譯是否適合被直接用于訓練。若對于某個樣本評估模型的輸出和真實數據較為接近,則score較高,我們可以認為蒸餾數據僅有微小的錯誤或modality change,從而認為它屬于情況1、2,無需蒸餾。反之,可以認為蒸餾數據發生了較大的變化,因此屬于情況3、4,或是這個樣本在蒸餾后不發生太大變化的情況下對NAT而言仍過于困難。經過篩選,我們僅蒸餾那些不適合用于訓練的真實數據。

2.2動態調整蒸餾比例:由困難到容易

我們在訓練過程中會調整蒸餾數據的比例。一般來說,剛開始訓練時絕大多數訓練樣本為真實數據,訓練的尾聲則會蒸餾整個訓練集。具體實現中,我們通過動態調節score的閾值來調整蒸餾的比例。

e11339ae-751e-11ed-8abf-dac502259ad0.png

圖3:selective KD在第k次update的算法示意

03

實驗

我們在WMT14 EN-DE和WMT16 EN-RO上開展了實驗,包括了兩種代表性的NAT架構:CMLM [5]和GLAT+CTC [6],以及一種inference-efficient的AT架構:DeepShallow [7](6層編碼器,1層解碼器)。

3.1翻譯質量與推理速度

我們通過BLEU score [8]和一種learned metric COMET [9]來衡量模型的翻譯質量,并通過和標準Transformer比較來衡量推理速度。可以發現,相比于常規的知識蒸餾,Selective KD可以在不同數據集、不同架構以及不同metric上穩定取得翻譯質量的提升,同時保持模型自身在推理速度上的優勢。我們方法在inference-efficient AT上也有明顯的效果,這進一步說明了selective KD具有廣泛的價值。

e128553c-751e-11ed-8abf-dac502259ad0.png



圖4:翻譯質量與推理速度。翻譯質量括號外為BLEU,括號內為COMET

3.2調節quality和complexity

真實數據的翻譯質量往往是優于蒸餾數據的,通過調節蒸餾數據的比例,Selective KD可以調節訓練集的quality。與此同時,我們希望知道這個方法是否可以靈活調節訓練集的complexity。為了更好地觀察這一點,文章中用了兩個metric來衡量數據的復雜程度:Translatioin Uncertainty [10]和Alignment Shift。Translation Uncertainty反映了源句單詞對應翻譯結果的多樣性,Alignment Shift反映了句式的變化程度。

e1596ce4-751e-11ed-8abf-dac502259ad0.png

e168ab32-751e-11ed-8abf-dac502259ad0.png

圖5:Translation Uncertainty(左)和Alignment Shift(右)的計算方式

如圖6所示,我們的方法可以有效控制數據的complexity。我們保留的真實數據(綠色折線)在兩個指標上都遠遠低于被蒸餾的真實數據(紅色折線)。在增加真實數據的比例同時,整個數據集complexity的提升是緩慢而平滑的。

e17f4176-751e-11ed-8abf-dac502259ad0.png



圖6:數據的Translation Uncertainty(左)和Alignment Shift(右)

3.3蒸餾數據占比的影響

如圖7所示,我們在不同蒸餾比例的數據上進行了實驗。可以發現,通過selective KD僅蒸餾5%的數據就可以提升2.4 BLEU。在蒸餾數據比例為80%時,模型的表現甚至超過了完全蒸餾的數據,根據[10],一種可能的解釋是這種比例下數據的complexity更適合我們實驗中采用的GLAT+CTC架構。另外,動態調節真實數據的比例(藍色虛線)可以進一步提升模型的表現。

e1a73dac-751e-11ed-8abf-dac502259ad0.png

圖7:在不同蒸餾比例下模型的表現

04

總結

在這篇文章中,我們提出了選擇性知識蒸餾,從而使得NAT模型可以從真實的數據分布中學到知識蒸餾過程中缺失的部分信息。具體來說,我們采用一個NAT作為評估模型來判斷哪些句子需要蒸餾,并動態提高蒸餾數據的比例。我們用實驗結果證明了該方法可以有效提升NAT在機器翻譯任務上的表現。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NAT
    NAT
    +關注

    關注

    0

    文章

    145

    瀏覽量

    16236
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14880
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24690

原文標題:AAAI'23 | 用于NAT的選擇性知識蒸餾框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SiGe與Si選擇性刻蝕技術

    文章來源:半導體與物理 原文作者:jjfly686 本文簡單介紹了兩種新型的選擇性刻蝕技術——高氧化性氣體的無等離子體刻蝕和原子層刻蝕。 全環繞柵極晶體管(Gate-All-Around FET
    的頭像 發表于 12-17 09:53 ?111次閱讀
    SiGe與Si<b class='flag-5'>選擇性</b>刻蝕技術

    選擇性沉積技術介紹

    選擇性沉積技術可以分為按需沉積與按需材料工藝兩種形式。 隨著芯片制造技術的不斷進步,制造更小、更快且能效更高的芯片具很大的挑戰,尤其是全環繞柵極(Gate-All-Around, GAA)晶體管和更
    的頭像 發表于 12-07 09:45 ?225次閱讀
    <b class='flag-5'>選擇性</b>沉積技術介紹

    基于介電電泳的選擇性液滴萃取微流體裝置用于單細胞分析

    我們開發了一種微流體裝置,可以基于介電電泳從多個液滴捕獲袋中選擇性提取液滴。該裝置由一個主微通道、五個帶側通道的液滴捕獲袋和適當位于捕獲袋周圍的驅動電極對組成。由于主通道和側通道之間的流動阻力
    的頭像 發表于 11-11 14:10 ?185次閱讀

    Nat server技術原理和配置過程

    Nat server:指定公有地址:端口和私有地址:端口形成一對一映射關系——映射表。這也是Nat server與其他nat的區別之一,Nat server可以指定端口進行映射。
    的頭像 發表于 10-10 14:38 ?724次閱讀
    <b class='flag-5'>Nat</b> server技術原理和配置過程

    過電流保護的選擇性是靠什么來實現的

    過電流保護的選擇性是指在電力系統中,當發生短路或過載時,保護裝置能夠按照預定的順序和時間,優先切斷故障部分,而不影響其他正常運行的部分。選擇性是電力系統保護設計的重要原則之一,它能夠確保系統的穩定性
    的頭像 發表于 09-26 14:38 ?511次閱讀

    選擇性喚醒如何實現局部聯網

    電子發燒友網站提供《選擇性喚醒如何實現局部聯網.pdf》資料免費下載
    發表于 09-12 10:29 ?0次下載
    <b class='flag-5'>選擇性</b>喚醒如何實現局部聯網

    NAT技術及其應用

    網絡地址轉換(NAT,Network Address Translation)是一種廣泛應用于現代網絡中的技術,旨在解決IP地址短缺問題,同時增強網絡的安全性和靈活性。本文將詳細解釋NAT技術
    的頭像 發表于 07-09 16:43 ?561次閱讀
    <b class='flag-5'>NAT</b>技術及其應用

    交流二元繼電器如何具有相位選擇性和頻率選擇性

    在這篇文章中,我們將詳細探討交流二元繼電器的相位選擇性和頻率選擇性。我們將從繼電器的基本原理開始,然后探討這兩種選擇性的原理和實現方法。 1. 繼電器的基本原理 繼電器是一種電子開關,它可以根據輸入
    的頭像 發表于 06-29 09:42 ?837次閱讀

    在smt貼片加工廠中選擇性波峰焊存在的作用和意義

    加工廠作為電子產品制造的核心環節,其生產效率和產品質量成為了所有廠商們追求的目標。而選擇性波峰焊正是一項重要的技術,廣泛應用于SMT貼片加工廠中。本文將深入探討選擇性波峰焊在SMT貼片加工廠中的作用,以及它帶來的諸多益處。 ?
    的頭像 發表于 06-06 09:35 ?474次閱讀

    阿里達摩院提出“知識鏈”框架,降低大模型幻覺

    近日,阿里巴巴達摩院(湖畔實驗室)攜手新加坡南洋理工大學等研究機構,共同推出了大模型知識鏈(CoK)框架。該框架不僅可實時檢索異構知識源,還能逐步糾正推理錯誤,有效提高了大模型在回答
    的頭像 發表于 05-10 11:46 ?688次閱讀

    SMT加工廠用選擇性波峰焊有什么優點嗎?

    我們知道SMT貼片廠都能做后焊插件,后焊插件的話一般會用到波峰焊,近年來SMT加工廠用選擇性波峰焊的也越來越多了,選擇性波峰焊有什么優點嗎?
    的頭像 發表于 03-21 11:04 ?547次閱讀

    什么是NATNAT類型有哪些?NAT是如何工作的?NAT解決了什么問題?

    什么是NATNAT類型有哪些?NAT是如何工作的?NAT解決了什么問題?如何使用NATNAT
    的頭像 發表于 02-04 11:03 ?4951次閱讀

    淺談NAT網關

    NAT網關應用
    的頭像 發表于 02-02 16:26 ?536次閱讀
    淺談<b class='flag-5'>NAT</b>網關

    電子制造業中的選擇性波峰焊有哪些優缺點?

    選擇性波峰焊是一種廣泛應用于電子制造業的焊接技術,它具有許多獨特的優點和一些不足之處。本文將詳細介紹選擇性波峰焊的優缺點,幫助讀者全面了解該技術的特點及適用范圍。 選擇性波峰焊的優點之
    的頭像 發表于 01-15 10:41 ?901次閱讀

    NAT網關是什么?NAT網關的作用

    NAT網關(Network Address Translation Gateway)是一種網絡設備,它能夠將內部網絡的私有IP地址轉換為合法的公網IP地址,使得內部網絡的主機可以通過NAT網關訪問外部網絡。
    的頭像 發表于 12-25 16:00 ?1229次閱讀
    主站蜘蛛池模板: 99国内精精品久久久久久婷婷| 男生插曲女生身全过程| 亚洲男人天堂2018av| 国产这里有精品| 亚洲色图在线视频| 久草在线福利视频在线播放| 曰本老头同性xxxxx| 久久这里只有是精品23| 中文字幕永久在线观看| 蜜柚免费视频高清观看在线| 99久久香蕉| 日本强好片久久久久久AAA| 成人麻豆日韩在无码视频| 十分钟免费观看大全视频| 国产精品嫩草99AV在线| 亚洲高清视频在线| 九色PORNY真实丨国产免费| 在线中文高清资源免费观看| 蜜桃传媒在线播放| 超碰最新地址| 国产精品久久久久久影院| 无人区在线日本高清免费| 黄色xxxxxx| 中文字幕蜜臀AV熟女人妻| 欧美freesex黑人又粗又| 纯肉小黄文高H| 午夜一个人在线观看完整版 | 翁用力的抽插| 韩国成人理伦片免费播放| 在线A亚洲老鸭窝天堂AV高清| 美女张开腿让男人桶爽无弹窗| old胖老太fat bbw青年| 天天射天天爱天天干| 狠狠久久免费视频在线| 最近日本字幕MV免费观看在线 | 精品人妻一区二区三区视频53| 中文字幕按摩| 人妻免费视频公开上传| 国产精品一区二区AV交换| 月夜直播视频免费观看| 内射白嫩少妇超碰|