色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種名為“普適注意力”的新翻譯模型,用2D卷積網絡做序列預測

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-27 08:41 ? 次閱讀

目前的機器翻譯模型基于編碼器-解碼器系統結構,本文提出了一種名為“普適注意力”的新翻譯模型,用2D卷積網絡做序列預測,無論長句短句翻譯結果都更好,使用的參數也更少。實驗表明,新模型的總體表現優于目前最出色的解碼器-編碼器模型系統。

目前,最先進的機器翻譯系統基于編碼器-解碼器架構,首先對輸入序列進行編碼,然后根據輸入編碼生成輸出序列。兩者都與注意機制接口有關,該機制基于解碼器狀態,對源令牌的固定編碼進行重新組合。

本文提出了一種替代方法,該方法于跨兩個序列的單個2D卷積神經網絡。網絡的每一層都根據當前的輸出序列重新編碼源令牌。因此,類似注意力的屬性在整個網絡中普遍存在。我們的模型在實驗中表現出色,優于目前最先進的編碼器-解碼器系統,同時在概念上更簡單,參數更少。

“普適注意力”模型及原理

我們的模型中的卷積層使用隱性3×3濾波器,特征僅根據先前的輸出符號計算。圖為經過一層(深藍色)和兩層(淺藍色)計算之后的感受野,以及正常3×3濾波器(灰色)的視野的隱藏部分。

上圖為具有兩個隱藏層的解碼器網絡拓撲的圖示,底部和頂部的節點分別表示輸入和輸出。水平方向連接用于RNN,對角線方向連接用于卷積網絡。在兩種情況下都會使用垂直方向的連接。參數跨時間步長(水平方向)共享,但不跨層(垂直方向)共享。

塊級(頂部)和每個塊(底部)內的DenseNet體系結構

令牌嵌入大小、層數(L)和增長率(g)的影響

無論是長句、短句,翻譯結果都更好

與現有最佳技術的比較

我們將結果與表3中的現有技術進行了比較,包括德-英翻譯(De-En)和英-德翻譯(En-De)。我們的模型名為Pervasive Attention。除非另有說明,我們使用最大似然估計(MLE)訓練所有模型的參數。對于一些模型,我們會另外報告通過序列水平估計(SLE,如強化學習方法)獲得的結果,我們通常直接針對優化BLEU量度,而不是正確翻譯的概率。

在不同句子序列長度上的表現

在上圖中,我們將翻譯質量視為句子長度的函數,并將我們的模型與RNNsearch、ConvS2S和Transformer進行比較。結果表明,我們的模型幾乎在所有句子長度上都得到了最好的結果,ConvS2S和Transformer只在最長的句子上表現更好。總的來說,我們的模型兼備RNNsearch在短句中的強大表現,同時也接近ConvS2S和Transformer在較長句子上的良好表現。

隱性的句子對齊

上圖所示為最大池化運算符在我們的模型中生成的隱式句子對齊。作為參考,我們還展示了我們的模型使用的“自我注意力”產生的對齊。可以看到,兩種模型都成功定性地模擬了隱性的句子對齊。

我們的模型(L = 24,g = 32,ds = dt = 128),具有不同的池化操作符,使用門控卷積單元

在不同的濾波器尺寸k和深度L下,我們的模型(g = 32,ds = dt = 128)的表現。

與IWSLT德語-英語翻譯模型的最新結果的比較。

(*):使用我們的實現獲得的結果(**):使用FairSeq獲得的結果。

脫離編碼器-解碼器范式,用DenseNet作機器翻譯

我們提出了一種新的神經機器翻譯架構,該架構脫離了編碼器-解碼器范例。我們的模型將源序列和目標序列聯合編碼為深度特征層次結構,其中源令牌嵌入到部分目標序列的上下文中。沿源維度對此聯合編碼進行最大池化,將相關要素映射到下一個目標令牌的預測。該模型實現基于DenseNet的2D CNN。

由于我們的模型會結合語境,對每一層當前生成的目標序列的輸入令牌重新編碼,因此該模型網絡構造的每層中都具有“類似注意力”(attention-like)的屬性。

因此,添加明確的“自注意模塊”具有非常有限、但十分積極的效果。然而,我們模型中的最大池化運算符生成的隱式句子對齊,在性質上與注意力機制生成的對齊類似。我們在IWSLT'14數據集上評估了我們的模型,將德-英雙語互譯。

我們獲得的BLEU分數與現有最佳方法相當,我們的模型使用的參數更少,概念上也更簡單。我們希望這一成果可以引發對編碼器-解碼器模型的替代方案的興趣。在未來,我們計劃研究混合方法,其中聯合編碼模型的輸入不是由嵌入向量提供的,而是1D源和目標嵌入網絡的輸出。

未來我們還將研究如何該模型來跨多語種進行翻譯。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 濾波器
    +關注

    關注

    161

    文章

    7796

    瀏覽量

    177997
  • 編碼器
    +關注

    關注

    45

    文章

    3639

    瀏覽量

    134429
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14880

原文標題:機器翻譯新突破!“普適注意力”模型:概念簡單參數少,性能大增

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    卷積神經網絡模型發展及應用

    神經網絡已經廣泛應用于圖像分類、目標檢測、語義分割以及自然語言處理等領域。首先分析了典型卷積神經網絡模型為提高其性能增加網絡深度以及寬度的
    發表于 08-02 10:39

    探索一種降低ViT模型訓練成本的方法

    對架構的更改,以加快訓練。(1)ViT architectureVanilla Transformer接收token嵌入的1D序列作為輸入。為了處理2D圖像,ViT模型將每個輸入圖像分
    發表于 11-24 14:56

    北大研究者創建了一種注意力生成對抗網絡

    同時我們還將完整的GAN結構和我們網絡的部分相對比:A表示只有自動編碼器,沒有注意力地圖;A+D表示沒有注意力自動編碼器,也沒有注意力判別器
    的頭像 發表于 08-11 09:22 ?4960次閱讀

    一種新的神經機器翻譯架構,它脫離了編碼器-解碼器的范疇

    為了解決這些局限,我們提出了一種基于深層2D卷積神經網絡(CNN)的新方法。它和圖像、音頻生成模型的自回歸
    的頭像 發表于 08-23 09:14 ?3431次閱讀

    循環神經網絡卷積神經網絡注意力文本生成變換器編碼器序列表征

    序列表征循環神經網絡卷積神經網絡注意力文本生成變換器編碼器自注意力解碼器自
    的頭像 發表于 07-19 14:40 ?3261次閱讀
    循環神經<b class='flag-5'>網絡</b><b class='flag-5'>卷積</b>神經<b class='flag-5'>網絡</b><b class='flag-5'>注意力</b>文本生成變換器編碼器<b class='flag-5'>序列</b>表征

    基于注意力機制的深度學習模型AT-DPCNN

    情感分析是自然語言處理領域的個重要分支,卷積神經網絡(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關鍵情感信息。為此,建立一種基于
    發表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b>機制的深度學習<b class='flag-5'>模型</b>AT-DPCNN

    一種注意力增強的自然語言推理模型aESIM

    在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層
    發表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b><b class='flag-5'>注意力</b>增強的自然語言推理<b class='flag-5'>模型</b>aESIM

    融合雙層多頭自注意力與CNN的回歸模型

    針對現有文本情感分析方法存在的無法高效捕捉相關文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭自注意力卷積神經網絡(CNN)的回歸
    發表于 03-25 15:16 ?6次下載
    融合雙層多頭自<b class='flag-5'>注意力</b>與CNN的回歸<b class='flag-5'>模型</b>

    基于深度圖注意力卷積CNN的三維模型識別方法

    針對現有基于深度學習的三維模型識別方法缺乏結合三維模型的上下文細粒度局部特征,可能造成幾何形狀極其相似,局部細節信息略有不同的類識別混淆的問題,提岀一種基于深度圖注意力
    發表于 04-02 13:56 ?6次下載
    基于深度圖<b class='flag-5'>注意力</b><b class='flag-5'>卷積</b>CNN的三維<b class='flag-5'>模型</b>識別方法

    基于多層CNN和注意力機制的文本摘要模型

    。然而現有的模型在解碼時僅利用編碼器最后層信息,而忽略編碼器其余層的特征。鑒于此,提出一種基于多層循環神經網絡和層級交互注意力機制的摘要生
    發表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b>機制的文本摘要<b class='flag-5'>模型</b>

    基于循環卷積注意力模型的文本情感分類方法

    和全局信息。文中針對單標記和多標記情感分類任務,提出一種循環卷積注意力模型( LSTM-CNN-ATT,LCA)。該模型利用
    發表于 04-14 14:39 ?10次下載
    基于循環<b class='flag-5'>卷積</b><b class='flag-5'>注意力</b><b class='flag-5'>模型</b>的文本情感分類方法

    基于視覺注意力的全卷積網絡3D內容生成方法

     由于在某些特殊場景中獲取深度線索的難度較高,使得已有3D內容生成方法的應用受到限制。為此,以顯著圖代替深度圖進行2D-3D轉換,提出一種3D內容生成方法。使用全
    發表于 05-13 16:13 ?11次下載

    基于注意力機制等的社交網絡熱度預測模型

    基于注意力機制等的社交網絡熱度預測模型
    發表于 06-07 15:12 ?14次下載

    一種新的深度注意力算法

    本文簡介了一種新的深度注意力算法,即深度殘差收縮網絡(Deep Residual Shrinkage Network)。從功能上講,深度殘差收縮網絡
    發表于 05-24 16:28 ?0次下載
    <b class='flag-5'>一種</b>新的深度<b class='flag-5'>注意力</b>算法

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中的故障檢測對其可維護性和安全性至關重要。然而,系統監測變量往往具有復雜的聯系,很難表征它們的關系并提取有效的特征。本文開發了一種基于因果路徑的層次圖卷積注意力網絡(HGCAN
    的頭像 發表于 11-12 09:52 ?255次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖<b class='flag-5'>卷積</b><b class='flag-5'>注意力</b><b class='flag-5'>網絡</b>
    主站蜘蛛池模板: 欧美精品一区二区三区视频| 99精品免费久久久久久久久日本| 国产精品手机在线视频| 欧美午夜精品A片一区二区HD| 再插深点嗯好大好爽| 精品视频免费在线| 亚洲精品无码国产爽快A片百度| 国产免费午夜| 色呦呦导航| 国产 日韩 欧美 高清 亚洲| 人人澡人人擦人人免费| HEYZO精品无码一区二区三区| 免费人成网站在线观看10分钟| 中文字幕国产在线观看| 久久精品中文字幕| 伊人久久大香线蕉影院95| 娇妻中日久久持久久| 亚洲精品久久无码AV片银杏| 国产又黄又硬又粗| 亚洲 自拍 欧洲 视频二区| 国产精品一区二区亚瑟不卡| 四虎永久在线精品国产| 国产-第1页-浮力影院| 婷婷久久无码欧美人妻| 国产精品久久久久久日本| 甜性涩爱下载| 国产亚洲日韩另类在线观看| 亚洲精品成人a在线观看| 国产偷国产偷亚洲高清SWAG| 亚州中文字幕| 护士的下面又湿又紧10P| 亚洲中文字幕日产乱码2020| 久久88综合| 中国二级毛片| 男人私gay挠脚心vk视频| BL全肉多攻NP高H| 日本无码专区亚洲麻豆| 国产成人精品在视频| 亚洲 欧美 中文字幕 在线| 国内精品久久久久影院老司| 亚洲日产2020乱码草莓毕|