色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將線性Transformer作為快速權重系統進行分析和改進

智能感知與物聯網技術研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-03-31 15:10 ? 次閱讀

Transformer 在深度學習中占據主導地位,但二次存儲和計算需求使得 Transformer 的訓練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機制。然而,這種方法還存在很多缺點,例如它們依賴于隨機特征。 本文中,來自瑞士人工智能實驗室(IDSIA)、亞琛工業大學的研究者建立起了線性(核)注意力與 90 年代深度學習之父 Jürgen Schmidhuber 推廣的更古老的快速權重存儲系統之間的內在聯系,不僅指出了這些算法的基本局限性,還提出了新的更新規則和新的核來解決這些問題。在關鍵的綜合實驗和實際任務中,所得到的模型優于 Performers。

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測線性化的 softmax 注意力變量存在存儲容量限制。在有限存儲的情況下,快速權重存儲模型的一個理想行為是操縱存儲的內容并與之動態交互。 受過去對快速權重研究的啟發,研究者建議用產生這種行為的替代規則替換更新規則。此外,該研究還提出了一個新的核函數來線性化注意力,平衡簡單性和有效性。他們進行了大量的實驗,實驗內容包括合成檢索問題、標準機器翻譯以及語言建模。實驗結果證明了該研究方法的益處。 將線性 Transformer 作為快速權重系統進行分析和改進 將線性 Transformer 變量視為快速權重系統,研究者給出了兩個見解:作為關聯存儲容量的限制;無法編輯以前存儲的關聯內容。 容量限制 不斷地將新的關聯添加到有限大小的存儲中,如下公式 17 所示,這樣不可避免地會達到極限。在線性注意力中,信息存儲在矩陣中,并使用矩陣乘法進行檢索(如下公式 19)。因此,為了防止關聯在檢索時相互干擾,各個鍵(keys)需要正交。否則,點積將處理多個鍵并返回值的線性組合。對于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說,存儲多個 d_dot 關聯將導致檢索誤差。在線性 Transformer 中,當序列長度大于 d_dot 時,模型可能處于這樣一種容量過剩狀態。 改進與更新 受快速權重存儲研究(Schlag 等人,2021 年)的啟發,研究者提出了以下存儲更新規則。 給定新的輸入鍵 - 值對 (k^ (i) , v ^(i) ),模型首先訪問存儲的當前狀態 W^(i?1),并檢索當前與鍵 k^(i) 配對的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序將輸入序列a0ee1c16-8d23-11eb-8b86-12bb97331649.png轉化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒有應用歸一化。通過推導可以得到一個簡單的歸一化,即通過引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數的增加而增加,并且可能導致不穩定;其次,特別是對于該研究提出的更新規則,這種歸一化不足以平衡公式 23 中寫入和刪除運算之間的權重(參見附錄 A.2 中的推導)。 在這里,研究者提出了一種基于簡單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡單的逐元素 ELU + 1 函數(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動機是因為負數部分的非零梯度。重要的是,作為一個簡單的函數,這個Φ函數保留了輸入鍵向量(d_key=d_dot)的維數,而不需要修改第 4.1 節中討論的存儲容量。 DPFP 前面兩小節強調了現有Φ函數的次優性。采樣會給 FAVOR + 增加額外的復雜度,而線性 Transformer 缺乏投影點積維數的能力。因此,研究者提出了一種稱為確定性無參數投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計算,同時增加點積維數,而不需要 FAVOR + 的隨機特性。 下圖中四維空間的元素被顯示為四個彩色表面的 z 分量,以及 2d 平面中的每個向量如何在 4d 空間中具有單個非零分量,并將輸入空間平均分割為在投影空間中正交的四個區域。

實驗 該研究從三個方面進行了實驗:合成檢索問題、機器翻譯和語言模型。 合成檢索問題 所有模型都以最小批次 32 進行訓練,直到評估損失降到 0.001 以下,或者進行了 1000 訓練步。下圖 2 展示了模型的最佳驗證集性能以及對不同 S 的顯示。唯一鍵的數量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實驗對以下模型進行對比:Softmax、線性注意力、具有 64、128 和 512 個隨機特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學習曲線。實驗結果表明,該研究提出的更新規則優于其他變體。正如預期的那樣,基線總和更新規則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機器翻譯 下表 1 顯示了 BLEU 得分結果。當樣本數 m 足夠大時(當 d_dot=512,m=256),Performer 與基礎 Transformer 性能相當。實際上,當 d_key=64 時,m 的推薦值是 d_dot log(d_dot)=266。當 d_dot 相對較小時,該研究的 DPFP 模型優于線性 Transformer 和 Performer;在簡單性和性能之間提供了一個很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語言模型 該研究使用標準 WikiText-103(Merity 等,2017)數據集進行實驗。WikiText-103 數據集由維基百科的長文組成;訓練集包含大約 28K 篇文章、總共 103M 個單詞。這將產生約 3600 個單詞的上下文文本塊。驗證集和測試集也包含類似的長依賴關系,分別有 218K 和 246K 個運行單詞,對應 60 篇文章,詞匯量約為 268K 個單詞。下表 2 展示了在該研究更新規則下,WikiText-103 語言模型的困惑度結果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語言模型在沒有截斷上下文的情況下訓練和評估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標準化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    47208

    瀏覽量

    238303
  • 深度學習
    +關注

    關注

    73

    文章

    5500

    瀏覽量

    121118
  • Transformer
    +關注

    關注

    0

    文章

    143

    瀏覽量

    5997

原文標題:LSTM之父重提30年前的「快速權重存儲系統」:線性Transformer只是它的一種變體

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    DV2003L1快速充電開發系統車載線性電流控制

    電子發燒友網站提供《DV2003L1快速充電開發系統車載線性電流控制.pdf》資料免費下載
    發表于 12-21 11:05 ?0次下載
    DV2003L1<b class='flag-5'>快速</b>充電開發<b class='flag-5'>系統</b>車載<b class='flag-5'>線性</b>電流控制

    Celsius EC Solver:對電子系統散熱性能進行準確快速分析

    Cadence Celsius EC Solver 是一款電子產品散熱仿真軟件,用于對電子系統散熱性能進行準確快速分析。借助 Celsius EC Solver,設計人員能夠在設計周
    的頭像 發表于 12-16 18:11 ?177次閱讀
    Celsius EC Solver:對電子<b class='flag-5'>系統</b>散熱性能<b class='flag-5'>進行</b>準確<b class='flag-5'>快速</b><b class='flag-5'>分析</b>

    是德矢量網絡分析儀的線性度測試

    至關重要。是德科技矢量網絡分析儀憑借其高精度、寬頻帶和強大的軟件功能,成為進行線性度測試的首選儀器。本文重點介紹如何利用是德矢量網絡分析
    的頭像 發表于 11-27 16:43 ?215次閱讀
    是德矢量網絡<b class='flag-5'>分析</b>儀的<b class='flag-5'>線性</b>度測試

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。
    的頭像 發表于 11-20 09:28 ?416次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?287次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    USB Type-C系統中TPS25947和LM73100的快速角色交換、線性或運算

    電子發燒友網站提供《USB Type-C系統中TPS25947和LM73100的快速角色交換、線性或運算.pdf》資料免費下載
    發表于 09-25 11:03 ?0次下載
    USB Type-C<b class='flag-5'>系統</b>中TPS25947和LM73100的<b class='flag-5'>快速</b>角色交換、<b class='flag-5'>線性</b>或運算

    數學建模(1)--層次分析

    分析系統中各因素之間的關系,建立系統的遞階層次結構。 權重表格 指標權重 蘇杭 北戴河 桂林 景色 花費 居住
    發表于 09-06 10:39

    線性定常系統和時變系統的概念、特點及判斷方法

    控制系統的設計和分析至關重要。 第一部分:線性系統 1.1 線性系統的定義 線性系統是指滿足線性
    的頭像 發表于 07-29 10:26 ?3050次閱讀

    Transformer能代替圖神經網絡嗎

    Transformer作為一種在處理序列數據方面表現出色的深度學習模型,自其提出以來,已經在自然語言處理(NLP)、時間序列分析等領域取得了顯著的成果。然而,關于Transformer
    的頭像 發表于 07-12 14:07 ?446次閱讀

    Transformer語言模型簡介與實現過程

    任務,隨后迅速擴展到其他NLP任務中,如文本生成、語言理解、問答系統等。本文詳細介紹Transformer語言模型的原理、特點、優勢以及實現過程。
    的頭像 發表于 07-10 11:48 ?1634次閱讀

    深度學習中的模型權重

    在深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型智能的源泉。本文將從模型權重的定義、作用、優化、管理以及應用等多個方面,深入探討深度學習
    的頭像 發表于 07-04 11:49 ?1226次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓
    的頭像 發表于 07-02 11:41 ?1603次閱讀

    為什么要進行調制?常見的線性調制方式有哪些?

    線性調制和非線性調制是在通信系統中用于原始信號轉換為調制信號的兩種不同方法。
    發表于 02-05 10:43 ?5039次閱讀
    為什么要<b class='flag-5'>進行</b>調制?常見的<b class='flag-5'>線性</b>調制方式有哪些?

    UPS電源蓄電池快速充電的改進方法

    充電速度慢、效率低等問題。因此,我們需要進行改進,以實現UPS電源蓄電池的快速充電。本文詳細探討一些可以采取的改進方法。 首先,我們可以考
    的頭像 發表于 01-10 16:50 ?860次閱讀

    Spring Boot和飛騰派融合構建的農業物聯網系統-改進自適應加權融合算法

    規則為:傳感器的方差越小,分得的權值越大。X為融合后最優輸出結果。 其中輸出結果x與各傳感器和傳感器權重 wi 滿足如下關系。 根據上式中條件構造拉格朗日函數最終可得 三、實驗分析
    發表于 01-06 12:18
    主站蜘蛛池模板: 美女pk精子4| 国产99视频精品免费播放| 亚洲色欲国产AV精品综合| 视频一区视频二区在线观看| 欧美最猛黑人XXXXWWW| 男女性杂交内射妇女BBWXZ | 亚洲精品久久久久AV无码林星阑| 日本美女搞基视频| 欧美日韩久久久精品A片| 男男腐文污高干嗯啊快点1V1| 老司机亚洲精品影院| 久久免费看少妇高潮A片特爽| 久久国产主播福利在线| 久久精品国产亚洲AV影院| 精品久久久麻豆国产精品| 好吊日视频在线| 精品无码国产污污污免费网站2| 寂寞夜晚视频在线观看| 久久99精品AV99果冻| 久久久精品免费免费直播| 麻豆区蜜芽区| 桥本有菜护士| 色青青草原桃花久久综合| 学生无码AV一区二区三区| 亚洲精品AV无码喷奶水糖心| 亚洲中文字幕手机版| 中文字幕精品视频在线| 91国在线产| xiao77唯美清纯| 国产精品AV无码免费播放| 国产亚洲精品AAAAAAA片| 久久精品一区| 欧美A级肉欲大片XXX| 色色激情网| 野花日本免费完整版高清版动漫 | 亚洲国产精品日本无码网站| 亚洲日韩精品AV中文字幕| 最近更新2019中文字幕免费| 99久久精品费精品国产一区二| 潮 喷女王cytherea| 国产欧美日韩综合精品一区二区|