天天做天天爱天天爽,亚洲精品色综合久久,尤物在线免费视频

導讀：Transformer在自然語言處理、計算機視覺和音頻處理方面取得了巨大成功。作為其核心組成部分之一，Softmax Attention模塊能夠捕捉長距離的依賴關系，但由于Softmax算子關于序列長度的二次空間和時間復雜性，使其很難擴展。

針對這點，研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子，從而降低時間空間復雜度。但是，由于誤差的存在，效果往往不盡如人意。

商湯多模態研究組認為，近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是，與其近似Softmax，不如設計一種方式代替Softmax，并且同時降低時間空間復雜度。

因此，本文提出了名為cosFormer的方法，在時間空間復雜度關于序列長度為線性復雜度的同時，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA結果。我們的設計核心理念基于兩點，首先是注意力矩陣的非負性，其次是對局部注意力的放大（非極大值抑制）。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

Part 1

背景

1. Softmax Attention

為了引出我們的方法，對Softmax Attention的計算方式進行一定的推廣：

其中表示相似度計算函數，如果，上式即變為Softmax Attention（不考慮除以的縮放操作）。注意到計算的時間復雜度為，的時間復雜度為，所以總時間復雜度為，即關于序列長度是二次的。

2. 線性 Attention

通過分析我們發現，性能瓶頸的主要原因是操作，如果相似度函數可以表示為：

那么：

根據矩陣運算的結合律：

上式可以變換為（編者修正：下方公式未變換，請參照論文）：

經過計算后可以得到該方法的時間復雜度為，即關于序列長度是一次的。

Softmax Attention和線性Attention的計算方式可以用下圖概括：

所以接下來將介紹的選擇，以及核心的reweighting操作。

3. Softmax 的兩大性質

我們經過分析以及實驗，歸納出Softmax Attention中比較重要的性質，這兩個性質可以指導我們的模型設計：

1. 注意力矩陣的非負性

2. 局部注意力的放大（非極大值抑制）

對于第一點，我們有如下實驗進行驗證（模型結構為RoBERTa）：

這里Loss表示驗證集損失（越低越好），其余指標均為準確率（越高越好）。可以看到，當保證了注意力矩陣的非負性之后，可以達到較好的效果。基于該實驗，我們選擇為ReLU函數。

對于第二點，我們的方式是在注意力矩陣中引入先驗locality信息，觀察Softmax注意力矩陣，如下圖所示，我們發現其注意力矩陣的權重在對角線附近很集中：

所以我們的方法需要在加了reweighting操作后也更加集中在對角線附近。注意并非所有的有類似權重的函數均適用，這個reweighting的函數需要跟前面的QK一樣可以拆分成兩個矩陣的乘法的形式。

至此，就可以引入我們的cosFormer了。

Part 2

cosFormer

1. 方法

我們的方法基于線性Attention，首先給出符號定義：

根據之前的分析，我們選擇了：

可得：

為了進行reweighting操作，并且同時保證線性Attention的計算方式依然成立，我們選擇了cos函數：

展開可得：

為了便于展示，我們把它記作：

最終得到：

上式和線性Attention的計算方式一致，經過分析不難得出時間復雜度依然是。

2. 實驗結果

我們在單向模型、雙向模型以及LRA benchmark上測試了我們的方法，均取得了非常不錯的效果。

單向語言模型，指標表示困惑度（越低越好）：

雙向語言模型，指標表示準確率（越高越好）：

LRA benchmark：

1）性能實驗，指標表示準確率（越高越好）：

2）內存速度實驗，指標表示速度（越高越好，如果內存溢出，則標記為叉）：

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4329

瀏覽量
62576
計算機視覺

計算機視覺

+關注

關注
8

文章
1698

瀏覽量
45982
Softmax

Softmax

+關注

關注
0

文章
9

瀏覽量
2506

原文標題：ICLR'22 | cosFormer：重新思考注意力機制中的Softmax

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

ADS1299S是否推薦有與DEMO匹配的傳感器頭？

我們目前有個項目主要用于檢測幼兒的注意力，請問一下，TI ADS1299S是否推薦有與DEMO匹配的傳感器頭？如果有，請推薦。

發表于 11-26 08:30

什么是LLM？LLM在自然語言處理中的應用

所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術，尤其是變換器（Transformer）架構。變換器模型因其自注意力（Self-Attention）機制而聞名，這種機制使得模型能夠捕捉文本

發表于 11-19 15:32 ?538次閱讀

一種基于因果路徑的層次圖卷積注意力網絡

機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場，使用多尺度卷積來提取特征。基于分層注意力機制來聚合

發表于 11-12 09:52 ?261次閱讀

一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

一種創新的動態軌跡預測方法

本文提出了一種動態軌跡預測方法，通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測注意力模塊，以編碼連續預測之間的動態關系，并通過三重因子注意力模塊實現了最先進的性能。本方法能夠生成準確且穩定的未來軌跡，這對于自動駕駛系統落地至關重要。

發表于 10-28 14:34 ?399次閱讀

2024 年 19 種最佳大型語言模型

，當時一篇題為“通過聯合學習對齊和翻譯的神經機器翻譯”的研究論文中引入了注意力機制（一種旨在模仿人類認知注意力的機器學習技術）。2017年，另一篇論文“注意力就是你

發表于 08-30 12:56 ?521次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器（Encoder）和解碼器（Decoder）兩部分實現語言的編碼和解碼。 注意力機制：Transformer中的注意力

發表于 08-02 11:03

Transformer模型在語音識別和語音生成中的應用優勢

隨著人工智能技術的飛速發展，語音識別和語音生成作為人機交互的重要組成部分，正逐漸滲透到我們生活的各個方面。而Transformer模型，自其誕生以來，憑借其獨特的自注意力機制和并行計算能力，在

發表于 07-03 18:24 ?1088次閱讀

【大規模語言模型：從理論到實踐】- 閱讀體驗

再次感謝電子發燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制的心得體會。雖然注意力機制可以顯著提高模型處理長序列數

發表于 06-07 14:44

浪潮信息發布源2.0-M32開源大模型，模算效率大幅提升

5月28日，浪潮信息發布“源2.0-M32”開源大模型。“源2.0-M32”在基于”源2.0”系列大模型已有工作基礎上，創新性地提出和采用了“基于注意力機制的門控網絡”技術

發表于 05-29 09:34 ?423次閱讀

浪潮信息發布“源2.0-M32”開源大模型

浪潮信息近日推出了革命性的“源2.0-M32”開源大模型。該模型在源2.0系列基礎上，引入了“基于注意力機制的門控網絡”技術，構建了一個包含32個專家的混合專家模型（MoE），有效提升了模型算力效率。

發表于 05-29 09:08 ?645次閱讀

采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

日前，北京理工大學王涌天教授、黃玲玲教授團隊聯合張軍院士、邊麗蘅教授團隊，采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像。

發表于 04-25 09:08 ?1132次閱讀

阿里巴巴發布AtomoVideo，兼容多款文生圖模型的高保真圖像視頻框架

AtomoVideo運用預設的 T2I 模型，在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊。現有的 T2I 模型參數固定不變，它們只會訓練新增的時空層，而輸入的串聯圖像信息由 VAE 編碼解析

發表于 03-07 11:22 ?792次閱讀

【研究動態】萬物縱橫楊帆博士在Applied Soft Computing發表石化生產異常工況預警的人工智能算法研究成果

近日，計算機科學領域著名期刊《Applied Soft Computing》（SCI一區， Top期刊）刊載了四川萬物縱橫楊帆博士與四川大學合作的最新工業智能研究成果《基于注意力機制的催化裂化裝置異常工況預警》

發表于 01-23 13:32 ?590次閱讀

OneFlow Softmax算子源碼解讀之BlockSoftmax

寫在前面：筆者這段時間工作太忙，身心俱疲，博客停更了一段時間，現在重新撿起來。本文主要解讀 OneFlow 框架的第二種 Softmax 源碼實現細節，即 block 級別的 Softmax。

發表于 01-08 09:26 ?708次閱讀

OneFlow Softmax算子源碼解讀之WarpSoftmax

寫在前面：近來筆者偶然間接觸了一個深度學習框架 OneFlow，所以這段時間主要在閱讀 OneFlow 框架的 cuda 源碼。官方源碼基于不同場景分三種方式實現 Softmax，本文主要介紹其中一種的實現過程，即 Warp 級別 Softmax，適用于矩陣寬度不超過 1

發表于 01-08 09:24 ?842次閱讀