色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在不增加額外參數量的前提下把模型的表達能力挖掘到極致

電子工程師 ? 來源:機器之心 ? 作者:機器之心 ? 2022-08-08 16:25 ? 次閱讀

今天跟大家分享一篇來自CMU等機構的論文《Sliced Recursive Transformer》,該論文已被 ECCV 2022 接收。

目前 vision transformer 在不同視覺任務上如分類、檢測等都展示出了強大的性能,但是其巨大的參數量和計算量阻礙了該模型進一步在實際場景中的應用。基于這個考慮,本文重點研究了如何在不增加額外參數量的前提下把模型的表達能力挖掘到極致,同時還要保證模型計算量在合理范圍內,從而可以在一些存儲容量小,計算能力弱的嵌入式設備上部署。

基于這個動機,Zhiqiang Shen、邢波等研究者提出了一個 SReT 模型,通過循環遞歸結構來強化每個 block 的特征表達能力,同時又提出使用多個局部 group self-attention 來近似 vanilla global self-attention,在顯著降低計算量 FLOPs 的同時,模型沒有精度的損失。

6f84e69e-16c2-11ed-ba43-dac502259ad0.png

論文地址:https://arxiv.org/abs/2111.05297

代碼和模型:https://github.com/szq0214/SReT

總結而言,本文主要有以下兩個創新點:

使用類似 RNN 里面的遞歸結構(recursive block)來構建 ViT 主體,參數量不漲的前提下提升模型表達能力;

使用 CNN 中 group-conv 類似的 group self-attention 來降低 FLOPs 的同時保持模型的高精度

此外,本文還有其他一些小的改動:

網絡最前面使用三層連續卷積,卷積核為 3x3,結構直接使用了研究者之前 DSOD 里面的 stem 結構;

Knowledge distillation 只使用了單獨的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因為研究者認為 soft label 包含的信息更多,更有利于知識蒸餾;

使用可學習的 residual connection 來提升模型表達能力;

如下圖所示,本文所提出的模型在參數量(Params)和計算量(FLOPs)方面相比其他模型都有明顯的優勢:

6f9bf410-16c2-11ed-ba43-dac502259ad0.png

下面我們來解讀這篇文章: 1.ViT 中的遞歸模塊 遞歸操作的基本組成模塊如下圖:

6fac3848-16c2-11ed-ba43-dac502259ad0.png

該模塊非常簡單明了,類似于 RNN 結構,將模塊當前 step 的輸出作為下個 step 的輸入重新輸進該模塊,從而增強模型特征表達能力。 研究者展示了將該設計直接應用在 DeiT 上的結果,如下所示:

6fb76088-16c2-11ed-ba43-dac502259ad0.png

可以看到在加入額外一次簡單遞歸操作之后就可以得到將近 2% 的精度提升。 當然具體到全局網絡結構層面還有不同的遞歸構建方法,如下圖:

6fcb1b1e-16c2-11ed-ba43-dac502259ad0.png

其中 NLL 層(Non-linear Projection Layer)是用來保證每個遞歸模塊輸入輸出不完全一致。論文提出使用這個模塊的主要原因是發現在上述 Table 1 里面更多次數的遞歸操作并沒有進一步提升性能,說明網絡可能學到了一個比較簡單的狀態,而 NLL 層可以強制模型輸入輸出不一致從而緩解這種情況。同時,研究者從實驗結果發現上圖 (1) internal loop 相比 external loop 設計擁有更好的 accuracy-FLOPs 結果。 2. 分組的 Group Self-attention 模塊 如下圖所示,研究者提出了一種分組的 group self-attention 策略來降低模型的 FLOPs,同時保證 self-attention 的全局注意力,從而使得模型沒有明顯精度損失:

6fd2573a-16c2-11ed-ba43-dac502259ad0.png

Group Self-attention 模塊具體形式如下:

6fe58ecc-16c2-11ed-ba43-dac502259ad0.png

Group self-attention 的缺點是只有局部區域會相互作用,研究者提出通過使用 Permutation 操作來近似全局 self-attention 的機制,同時通過 Inverse Permutation 來復原和保留 tokens 的次序信息,針對這個部分的消融實驗如下所示:

6fee80d6-16c2-11ed-ba43-dac502259ad0.png

其中 P 表示加入 Permutation,I 表示加入 Inverse Permutation,-L 表示如果 group 數為 1,就不使用 P 和 I(比如模型最后一個 stage)。根據上述表格的結果,研究者最后采用了 [8, 2][4,1][1,1] 這種分組設計。 3. 其他設計 可學習的殘差結構 (LRC):

6ffd0804-16c2-11ed-ba43-dac502259ad0.png

研究者嘗試了上圖三種結構,圖(3)結果最佳。具體而言,研究者在每個模塊里面添加了 6 個額外參數(4+2,2 個在 NLL 層),這些參數會跟模型其他參數一起學習,從而使網絡擁有更強的表達能力,參數初始化都為 1,在訓練過程 6 個參數的數值變化情況如下所示:

7009c85a-16c2-11ed-ba43-dac502259ad0.png

Stem 結構組成:

702da22a-16c2-11ed-ba43-dac502259ad0.png

如上表所示,Stem 由三個 3x3 的連續卷積組成,每個卷積 stride 為 2。 整體網絡結構: 研究者進一步去掉了 class token 和 distillation token,并且發現精度有少量提升。

70388b2c-16c2-11ed-ba43-dac502259ad0.png

消融實驗:

7045dea8-16c2-11ed-ba43-dac502259ad0.png

模型混合深度訓練: 研究者進一步發現分組遞歸設計還有一個好處就是:可以支持模型混合深度訓練,這種訓練方式可以大大降低深度網絡結構優化復雜度,研究者展示了 108 層不同模型結構優化過程的 landscape 可視化,如下圖所示,可以很明顯的看到混合深度結構優化過程困難程度顯著低于另外兩種結構。

7050dbc8-16c2-11ed-ba43-dac502259ad0.png

最后,分組 group self-attention 算法 PyTorch 偽代碼如下:

705f16ca-16c2-11ed-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3227

    瀏覽量

    48809
  • 遞歸
    +關注

    關注

    0

    文章

    28

    瀏覽量

    9013
  • cnn
    cnn
    +關注

    關注

    3

    文章

    352

    瀏覽量

    22204

原文標題:ECCV 2022 | 視覺Transformer上進行遞歸!SReT:不增參數,計算量還少!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI時代,華天科技熱仿真分析為芯片散熱保駕護航

    在AI時代,面對封裝產品小型化、集成度和可靠性要求的提高,如何在犧牲性能的前提下有效解決散熱問題,已成為業界亟需解決的緊迫任務。
    的頭像 發表于 11-28 09:29 ?233次閱讀
    AI時代,華天科技熱仿真分析為芯片散熱保駕護航

    PCB層數增加對成本有哪些影響

    :設計工程師需要在保證設計信號質量的前提下,盡量使用較少的層數來完成PCB的設計,以此來控制成本。 PCB層數增加的其他影響因素 制造難度與成本 :隨著層數的增加,PCB的制造難度也會相應
    的頭像 發表于 11-07 09:12 ?281次閱讀

    PCB層數增加對成本的影響分析

    還會導致制造難度的提升,如最小線寬、最小線間距、最小鉆孔等參數的設置更為嚴格,這些都可能增加生產成本。 PCB尺寸與層數的關系 在層數一定的情況下,PCB的尺寸越小,價格就會越低。設計工程師在PCB設計中,在不影響電氣性能的前提下
    的頭像 發表于 09-04 19:11 ?549次閱讀
    PCB層數<b class='flag-5'>增加</b>對成本的影響分析

    PCB上在拆掉集成塊的前提下怎么能測其好壞?

    想請問一下,PCB上在拆掉集成塊的前提下怎么能測其好壞,謝謝了
    發表于 09-02 07:56

    OPA320與OPA320S在確保運放精度能達到穩定的前提下盡量做到低功耗應該如何選擇?

    OPA320與OPA320S主要區別在于是否有使能引腳,如果用于低功耗電路中,需要快速切換運放的開關工作狀態,是選擇增加外部供電切換電路好還是使用帶有使能引腳的運放好?在確保運放精度能達到穩定的前提下盡量做到低功耗應該如何選擇?
    發表于 08-21 06:14

    USB頻譜分析儀在滿足低成本預算的前提下能夠提供出色的性能

    USB頻譜分析儀在滿足低成本預算的前提下能夠提供出色的性能,USB頻譜分析儀緊湊的設計,本身不自帶電源,USB頻譜分析儀體積非常小,是因為電源、處理、顯示都依附于PC。
    的頭像 發表于 08-08 10:51 ?290次閱讀

    安寶特產品 3D Evolution : 基于特征實現無損CAD格式轉換

    安寶特3D Evolution具有強大的3D CAD模型轉換功能,可在保留模型特征參數、注釋、約束的前提下,完成不同格式3D CAD模型的無
    的頭像 發表于 08-06 17:26 ?329次閱讀
    安寶特產品   3D Evolution : 基于特征實現無損CAD格式轉換

    科普講座 | 讓AIGC提高你的專業表達和創作能力

    的專題講座,激發工程師專業文章創作靈感,提高個人的專業表達能力,從而在電力電子領域展現更加卓越的才華!舉辦時間7月2日1900講座內容:技術:AIGC時代到來方法:讓A
    的頭像 發表于 06-23 08:14 ?323次閱讀
    科普講座 | 讓AIGC提高你的專業<b class='flag-5'>表達</b>和創作<b class='flag-5'>能力</b>

    微軟發布MatterSim模型,精準預測材料性能與行為

    材料創新對于諸如納米電子學、能源儲存以及醫學健康等關鍵領域的技術進步有著重大影響。而材料設計中的難點在于如何在無需實際合成和測試的前提下預測其特性。
    的頭像 發表于 05-15 16:01 ?726次閱讀

    STM32跟wifi模塊通過USB在沒有host的前提下如何交互呢?

    后不需要再插拔。是不是可以通過USB簡單的進行設備與設備的連接,不用考慮是否是host? 2. 如果1假設成立,那STM32跟wifi模塊通過USB在沒有host的前提下如何交互呢?
    發表于 05-13 08:25

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量增加和大規模預訓練的實施,大語言
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    大語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    豐富的常識知識,能夠基于常識進行推理,填補信息空白,并作出合理推斷。隨著訓練規模和參數量增加,大語言模型的推理能力將持續提升,為解決實際問題和推動人工智能發展提供有力支持。 大語言
    發表于 05-04 23:55

    NTT、NEC聯手完成首個跨洋7280千米光網絡傳輸實驗,提升帶寬

    市面上主流的海底光纜大多采用單個核心(single-core fiber),即每個光纖僅具有一個傳輸光束的能力。然而,這次實驗的最大突破就在于如何在保持現有的光纜直徑不變的前提下增加
    的頭像 發表于 03-26 16:43 ?617次閱讀

    5G RedCap通信標準化工作進程

    RedCap技術是在確保應用需求和性能的前提下,通過減少帶寬、收發天線數量、降低速率、調整調制方式、引入半雙工模式等方式削減設備的能力,降低終端設備的復雜度。
    的頭像 發表于 02-01 14:09 ?1762次閱讀
    5G RedCap通信標準化工作進程
    主站蜘蛛池模板: 美国一级黄色| 国产精品1卡二卡三卡四卡乱码| 亚洲中久无码永久在线| 香艳69xxxxx有声小说| 天天综合亚洲综合网站| 少女亚洲free| 亚洲 小说 欧美 激情 另类| 亚洲国产精品一区二区动图| 午夜在线观看免费完整直播网页| 香蕉久久一区二区三区啪啪| 亚洲电影不卡| 中文字幕无码亚洲字幕成A人蜜桃 中文字幕无码亚洲视频 | 国产婷婷一区二区在线观看| 国产蜜臀AV在线一区视频| 河南老太XXXXXHD| 亚洲精品一卡二卡三卡四卡2021 | 久久精品一区二区三区资源网| 九九在线中文字幕无码| 美国一级黄色| 神马老子影院午夜伦| 亚洲中文热码在线视频| 666永久视频在线| 俄罗斯15一16处交| 久久不射网| 日韩欧美三区| 亚洲综合免费视频| yellow日本动漫免费观看| 国产系列在线亚洲视频| 伦理片天堂eeuss影院| 色综合99久久久国产AV| 伊人狼人久久精品热9| 动漫美女搞鸡| 美妇教师双飞后菊| 午夜在线播放免费人成无| 91综合精品网站久久| 国产在线观看黄| 欧美日韩另类在线专区| 又黄又猛又爽大片免费| 国产高清在线露脸一区| 男人插曲女人身体视频| 免费亚洲视频|