色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

正則化方法DropKey: 兩行代碼高效緩解視覺Transformer過擬合

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2023-04-17 11:35 ? 次閱讀

美圖影像研究院(MT Lab)與中國科學院大學突破性地提出正則化方法 DropKey,用于緩解 Vision Transformer 中的過擬合問題。該方法通過在注意力計算階段隨機 drop 部分 Key 以鼓勵網絡捕獲目標對象的全局信息,從而避免了由過于聚焦局部信息所引發(fā)的模型偏置問題,繼而提升了基于 Transformer 的視覺類算法的精度。該論文已被計算機視覺三大頂會之一 CVPR 2023 接收。

近期,基于 Transformer 的算法被廣泛應用于計算機視覺的各類任務中,但該類算法在訓練數據量較小時容易產生過擬合問題。現有 Vision Transformer 通常直接引入 CNN 中常用的 Dropout 算法作為正則化器,其在注意力權重圖上進行隨機 Drop 并為不同深度的注意力層設置統一的 drop 概率。盡管 Dropout 十分簡單,但這種 drop 方式主要面臨三個主要問題。

首先,在 softmax 歸一化后進行隨機 Drop 會打破注意力權重的概率分布并且無法對權重峰值進行懲罰,從而導致模型仍會過擬合于局部特定信息(如圖 1)。其次,網絡深層中較大的 Drop 概率會導致高層語義信息缺失,而淺層中較小的 drop 概率會導致過擬合于底層細節(jié)特征,因此恒定的 drop 概率會導致訓練過程的不穩(wěn)定。最后,CNN 中常用的結構化 drop 方式在 Vision Transformer 上的有效性并不明朗。

4924e78c-dc61-11ed-bfe3-dac502259ad0.png

▲圖1. 不同正則化器對注意力分布圖的影響 美圖影像研究院(MT Lab)與中國科學院大學在 CVPR 2023 上發(fā)表了一篇文章,提出一種新穎且即插即用的正則化器 DropKey,該正則化器可以有效緩解 Vision Transformer 中的過擬合問題。

496ee6fc-dc61-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2208.02646

文章中對以下三個核心問題進行了研究:

第一,在注意力層應該對什么信息執(zhí)行 Drop 操作?與直接 Drop 注意力權重不同,該方法在計算注意力矩陣之前執(zhí)行 Drop 操作,并將 Key 作為基礎 Drop 單元。該方法在理論上驗證了正則化器 DropKey 可以對高注意力區(qū)域進行懲罰并將注意力權值分配到其它感興趣的區(qū)域,從而增強模型對全局信息的捕獲能力。

第二,如何設置 Drop 概率?與所有層共享同一個 Drop 概率相比,該論文提出了一種新穎的 Drop 概率設置方法,即隨著自注意力層的加深而逐漸衰減 Drop 概率值。

第三,是否需要像 CNN 一樣進行結構化 Drop 操作?該方法嘗試了基于塊窗口和交叉窗口的結構化 Drop 方式,并發(fā)現這種技巧對于 Vision Transformer 來說并不重要。

背景

Vision Transformer(ViT)是近期計算機視覺模型中的新范式,它被廣泛地應用于圖像識別、圖像分割、人體關鍵點檢測和人物互相檢測等任務中。具體而言,ViT 將圖片分割為固定數量的圖像塊,將每個圖像塊都視作一個基本單位,同時引入了多頭自注意力機制來提取包含相互關系的特征信息。但現有 ViT 類方法在小數據集上往往會出現過擬合問題,即僅使用目標局部特征來完成指定任務。

為了克服以上問題,該論文提出了一種即插即拔、僅需要兩行代碼便可實現的正則化器 DropKey 用以緩解 ViT 類方法的過擬合問題。不同于已有的 Dropout,DropKey 將 Key 設置為 drop 對象并從理論和實驗上驗證了該改變可以對高注意力值部分進行懲罰,同時鼓勵模型更多關注與目標有關的其他圖像塊,有助于捕捉全局魯棒特征。

此外,該論文還提出為不斷加深的注意力層設置遞減的 drop 概率,這可以避免模型過度擬合低級特征并同時保證有充足的高級特征以進行穩(wěn)定的訓練。此外,該論文還通過實驗證明,結構化 drop 方法對 ViT 來說不是必要的。

DropKey

為了探究引發(fā)過擬合問題的本質原因,該研究首先將注意力機制形式化為一個簡單的優(yōu)化目標并對其拉格朗日展開形式進行分析。發(fā)現當模型在不斷地優(yōu)化時,當前迭代中注意力占比越大的圖像塊,在下次迭代過程中會傾向于被分配更大的注意力權值。為緩解這一問題,DropKey 通過隨機 drop 部分 Key 的方式來隱式地為每個注意力塊分配一個自適應算子以約束注意力分布從而使其變得更加平滑。

值得注意的是,相對于其他根據特定任務而設計的正則化器,DropKey 無需任何手工設計。由于在訓練階段對 Key 執(zhí)行隨機 drop,這將導致訓練和測試階段的輸出期望不一致,因此該方法還提出使用蒙特卡洛方法或微調技巧以對齊輸出期望。此外,該方法的實現僅需兩行代碼,具體如圖 2 所示。

49ade3c0-dc61-11ed-bfe3-dac502259ad0.png

▲圖2.DropKey實現方法

一般而言,ViT 會疊加多個注意力層以逐步學習高維特征。通常,較淺層會提取低維視覺特征,而深層則旨在提取建模空間上粗糙但復雜的信息。因此,該研究嘗試為深層設置較小的 drop 概率以避免丟失目標對象的重要信息。具體而言,DropKey 并不在每一層以固定的概率執(zhí)行隨機 drop,而是隨著層數的不斷加深而逐漸降低 drop 的概率。此外,該研究還發(fā)現這種方法不僅適用于 DropKey,還可以顯著提高 Dropout 的性能。

雖然在 CNN 中對結構化 drop 方法已有較為詳細的研究,但還沒有研究該 drop 方式對 ViT 的性能影響。為探究該策略會不會進一步提升性能,該論文實現了 DropKey 的兩種結構化形式,即 DropKey-Block 和 DropKey-Cross。

其中,DropKey- Block 通過對以種子點為中心的正方形窗口內連續(xù)區(qū)域進行 drop,DropKey-Cross 則通過對以種子點為中心的十字形連續(xù)區(qū)域進行 drop,如圖 3 所示。然而,該研究發(fā)現結構化 drop 方法并不會帶來性能提升。

49d42f6c-dc61-11ed-bfe3-dac502259ad0.png

▲圖3. DropKey的結構化實現方法

實驗結果

4a065910-dc61-11ed-bfe3-dac502259ad0.png

▲圖4. DropKey和Dropout在CIFAR10/100上的性能比較

4a3d1cac-dc61-11ed-bfe3-dac502259ad0.png

▲圖5. DropKey和Dropout在CIFAR100上的注意力圖可視化效果比較

4a606ee6-dc61-11ed-bfe3-dac502259ad0.png

▲圖6. 不同drop概率設置策略的性能比較

4a8270cc-dc61-11ed-bfe3-dac502259ad0.png

▲圖7. 不同輸出期望對齊策略的性能比較

4a99120a-dc61-11ed-bfe3-dac502259ad0.png

▲圖8. 不同結構化drop方法的性能比較

4abefa4c-dc61-11ed-bfe3-dac502259ad0.png

▲圖9. DropKey和Dropout在ImageNet上的性能比較

4ae746aa-dc61-11ed-bfe3-dac502259ad0.png

▲圖10.DropKey和Dropout在COCO上的性能比較

4afd7e8e-dc61-11ed-bfe3-dac502259ad0.png

▲圖11.DropKey和Dropout在HICO-DET上的性能比較

4b118956-dc61-11ed-bfe3-dac502259ad0.png

▲圖12.DropKey和Dropout在HICO-DET上的注意力圖可視化比較

總結

該論文創(chuàng)新性地提出了一種用于 ViT 的正則化器,用于緩解 ViT 的過擬合問題。與已有的正則化器相比,該方法可以通過簡單地將 Key 置為 drop 對象,從而為注意力層提供平滑的注意力分布。另外,該論文還提出了一種新穎的 drop 概率設置策略,成功地在有效緩解過擬合的同時穩(wěn)定訓練過程。最后,該論文還探索了結構化 drop 方式對模型的性能影響。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4608

    瀏覽量

    92845
  • 代碼
    +關注

    關注

    30

    文章

    4780

    瀏覽量

    68539
  • 計算機視覺
    +關注

    關注

    8

    文章

    1698

    瀏覽量

    45982

原文標題:CVPR 2023 | 正則化方法DropKey: 兩行代碼高效緩解視覺Transformer過擬合

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    神經網絡中避免擬合5種方法介紹

    丟棄法是一種避免神經網絡擬合正則技術。像L1和L2這樣的正則技術通過修改代價函數來減少
    發(fā)表于 02-04 11:30 ?2.5w次閱讀
    神經網絡中避免<b class='flag-5'>過</b><b class='flag-5'>擬合</b>5種<b class='flag-5'>方法</b>介紹

    深層神經網絡模型的訓練:擬合優(yōu)化

    為了訓練出高效可用的深層神經網絡模型,在訓練時必須要避免擬合的現象。擬合現象的優(yōu)化方法通常有
    的頭像 發(fā)表于 12-02 14:17 ?2739次閱讀
    深層神經網絡模型的訓練:<b class='flag-5'>過</b><b class='flag-5'>擬合</b>優(yōu)化

    LCD1602顯示兩行黑色方框

    為什么我的LCD顯示兩行黑色方框,單片機是STC89C52,液晶顯示1602,程序顯示刷成功,麻煩大家看看什么問題。
    發(fā)表于 02-20 17:00

    lcd1602顯示兩行怎么寫程序呀

    `lcd1602顯示兩行怎么寫程序呀,感覺非常亂`
    發(fā)表于 04-27 22:36

    ucgui listbox顯示不全 只有兩行

    本人ucgui新人,求助大神listbox問題如圖,使用ucgui listbox,進入時顯示不全,只有兩行,只有慢慢把焦點往下設置,才能一個一個顯示出來,求助是什么原因,和如何處理啊?
    發(fā)表于 04-07 04:36

    擬合的概念和用幾種用于解決擬合問題的正則方法

    由于添加了這個正則項,各權值被減小了,換句話說,就是神經網絡的復雜度降低了,結合“網絡有多復雜,擬合就有多容易”的思想,從理論上來說,這樣做等于直接防止
    的頭像 發(fā)表于 04-27 15:23 ?1.5w次閱讀
    <b class='flag-5'>過</b><b class='flag-5'>擬合</b>的概念和用幾種用于解決<b class='flag-5'>過</b><b class='flag-5'>擬合</b>問題的<b class='flag-5'>正則</b><b class='flag-5'>化</b><b class='flag-5'>方法</b>

    【連載】深度學習筆記4:深度神經網絡的正則

    今天要寫的是關于機器學習和深度學習中的一項關鍵技術:正則。相信在機器學習領域摸爬滾打多年的你一定知道正則是防止模型
    的頭像 發(fā)表于 08-14 11:58 ?3342次閱讀

    擬合擬合是什么?解決方法總結

    擬合是指模型在訓練集上表現很好,到了驗證和測試階段就大不如意了,即模型的泛能力很差。
    的頭像 發(fā)表于 01-29 17:48 ?3.1w次閱讀
    欠<b class='flag-5'>擬合</b>和<b class='flag-5'>過</b><b class='flag-5'>擬合</b>是什么?解決<b class='flag-5'>方法</b>總結

    詳解機器學習和深度學習常見的正則

    說到正則大家應該都不陌生,這個在機器學習和深度學習中都是非常常見的,常用的正則有L1正則
    的頭像 發(fā)表于 01-29 17:52 ?2315次閱讀
    詳解機器學習和深度學習常見的<b class='flag-5'>正則</b><b class='flag-5'>化</b>

    權值衰減和L2正則傻傻分不清楚?本文來教會你如何分清

    神經網絡是偉大的函數逼近器和特征提取器,但有時它們的權值變得過于特定,導致擬合。這就是正則概念出現的地方,我們將討論
    的頭像 發(fā)表于 01-21 01:54 ?913次閱讀
    權值衰減和L2<b class='flag-5'>正則</b><b class='flag-5'>化</b>傻傻分不清楚?本文來教會你如何分清

    權值衰減和L2正則傻傻分不清楚?

    神經網絡是偉大的函數逼近器和特征提取器,但有時它們的權值變得過于特定,導致擬合。這就是正則概念出現的地方,我們將討論
    發(fā)表于 01-23 07:16 ?9次下載
    權值衰減和L2<b class='flag-5'>正則</b><b class='flag-5'>化</b>傻傻分不清楚?

    用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優(yōu)異效果

    白皮書《Transformer-LS:用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” (
    的頭像 發(fā)表于 12-28 10:42 ?1566次閱讀

    兩行代碼中的樹莓派電源開關

    電子發(fā)燒友網站提供《兩行代碼中的樹莓派電源開關.zip》資料免費下載
    發(fā)表于 12-28 09:26 ?0次下載
    <b class='flag-5'>兩行</b><b class='flag-5'>代碼</b>中的樹莓派電源開關

    教你如何用兩行代碼搞定YOLOv8各種模型推理

    大家好,YOLOv8 框架本身提供的API函數是可以兩行代碼實現 YOLOv8 模型推理,這次我把這段代碼封裝成了一個類,只有40代碼左右
    的頭像 發(fā)表于 06-18 11:50 ?3062次閱讀
    教你如何用<b class='flag-5'>兩行</b><b class='flag-5'>代碼</b>搞定YOLOv8各種模型推理

    深度學習模型中的擬合正則

    測試數據或新數據上表現不佳的現象。為了解決這個問題,正則(Regularization)技術應運而生,成為深度學習中不可或缺的一部分。本文將從擬合的原因、表現、
    的頭像 發(fā)表于 07-09 15:56 ?935次閱讀
    主站蜘蛛池模板: 国产毛片视频网站| 亚洲永久精品ww47| 欧美一区二区激情视频| 久久亚洲欧美国产综合| 黄色亚洲片| 黄 色 网 站 免 费 涩涩屋| 国产亚洲精品在线视频| 国产视频a在线观看v| 国产精品亚洲第一区二区三区| 高清欧美性猛交xxxx黑人猛交| 超碰97超碰在线视频哦| 成人公开免费视频| 成人a毛片久久免费播放| 公么我好爽再深一点| 国产 浪潮AV性色四虎| 国产电影无码午夜在线播放| 国产精品A8198V久久A片| 国产精品第1页| 国产亚洲日韩在线播放不卡| 含羞草在线| 久久国产精品福利影集| 两百磅美女| 欧美大jiji| 日韩经典欧美一区二区三区| 四虎影视永久无码精品| 亚洲a免费| 一品道门在线视频| 999久久精品国产| 成人性生交大片免费看中文| 国产精品视频第一区二区三区| 国产午夜精品AV一区二区麻豆| 教室眠催白丝美女校花| 老熟女毛茸茸浓毛| 日本欧美久久久久免费播放网| 无码137片内射在线影院| 亚洲欧美韩国综合色| 中文字幕人成乱码熟女APP| couo福利姬图库| 国产免费午夜| 久久中文字幕免费视频| 人妻夜夜爽天天爽三区麻豆AV网站|