色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識蒸餾是一種模型壓縮常見方法

WpOh_rgznai100 ? 來源:lq ? 2019-07-27 07:08 ? 次閱讀

導(dǎo)讀:知識蒸餾是一種模型壓縮常見方法,模型壓縮指的是在teacher-student框架中,將復(fù)雜、學(xué)習(xí)能力強的網(wǎng)絡(luò)學(xué)到的特征表示“知識”蒸餾出來,傳遞給參數(shù)量小、學(xué)習(xí)能力弱的網(wǎng)絡(luò)。本文對17、18年知識蒸餾的最新進展進行簡評,作者把內(nèi)容分成2到3部分,以下是第一部分。

蒸餾可以提供student在one-shot label上學(xué)不到的soft label信息,這些里面包含了類別間信息,以及student小網(wǎng)絡(luò)學(xué)不到而teacher網(wǎng)絡(luò)可以學(xué)到的特征表示‘知識’,所以一般可以提高student網(wǎng)絡(luò)的精度。

開山之作:Hinton發(fā)表在NIPS2014文章:[1503.02531] Distilling the Knowledge in a Neural Network(https://arxiv.org/abs/1503.02531)

一. Attention Transfer

Attention Transfer , 傳遞teacher網(wǎng)絡(luò)的attention信息給student網(wǎng)絡(luò)。首先,CNN的attention一般分為兩種,spatial-attention,channel-attention。本文利用的是spatial-attention.所謂spatial-attention即一種熱力圖,用來解碼出輸入圖像空間區(qū)域?qū)敵鲐暙I大小。文章提出了兩種可利用的spatial-attention,基于響應(yīng)圖的和基于梯度圖的。

Activation-based

基于響應(yīng)圖(特征圖),取出CNN某層輸出特征圖張量A,尺寸:(C, H, W).定義一個映射F:

將3D張量flat成2D.這個映射的形式有三種供選擇:

1. 特征圖張量各通道絕對值相加:

2. 特征圖張量各通道絕對值p次冪相加:

3. 取特征圖張量各通道絕對值p次冪最大值:

對以上這些映射對應(yīng)的特征圖統(tǒng)計量可視化,可以發(fā)現(xiàn),attention map不僅與輸入圖像中預(yù)測物體有l(wèi)ow-level上的關(guān)聯(lián),而且與預(yù)測準確度也有關(guān)系。不同映射可視化效果也有所差異。

attention transfer的目的是將teacher網(wǎng)絡(luò)某層的這種spatial attention map傳遞給student網(wǎng)絡(luò),讓student網(wǎng)絡(luò)相應(yīng)層的spatial attention map可以模仿teacher,從而達到知識蒸餾目的。teacher-student框架設(shè)計如下:

AT loss是teacher和student對應(yīng)的attention map取L2 LOSS.文章也指出,p次冪取2為佳,所得attention map也要先歸一化。總loss:

Gradient-based

求出loss對輸入x的梯度,如果輸入某像素出梯度很大,表明損失函數(shù)對該點敏感度高,Paying more attention。teacher-student loss 寫成;

反傳過程:

訓(xùn)練過程:先計算teacher,student梯度attention map和兩者MSE,以及student的前傳loss,然后再反向傳播。文章還提出了一種加強flip不變性的方法,即對一個輸入圖片,求出損失對其梯度的attention map之后(即flip圖片所得梯度attention map),優(yōu)化兩者MSE,減少損失:

二. FSP matrix

和之前知識蒸餾的文章不同之處在于之前文章往往是把teacher的某層的輸出作為student的mimic目標,這篇文章將teacger網(wǎng)絡(luò)層與層之間的關(guān)系作為student網(wǎng)絡(luò)mimic的目標。這篇文章介紹的這種知識蒸餾的方法類似風(fēng)格遷移的gram矩陣。

文章提出的描述層與層之間關(guān)系的方法FSP matrix,是某層特征圖與另外一層特征圖之間的偏心協(xié)方差矩陣(即沒有減去均值的協(xié)方差矩陣)。如F1層特征圖配置(H,W,M)M為通道數(shù)。F2層特征圖配置(H,W,N)。得到一個M * N的矩陣G。G(i,j)為F1第i通道與F2第j通道的elemet-wise乘積之和:

文章中FSP矩陣的損失函數(shù)是L2loss,把網(wǎng)絡(luò)層數(shù)分成n個block,每個block計算一個FSP,要求teacher與student的對應(yīng)FSP具有相同spatial size.teacher-student結(jié)構(gòu)如圖:

損失函數(shù)如下:

我的對文章的感想是,文章有意思的地方在于“授之以魚不如授之以漁”。韓國人寫的文章,多少有些東方師道哲學(xué)影響。

三. DarkRank: Accelerating Deep Metric Learning via Cross Sample Similarities

這篇文章提出了一種適合度量學(xué)習(xí)(如檢索,Re-id,人臉識別,圖像聚類)的知識蒸餾方法。所傳遞的知識就是度量學(xué)習(xí)所度量的樣本間相似度,用learn to rank來傳遞知識。所以先說一些Related works。

Learn To Rank

L2R,有監(jiān)督排序算法,廣泛應(yīng)用于文本信息檢索領(lǐng)域。給定一個query,學(xué)習(xí)一個模型對一組樣本根據(jù)相似度排序。常用的排序?qū)W習(xí)分為三種類型:PointWise,PairWise和ListWise。PointWise將L2R看作一種回歸問題,對每個樣本打分,優(yōu)化(如L2 loss)各樣本分數(shù)與query之間的相似度。PairWise將L2R轉(zhuǎn)化為二分類問題,針對一對樣本,如果這對樣本與query中排序一致則模型輸出1,否則輸出0。ListWise直接優(yōu)化整組樣本,可以看作對所有候選排序的分類。如 https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2007-40.pdf

(PDF) Listwise approach to learning to rank - Theory and algorithm(https://www.researchgate.net/publication/221345286_Listwise_approach_to_learning_to_rank_-_Theory_and_algorithm)

本文就是基于listwise的方法。該方法根據(jù)candidates(排列候選項)與query之間相似度對每個candidate打分,并計算概率。

其中π為一組樣本索引的排序。xi為一個樣本。S(x) 是模型對樣本的打分。然后是熟悉的交叉熵:

也可以使用最大似然函數(shù)(MLE)

方法

以上是teacher-student框架。文章的實現(xiàn)teacher為Incepton-BN,student為NIN-BN。使用Imagenet的FC層之前的pretrain model,所得特征圖經(jīng)過GAP(全局平均池化),后接FC層,這里加入large margin softmax loss,之后L2歸一化,所得特征向量稱為嵌入特征,輸入到排序?qū)W習(xí)模塊,然后將teacher樣本間相似度知識傳遞給student。

以上過程:

Pretrain-->GAP-->FC-->Large Margin Softmax Loss-->L2-->Verification Loss & Triplet Loss-->Score-->Cross Sample Similarities Transfer

其中,large margin softmax loss為了是類間距離增大而類內(nèi)距離減小,度量學(xué)習(xí),使得度量空間更好。直接施加在FC層的特征輸出。所得特征向量經(jīng)過L2歸一化處理之后,加入verification loss & triplet loss,同樣是度量學(xué)習(xí)目的,獲得更好的嵌入特征,從而得到更好的cross sample similarities知識。

Score是一個歐式距離。取batch中一個樣本q作為query,其他樣本作為candidates,使用歐氏距離作為樣本相似度評分函數(shù)(文章實驗表明α=3,β=3效果最佳):

cross sample similarities transfer:文章在ListNet,ListMLE啟發(fā)下,提出soft/hard兩種傳遞損失函數(shù):

其中P()按照Learn to Rank中介紹的相關(guān)方法計算。這個soft transfer是一個KL散度。

hard transfer是MLE.對比兩種transfer發(fā)現(xiàn)soft是要考慮所有排序,而hard只需要考慮gt一種,計算效率高,效果也不差,所以使用hard transfer。當(dāng)然,最直接的cross sample similiritiestransfer方法是把score直接取L2 loss。后文也做了對照。

文章在Re-id上做了KD,direct similarities transfer,Hard/soft transfer的對比實驗。

對照發(fā)現(xiàn),僅僅用soft transfer cross sample similarities 知識效果并沒有超過KD(T=4),但是結(jié)合KD之后提高了精度,說明這種方法傳遞了KD不包含的知識--cross sample similarities,一種排序,并不包含每個特征量級的大小,而且不要求傳遞雙方特征維度一致。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3268

    瀏覽量

    48929
  • 梯度
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10332
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    353

    瀏覽量

    22254

原文標題:從Hinton開山之作開始,談知識蒸餾的最新進展

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦

    PCBA測試的常見方法

    以看出整個工藝流程存在的問題,比如前期工序SMT、DIP等,存在問題,就進行調(diào)整,讓整個工藝更加完善。PCBA測試常見方法,主要有以下幾種: 1.手工測試手工測試就是直接依靠視覺進行測試,通過視覺與比較來
    發(fā)表于 11-08 17:19

    求大佬分享一種針對高斯類波形使用Mu-law壓縮方法

    本文描述了一種針對高斯類波形使用Mu-law壓縮方法——例如CPRI接口中使用的基帶IQ數(shù)據(jù)。Mu-law壓縮在音頻應(yīng)用中很常見,實現(xiàn)效率
    發(fā)表于 05-24 06:52

    IDC設(shè)備資產(chǎn)運營中四“折舊率計算”的常見方法

    原標題:IDC設(shè)備資產(chǎn)運營中四“折舊率計算”的常見方法數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)備管理中設(shè)備的折舊是固定資產(chǎn)的折舊。該基礎(chǔ)設(shè)施設(shè)備或者IT設(shè)備在長期使用后仍可保持其原始物理形態(tài),但由于芯片、電機、磁盤
    發(fā)表于 09-01 06:06

    光耦隔離的4常見方法對比

    光耦隔離的4常見方法對比
    發(fā)表于 05-31 11:06 ?13.2w次閱讀
    光耦隔離的4<b class='flag-5'>種</b><b class='flag-5'>常見方法</b>對比

    一種新穎的三維模型壓縮算法

    針對三維(3D)網(wǎng)格模型的存儲與網(wǎng)絡(luò)傳輸問題,提出一種新穎的三維模型壓縮算法。該算法基于對網(wǎng)格模型的切片處理,主要由以下三個步驟組成:切片頂
    發(fā)表于 12-25 16:26 ?3次下載
    <b class='flag-5'>一種</b>新穎的三維<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b>算法

    微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

    近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學(xué)生模型距離的知識
    的頭像 發(fā)表于 11-24 09:48 ?1670次閱讀

    深度學(xué)習(xí):知識蒸餾的全過程

    。? 0. 寫在前面 有人說過:“神經(jīng)網(wǎng)絡(luò)用剩的logits不要扔,沾上雞蛋液,裹上面包糠...” 這兩天對知識蒸餾(Knowledge Distillation)萌生了點興趣,正好寫
    的頭像 發(fā)表于 01-07 14:36 ?6175次閱讀

    若干蒸餾方法之間的細節(jié)以及差異

    以往的知識蒸餾雖然可以有效的壓縮模型尺寸,但很難將teacher模型的能力蒸餾
    的頭像 發(fā)表于 05-12 11:39 ?1456次閱讀

    關(guān)于快速知識蒸餾的視覺框架

    知識蒸餾框架包含了個預(yù)訓(xùn)練好的 teacher 模型蒸餾過程權(quán)重固定),和個待學(xué)習(xí)的 st
    的頭像 發(fā)表于 08-31 10:13 ?911次閱讀

    如何度量知識蒸餾中不同數(shù)據(jù)增強方法的好壞?

    知識蒸餾(knowledge distillation,KD)是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,它使用大的teacher模型來 “教” stude
    的頭像 發(fā)表于 02-25 15:41 ?937次閱讀

    如何將ChatGPT的能力蒸餾到另個大模型

    如何將ChatGPT的能力蒸餾到另個大模型,是當(dāng)前許多大模型研發(fā)的研發(fā)范式。當(dāng)前許多模型都是采用chatgpt來生成微調(diào)數(shù)據(jù),如self
    的頭像 發(fā)表于 06-12 15:06 ?968次閱讀
    如何將ChatGPT的能力<b class='flag-5'>蒸餾</b>到另<b class='flag-5'>一</b>個大<b class='flag-5'>模型</b>

    RS-485基礎(chǔ)知識:處理空閑總線條件的兩常見方法

    在本文中,我將介紹處理空閑總線條件的兩常見方法,以便保證總線上的邏輯狀態(tài)。
    的頭像 發(fā)表于 07-04 11:30 ?2788次閱讀
    RS-485基礎(chǔ)<b class='flag-5'>知識</b>:處理空閑總線條件的兩<b class='flag-5'>種</b><b class='flag-5'>常見方法</b>

    MCU批量生產(chǎn)下載程序的幾種常見方法

    MCU批量生產(chǎn)下載程序的幾種常見方法
    的頭像 發(fā)表于 10-24 17:22 ?1665次閱讀
    MCU批量生產(chǎn)下載程序的幾種<b class='flag-5'>常見方法</b>

    任意模型都能蒸餾!華為諾亞提出異構(gòu)模型知識蒸餾方法

    相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進行蒸餾方法通常能取得更好的性能。然而在異構(gòu)
    的頭像 發(fā)表于 11-01 16:18 ?1059次閱讀
    任意<b class='flag-5'>模型</b>都能<b class='flag-5'>蒸餾</b>!華為諾亞提出異構(gòu)<b class='flag-5'>模型</b>的<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b><b class='flag-5'>方法</b>

    運行Python程序的幾種常見方法

    Python是一種高級編程語言,具有簡單易學(xué),易于閱讀和調(diào)試的特點。當(dāng)你完成了個Python程序之后,你需要運行它以檢查程序是否按照預(yù)期工作。下面是運行Python程序的幾種常見方法
    的頭像 發(fā)表于 11-28 15:32 ?2563次閱讀
    主站蜘蛛池模板: 羞羞在线观看| 三级黄网站| 国产高清视频免费最新在线 | a三级黄色片| 一二三四在线观看高清电视剧| 午夜福利免费0948视频| 少妇高潮久久久久7777| 日韩欧美 亚洲视频| 人与禽物videos另类| 男人到天堂a在538线| 蜜芽视频在线观看视频免费播放| 久久香蕉国产线看观看| 久久天天躁狠狠躁夜夜躁| 久久综合丁香激情久久| 乱码AV午夜噜噜噜噜| 萝莉御姐被吸奶| 蜜臀AV熟女人妻中文字幕| 美女被免费喷白浆视频| 美国一级黄色| 女人高潮被爽到呻吟在线观看| 暖暖免费 高清 日本社区中文| 男人的天堂色偷偷| 欧美亚洲日韩欧洲不卡| 日本孕妇大胆孕交| 天美传媒 免费观看| 亚洲AV久久无码精品国产网站| 亚洲看片网站| 中文字幕欧美日韩VA免费视频| 2021国产精品久久久久精品免费网| 37pao成人国产永久免费视频| 99精品AV无码一区二区| XXXchinese国产HD| 国产成人久久精品AV| 国产亚洲精品线观看不卡| 久9视频这里只有精品123| 龙岩综合频道| 欧美在线视频一区| 四虎影院2022| 野花日本韩国视频免费高清观看 | SORA是什么意思| 国产不卡在线观看视频|

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品