色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全面總結(jié)深度學(xué)習(xí)中的歸一化技術(shù)

新機(jī)器視覺(jué) ? 來(lái)源:DeepHub IMBA ? 作者:Maciej Balawejder ? 2022-04-28 15:29 ? 次閱讀

訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。多年來(lái),研究人員提出了不同的方法來(lái)加速和穩(wěn)定學(xué)習(xí)過(guò)程。歸一化是一種被證明在這方面非常有效的技術(shù)。

7166194c-c6a9-11ec-bce3-dac502259ad0.png

在這篇文章中,我將使用類比和可視化的方式來(lái)回顧這些方法中,這將幫助您了解它們的產(chǎn)生的原因和思維過(guò)程。

為什么要?dú)w一化?

例如,我們現(xiàn)在用兩個(gè)特征構(gòu)建一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型。這兩個(gè)特征一個(gè)是年齡:范圍在 0 到 65 之間,另一個(gè)是工資:范圍從 0 到 10 000。我們將這些特征提供給模型并計(jì)算梯度。

71740e12-c6a9-11ec-bce3-dac502259ad0.png

不同規(guī)模的輸入導(dǎo)致不同的權(quán)重更新和優(yōu)化器的步驟向最小值的方向不均衡。這也使損失函數(shù)的形狀不成比例。在這種情況下,就需要使用較低的學(xué)習(xí)速率來(lái)避免過(guò)沖,這就意味著較慢的學(xué)習(xí)過(guò)程。

所以我們的解決方案是輸入進(jìn)行歸一化,通過(guò)減去平均值(定心)并除以標(biāo)準(zhǔn)偏差來(lái)縮小特征。

7180a906-c6a9-11ec-bce3-dac502259ad0.png

718e25ae-c6a9-11ec-bce3-dac502259ad0.png

此過(guò)程也稱為“漂白”,處理后所有的值具有 0 均值和單位方差,這樣可以提供更快的收斂和更穩(wěn)定的訓(xùn)練。

這是一個(gè)很好的解決方案,那么為什么我們不規(guī)范化網(wǎng)絡(luò)中每一層的激活呢?

下面我們先看一下針對(duì)于激活的歸一化方法

Batch Normalization

719cadea-c6a9-11ec-bce3-dac502259ad0.png

2015 年,Sergey Ioffe 和 Christian Szegedy[3] 采用了這個(gè)想法來(lái)解決內(nèi)部協(xié)變量偏移問(wèn)題。以前輸入層分布由于權(quán)值的更新而不斷變化。所以下面的層總是需要適應(yīng)新的分布,它會(huì)導(dǎo)致收斂速度變慢和訓(xùn)練不穩(wěn)定。

批量標(biāo)準(zhǔn)化提供了一種控制和優(yōu)化每一層之后的分布的方法。該過(guò)程與輸入歸一化相同,但我們添加了兩個(gè)可學(xué)習(xí)的參數(shù),γ 和 β。

通過(guò)代碼來(lái)說(shuō)明要比枯燥的公式好的多,所以BN的代碼如下:

def BatchNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[0,2,3], keepdim=True) var = torch.var(input=x, dim=[0,2,3], keepdim=True) # mean, var shape : [1, C, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

這兩個(gè)參數(shù)是通過(guò)反向傳播沿著網(wǎng)絡(luò)學(xué)習(xí)的。他們通過(guò)縮放(γ)和移動(dòng)(β)激活優(yōu)化分布。

71acf984-c6a9-11ec-bce3-dac502259ad0.png

由于有固定的分布,所以可以提高學(xué)習(xí)率并加快收斂速度。除了計(jì)算提升之外,BN 還可以作為一種正則化技術(shù)。數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)的近似產(chǎn)生的噪聲消除了對(duì) Dropout 的需要。

但這是一把雙刃劍。這種估計(jì)僅適用于較大的批次。當(dāng)批次數(shù)量較少時(shí),性能會(huì)急劇下降。

71bc0190-c6a9-11ec-bce3-dac502259ad0.png

BN 的另一個(gè)缺點(diǎn)是對(duì)于批處理的依賴。如果我們傳遞了單個(gè)樣本而不是批量的樣本,網(wǎng)絡(luò)必須使用預(yù)先計(jì)算的訓(xùn)練均值和方差,這可能會(huì)導(dǎo)致不同的結(jié)果。

這個(gè)問(wèn)題的重要性促使人們創(chuàng)建替代方法以避免對(duì)批處理的依賴。

Layer Normalization

71ce214a-c6a9-11ec-bce3-dac502259ad0.png

這是Geoffrey E. Hinton等人在2016年[4]中首次嘗試減少對(duì)批大小的約束。提出這個(gè)方法的主要原因是無(wú)法找到將BN應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò),需要找到一個(gè)替代的方法。

71dc9af4-c6a9-11ec-bce3-dac502259ad0.png

在深度神經(jīng)網(wǎng)絡(luò)中,由于層數(shù)是固定的,因此很容易存儲(chǔ)每個(gè) BN 層的統(tǒng)計(jì)信息。然而在 RNN 中,輸入和輸出形狀的長(zhǎng)度不同。因此,在這種情況下,最好使用單個(gè)時(shí)間步長(zhǎng)(樣本)而不是整個(gè)批次的統(tǒng)計(jì)信息進(jìn)行標(biāo)準(zhǔn)化。

def LayerNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[1,2,3], keepdim=True) var = torch.var(input=x, dim=[1,2,3], keepdim=True) # mean, var shape: [N, 1, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

在這種方法中,batch(N) 中的每個(gè)示例都在 [C, H, W] 維度上進(jìn)行了歸一化。與 BN 一樣,它可以加速和穩(wěn)定訓(xùn)練,并且不受批次的限制。此方法可用于批量為 1 的在線學(xué)習(xí)任務(wù)。

Instance Normalization

71f5635e-c6a9-11ec-bce3-dac502259ad0.png

Dmitry Ulyanov 等人在 2016 年的論文 [5] 中介紹了Instance Normalization。這是另一種嘗試減少對(duì)批處理的依賴以改善樣式傳輸網(wǎng)絡(luò)的結(jié)果。

def InstanceNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[2,3], keepdim=True) var = torch.var(input=x, dim=[2,3], keepdim=True) # mean, var shape: [N, C, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

跨批次和通道的標(biāo)準(zhǔn)化允許從圖像中刪除特定的對(duì)比度信息,這有助于泛化。

這種方法在 Pix2Pix 或 CycleGAN 等生成模型中廣受歡迎,并成為著名的 StyleGAN2 中使用的自適應(yīng)實(shí)例歸一化的先驅(qū)。

Group Normalization

72009cce-c6a9-11ec-bce3-dac502259ad0.png

Group Normalization 在 2018[1] 論文中被引入,它直接解決了 CNN 的 BN 限制。主要針對(duì)的是分布式學(xué)習(xí),其中批次被分成許多機(jī)器。這些是在少數(shù)例子上訓(xùn)練的,比如 6-8,在某些情況下,甚至是 1-2。

721d068e-c6a9-11ec-bce3-dac502259ad0.png

GN 可以理解為L(zhǎng)ayer 和Instance的混合。GN 將通道分成組并在它們之間進(jìn)行標(biāo)準(zhǔn)化。該方案使計(jì)算獨(dú)立于批量大小。

def GroupNorm(x, gamma, beta, G, eps=1e-5): # x: input features with shape [N, C, H, W] # G : number of groups N, C, H, W = x.shape x = torch.reshape(input=x, shape=[N, G, C // G, H, W]) mean = torch.mean(input=x, dim=[2,3,4], keepdim=True) var = torch.var(input=x, dim=[2,3,4], keepdim=True) # mean, var shape : [N, G, 1, 1, 1] x = (x - mean) / torch.sqrt(var + eps) x = torch.reshape(input=x, shape=[N, C, H, W]) return x * gamma + beta

GN 優(yōu)于在小批量上訓(xùn)練的 BN,但無(wú)法擊敗大批量的結(jié)果,但是這是一個(gè)很好的起點(diǎn)。

上面的針對(duì)于激活的歸一化方法我們基本上都聽(tīng)說(shuō)過(guò)也經(jīng)常會(huì)用到,下面我們來(lái)介紹針對(duì)權(quán)重的歸一化方法。

Weight Standardization

722c5922-c6a9-11ec-bce3-dac502259ad0.png

我們已經(jīng)對(duì)輸入和層輸出進(jìn)行了標(biāo)準(zhǔn)化,唯一剩下的就是權(quán)重。因?yàn)樗鼈兛梢栽跊](méi)有任何控制的情況下變大,尤其是當(dāng)我們無(wú)論如何都要標(biāo)準(zhǔn)化輸出時(shí)。通過(guò)標(biāo)準(zhǔn)化權(quán)重,我們實(shí)現(xiàn)了更平滑的損失和更穩(wěn)定的訓(xùn)練。

def WeightStand(w, eps=1e-5): # w: input features shape [Cin, Cout, kernel_size, kernel_size] mean = torch.mean(input=w, dim=[0,2,3], keepdim=True) var = torch.var(input=w, dim=[0,2,3], keepdim=True) # mean, var shape : [1, Cout, 1, 1] w = (w - mean) / torch.sqrt(var + eps) return w

權(quán)重的標(biāo)準(zhǔn)化是Group Normalization的一個(gè)很好的輔助。在僅使用一個(gè)樣本的 BN(大批量)情況下,將這些方法結(jié)合起來(lái)會(huì)產(chǎn)生更好的結(jié)果。

72454180-c6a9-11ec-bce3-dac502259ad0.png

除此以外,有人還提出了BCN方法,稱為批處理通道規(guī)范化。簡(jiǎn)而言之,每一層同時(shí)使用BN和GN。

總結(jié)

歸一化是深度學(xué)習(xí)中的一個(gè)基本概念。它加快了計(jì)算速度并穩(wěn)定了訓(xùn)練。多年來(lái)發(fā)展了許多不同的技術(shù)。本篇文章整理了目前與它相關(guān)的方法,希望對(duì)你有所幫助

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:深度學(xué)習(xí)中的歸一化技術(shù)全面總結(jié)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU在深度學(xué)習(xí)的應(yīng)用 GPUs在圖形設(shè)計(jì)的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)在深度
    的頭像 發(fā)表于 11-19 10:55 ?574次閱讀

    NPU在深度學(xué)習(xí)的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門(mén)為
    的頭像 發(fā)表于 11-14 15:17 ?680次閱讀

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    深度學(xué)習(xí)模型的魯棒性優(yōu)化是個(gè)復(fù)雜但至關(guān)重要的任務(wù),它涉及多個(gè)方面的技術(shù)和策略。以下是些關(guān)鍵的優(yōu)化方法:
    的頭像 發(fā)表于 11-11 10:25 ?293次閱讀

    激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

    信息。這使得激光雷達(dá)在自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學(xué)習(xí)技術(shù)的發(fā)展 深度學(xué)習(xí)是機(jī)器
    的頭像 發(fā)表于 10-27 10:57 ?431次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 深度學(xué)習(xí)是AI大模型的基礎(chǔ)
    的頭像 發(fā)表于 10-23 15:25 ?901次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    英偉達(dá)團(tuán)隊(duì)近日在AI領(lǐng)域投下了枚震撼彈,他們提出了種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)——歸一化Transformer(nGPT)。這創(chuàng)新架構(gòu)基于超球面(hypersphere)進(jìn)行表示
    的頭像 發(fā)表于 10-23 11:30 ?396次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的發(fā)展前景較為廣闊,但也面臨些挑戰(zhàn)。以下是些關(guān)于 FPGA 在深度學(xué)習(xí)應(yīng)用前景的觀點(diǎn),僅供參考: ? 優(yōu)勢(shì)方面: ? 高度定制
    發(fā)表于 09-27 20:53

    啟明智顯:深度融合AI技術(shù),引領(lǐng)硬件產(chǎn)品全面智能升級(jí)

    啟明智顯,作為AI領(lǐng)域的先行者,正以前所未有的決心和行動(dòng)力,深度融合先進(jìn)的人工智能技術(shù),引領(lǐng)硬件產(chǎn)品全面智能升級(jí)
    的頭像 發(fā)表于 07-18 16:11 ?419次閱讀
    啟明智顯:<b class='flag-5'>深度</b>融合AI<b class='flag-5'>技術(shù)</b>,引領(lǐng)硬件產(chǎn)品<b class='flag-5'>全面</b>智能<b class='flag-5'>化</b>升級(jí)

    深度學(xué)習(xí)反卷積的原理和應(yīng)用

    像分割、圖像重建和生成對(duì)抗網(wǎng)絡(luò)(GANs)等,反卷積展現(xiàn)出了其獨(dú)特的優(yōu)勢(shì)和廣泛的應(yīng)用前景。本文將詳細(xì)探討深度學(xué)習(xí)的反卷積技術(shù),包括其定義、原理、實(shí)現(xiàn)方式、應(yīng)用場(chǎng)景以及與其他上采樣方法
    的頭像 發(fā)表于 07-14 10:22 ?1942次閱讀

    深度學(xué)習(xí)模型的過(guò)擬合與正則

    測(cè)試數(shù)據(jù)或新數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。為了解決這個(gè)問(wèn)題,正則(Regularization)技術(shù)應(yīng)運(yùn)而生,成為深度學(xué)習(xí)不可或缺的
    的頭像 發(fā)表于 07-09 15:56 ?1006次閱讀

    深度學(xué)習(xí)的時(shí)間序列分類方法

    時(shí)間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之,廣泛應(yīng)用于人體活動(dòng)識(shí)別、系統(tǒng)監(jiān)測(cè)、金融預(yù)測(cè)、醫(yī)療診斷等多個(gè)領(lǐng)域。隨
    的頭像 發(fā)表于 07-09 15:54 ?1021次閱讀

    深度學(xué)習(xí)的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的個(gè)重要分支,近年來(lái)在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。然而,深度
    的頭像 發(fā)表于 07-09 10:50 ?814次閱讀

    深度學(xué)習(xí)在視覺(jué)檢測(cè)的應(yīng)用

    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要分支,其核心在于通過(guò)構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型,使計(jì)算機(jī)能夠從大量數(shù)據(jù)自動(dòng)
    的頭像 發(fā)表于 07-08 10:27 ?752次閱讀

    深度學(xué)習(xí)的模型權(quán)重

    深度學(xué)習(xí)充滿無(wú)限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)
    的頭像 發(fā)表于 07-04 11:49 ?1463次閱讀

    深度學(xué)習(xí)在自動(dòng)駕駛的關(guān)鍵技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,自動(dòng)駕駛技術(shù)作為其中的重要分支,正逐漸走向成熟。在自動(dòng)駕駛系統(tǒng)深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:40 ?789次閱讀
    主站蜘蛛池模板: 彭丹吃奶门| 最新国产亚洲亚洲精品视频 | 高H各种PLAY全肉NP| 国产亚洲精品欧洲在线视频| 狂躁美女BBBBBB视频| 日本在线免费播放| 亚洲视频区| 草莓湿漉漉是好事还是恶性| 黑人干日本美女| 欧美怡红院视频一区二区三区| 亚洲 在线 日韩 欧美| 4399日本电影完整版在线观看免费 | 国产精品嫩草影院在线观看免费| 久久成人伊人欧洲精品AV| 日本人娇小hd| 伊人色综合久久天天网| 国产1769一七六九视频在线| 久久视频这里只精品99热在线观看| 日本一区二区三区在线观看网站 | 阿片在线播放| 九九热在线视频| 色婷婷综合久久久久中文一区二区| 夜色视频社区| 攻把受做哭边走边肉楼梯PLAY| 绝逼会被锁| 亚洲AV久久无码精品蜜桃 | 91久久精品国产亚洲| 国产午夜精AV在线麻豆| 欧美最猛12teevideos| 一本道无码字幕在线看| 日本撒尿特写| 亚洲精品AV无码永久无码| 最新男同鸭子ktv| 国产无遮挡又黄又爽在线视频 | 日韩视频在线观看| 真实的强视频免费网站 | hdsex老太婆70| 久久成人免费观看全部免费| 忘忧草在线社区WWW日本直播| a视频在线看| 久久这里都是精品|