色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

權值衰減和L2正則化傻傻分不清楚?本文來教會你如何分清

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2021-01-21 01:54 ? 次閱讀

作者:Divyanshu Mishra
編譯:ronghuaiyang

導讀

權值衰減和L2正則化,到底是不是同一個東西,這篇文章給你答案。

神經網絡是偉大的函數逼近器和特征提取器,但有時它們的權值變得過于特定化,導致過擬合。這就是正則化概念出現的地方,我們將討論兩種主要權重正則化技術之間的細微差別,它們經常被錯誤地認為是相同的。

介紹

1943年,Warren McCulloch和Walter Pitts首先提出了神經網絡,但當時還不夠流行,因為神經網絡需要大量數據和計算能力,這在當時是不可行的。但隨著上述約束條件和其他訓練技術的進步(如參數初始化和更好的激活函數)變得可行,它們再次開始主導各種比賽,并在各種人類輔助技術中找到了它的應用。

如今,神經網絡構成了許多著名應用的最主要的部分,如自動駕駛汽車、谷歌翻譯、人臉識別系統等,并應用于幾乎所有人類發展所使用的技術。

神經網絡非常擅長于將函數近似為線性或非線性,在從輸入數據中提取特征時也非常出色。這種能力使他們在大量的任務中表現出色,無論是計算機視覺領域還是語言建模。但我們都聽過這句名言:

“能力越大,責任越大。”

這句話也適用于全能的神經網絡。它們作為強大的函數近似器的能力有時會導致它們通過逼近一個函數來過擬合數據集,這個函數在它被訓練過的數據上表現得非常好,但在測試它之前從未見過的數據時卻敗得很慘。更有技術意義的是,神經網絡學習的權值對給定的數據更加專門化,而不能學習可以一般化的特征。為了解決過擬合的問題,應用了一類稱為正則化的技術來降低模型的復雜性和約束權值,迫使神經網絡學習可泛化的特征。

正則化

正則化可以定義為我們為了減少泛化誤差而不是減少訓練誤差而對訓練算法所做的任何改變。有許多正規化策略。有的對模型添加額外的約束,如對參數值添加約束,有的對目標函數添加額外的項,可以認為是對參數值添加間接或軟約束。如果我們仔細使用這些技術,這可以改善測試集的性能。在深度學習的環境中,大多數正則化技術都基于正則化估計器。當正則化一個估計量時,有一個折衷,我們必須選擇一個增加偏差和減少方差的模型。一個有效的正規化是使一個有利可圖的交易,顯著減少方差,而不過度增加偏差。

在實踐中使用的主要正規化技術有:
① L2正則化
② L1正則化
③ 數據增強
④ Dropout
⑤ Early Stopping

在這篇文章中,我們主要關注L2正則化,并討論我們是否可以將L2正則化和權重衰減作為同一枚硬幣的兩面。

L2 正則化

L2正則化屬于正則化技術的一類,稱為參數范數懲罰。之所以提到這類技術,是因為在這類技術中,特定參數的范數(主要是權重)被添加到被優化的目標函數中。在L2范數中,在網絡的損失函數中加入一個額外的項,通常稱為正則化項。例如:

交叉熵損失函數的定義如下所示。

o4YBAGAIapuALs11AAAhKanq3uY367.png

pIYBAGAIatuADCzxAAAf7iL7SNA056.png

為了將L2正則化應用于任何有交叉熵損失的網絡,我們將正則化項添加到損失函數中,其中正則化項如下所示:

pIYBAGAIaxiAHP7mAAANSDBsGzQ962.png

在上式中,λ是正則化參數,與應用的正則化量成正比。如果λ=0,則不應用正則化,當λ= 1時,對網絡應用最大正則化。λ是一個超參數,這意味著它不是在訓練期間學習的,而是由用戶手動調整或使用一些超參數調整技術,如隨機搜索。

現在讓我們把這些放在一起,形成L2正則化的最終方程,應用于下式所給出的交叉熵損失函數。

pIYBAGAIa2CAE5BXAAAvLbgDlbE571.png

上面的例子展示了L2正則化應用于交叉熵損失函數,但這一概念可以推廣到所有可用的損失函數。下式給出了L2正則化更一般的公式,其中C0為非正則化損失函數,C為加入正則化項的正則化損失函數。

pIYBAGAIa56AK9DNAAAW8v1glXA849.png

注:我們在對網絡進行正則化時不考慮網絡的bias,原因如下:

1、與權重相比,bias通常需要更少的數據來精確擬合。每個權重指定了兩個變量如何相互作用(w和x),因此要想很好地擬合權重,就需要在各種條件下觀察兩個變量,而每個bias只控制一個單一變量(b)。因此,我們對bias不使用正則化,以免引入太多的方差。2、對bias進行正則化可能引入大量的欠擬合。

為什么L2 正則化有用?

實踐推理:

讓我們試著理解L2正則化基于損失函數的梯度的工作原理。如果我們對網絡中所有權重和偏差取上面式子中所示方程的偏導數或梯度,即?C/?w和?C/?b。求偏導數,我們得到:

pIYBAGAIbAWAaRQWAAAtTFZJ5cI015.png

我們可以使用backpropagation算法計算上述方程中提到的?C0/?w和?C0/?b項。由于沒有應用正則化項,偏置參數的偏導將不變,而權重參數將包含額外的(λ/n)*w)正則化項。

偏置和權重的學習規則由此變為:

pIYBAGAIbESAPOqgAAASgKegP-0660.png

o4YBAGAIbJCAEQnwAAA1AP9DZsg396.png

上面的權值方程類似于通常的梯度下降學習規則,除了現在我們首先通過 (1?(η*λ)/n)重新調整權值w。這就是L2正則化經常被稱為權重衰減的原因,因為它使權重變小。因此,你可以看到為什么正則化工作的時候,它使網絡的權值更小。權值變小意味著,如果我們在這里或那里改變一些隨機輸入,網絡的行為不會有太大的變化,這反過來使正則化的網絡很難學習數據中的局部噪聲。這迫使網絡只學習那些在訓練集中經常看到的特征。

個人的直覺:

簡單地從優化損失函數的角度來考慮L2正則化,當我們把正則化項添加到損失函數中我們實際上增加了損失函數的值。因此,如果權值越大,損失也就越高,訓練算法會試圖通過懲罰權值來降低損失函數,迫使它們取更小的值,從而使網絡正則化。

L2 正則化和權值衰減是一樣的嗎?

L2正則化和權值衰減并不是一回事,但是可以根據學習率對權值衰減因子進行重新參數化,從而使SGD等價。不明白?讓我給你詳細解釋一下。

以λ為衰減因子,給出了權值衰減方程。

o4YBAGAIbM6AJnc7AAAVOxUSPmA078.png

在以下證明中可以證明L2正則化等價于SGD情況下的權值衰減:

1、讓我們首先考慮下面圖中給出的L2正則化方程。我們的目標是對它進行重新參數化,使其等價于上式中給出的權值衰減方程。

o4YBAGAIbQyAXJ4yAAASo3gCeRM959.png

2、首先,我們找到L2正則化損失函數相對于參數w的偏導數(梯度),如下式所示。

o4YBAGAIbUmANGkBAAAX9mA-5oY804.png


o4YBAGAIbYmAEmb7AAAPAeMbTLU853.png

注意:上圖中這兩種符號的意思是一樣的。

3、得到損失函數的偏導數結果后,將結果代入梯度下降學習規則中,如下式所示。代入后,打開括號,重新排列,使其等價于在一定假設下的權值衰減方程。

o4YBAGAIbceAGjFJAABHuKUCFWw158.png

4、你可以注意到,最終重新排列的L2正則化方程和權值衰減方程之間的唯一區別是α(學習率)乘以λ(正則化項)。為了得到兩個方程,我們用λ來重新參數化L2正則化方程。

pIYBAGAIbgWAbBjMAAAJEpeU4cg244.png

5、將λ'替換為λ,對L2正則化方程進行重新參數化,將其等價于權值衰減方程,如下式所示。

pIYBAGAIbk2ALd5cAAAfA0pDsE0984.png

從上面的證明中,你必須理解為什么L2正則化在SGD情況下被認為等同于權值衰減,但對于其他基于自適應梯度的優化算法,如Adam, AdaGrad等,卻不是這樣。特別是,當與自適應梯度相結合時,L2正則化導致具有較大歷史參數和/或梯度振幅的權值比使用權值衰減時正則化得更少。這導致與SGD相比,當使用L2正則化時adam表現不佳。另一方面,權值衰減在SGD和Adam身上表現得一樣好。

一個令人震驚的結果是,帶有動量的SGD優于像Adam這樣的自適應梯度方法,因為常見的深度學習庫實現了L2正則化,而不是原始的權重衰減。因此,在使用L2正則化有利于SGD的任務上,Adam的結果要比使用動量的SGD差。

總結

因此,我們得出結論,盡管權值衰減和L2正則化在某些條件下可以達到等價,但概念上還是有細微的不同,應該區別對待,否則可能導致無法解釋的性能下降或其他實際問題。


本文轉自:AI公園,作者:Divyanshu Mishra,編譯:ronghuaiyang,
轉載此文目的在于傳遞更多信息,版權歸原作者所有。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100723
  • 正則化
    +關注

    關注

    0

    文章

    17

    瀏覽量

    8128
收藏 人收藏

    評論

    相關推薦

    ADS131M03打印輸出的電壓與實際輸入電壓對不上是怎么回事?

    你好,我想咨詢下:實際輸入電壓與打印輸出電壓不一致,我環境是這樣的:ADC芯片位ADS131M03,MCU為STM32103 初始: SPI傳遞函數變更: 主函數輸出電壓: 實際輸出的電壓
    發表于 11-14 08:34

    模擬信號、數字信號、ADC與DAC傻傻分不清楚?一文了解,收藏再看

    汽車轟鳴聲、動物的叫喚、人們的交談聲、學校的讀書聲、耳機里的音樂……聲音可以說無處不在。我們把人類能夠聽到的所有聲音都稱之為音頻。我們還可以將現實世界的聲音錄制儲存,“變”成數字信號;反過來,我們也可以把儲存下來的音頻文件通過聲卡及音頻軟件播放,還原以前錄下的聲音。這兩個過程的實現,與模擬信號、數字信號、模數轉換器(ADC)和數模轉換器(DAC)有著緊密的關
    的頭像 發表于 11-14 01:09 ?649次閱讀
    模擬信號、數字信號、ADC與DAC<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?一文了解,收藏再看

    Pcm1861里面有寄存器要配置嗎?

    Pcm1861里面有寄存器要配置嗎,pcm 1861與pcm1865的資料放在一塊分不清楚
    發表于 10-28 07:59

    用adc讀取電壓時,顯示的電壓是亂碼怎么解決?

    您好,我在用adc讀取電壓時,顯示的電壓是亂碼,第一次接觸rtthread,不清楚如何這個問題如何下手,求指導,感謝
    發表于 09-27 08:09

    PLC多種通訊方式匯總學習~

    PLC的通訊功能是其連接設備、控制系統和外部系統的重要組成部分。PLC支持多種通訊方式,本文將講述PLC常見的通訊方式及其優缺點,別再傻傻分不清楚~ 一.點對點通訊(P2P) 點對點通
    的頭像 發表于 09-25 09:09 ?303次閱讀
    PLC多種通訊方式匯總學習~

    用adc讀取電壓時,顯示的電壓是亂碼,如何解決?

    您好,我在用adc讀取電壓時,顯示的電壓是亂碼,第一次接觸rtthread,不清楚如何這個問題如何下手,求指導,感謝
    發表于 09-13 06:31

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協議,該如何判斷是否成功切換至QC3.0協議?

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協議,該如何判斷是否成功切換至QC3.0協議? 因為QC2.0協議的class B支持的20V的切換方式和QC3.0的升壓的方式是一樣的
    發表于 07-20 11:56

    頻段、信道、帶寬和傳輸速率,還傻傻分不清楚

    無線電通信涉及幾個重要參數,分別是頻段、信道、信道帶寬和傳輸速率,它們在無線網絡配置中扮演著重要角色。頻段:“不同的高速公路”頻段(FrequencyBand)指的是無線電波的一個特定頻率范圍,這個范圍被分配給無線通信使用。不同的無線通信技術會使用不同的頻段,避免相互之間的干擾。如最常見的Wi-Fi頻段有兩個:2.4GHz和5GHz。這兩個頻段就像是兩條不同
    的頭像 發表于 06-21 08:21 ?3734次閱讀
    頻段、信道、帶寬和傳輸速率,還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?

    LDO和DCDC還傻傻分不清?快來搞懂它

    晶體管(通常是場效應管或雙極型晶體管)調控輸出電壓,使其保持穩定。晶體管的導通程度會根據輸入電壓和負載的變化而調整,以維持恒定的輸出電壓。LDO的關鍵優點是簡單
    的頭像 發表于 05-22 08:10 ?3710次閱讀
    LDO和DCDC還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?快來搞懂它

    一文介紹:UWB-AOA產品特點及其應用

    寫在前面:好多朋友經常把藍牙AOA和UWB-AOA混淆,傻傻分不清楚。UWB和藍牙分屬兩種無線電技術,AOA指的是測量無線電到達信號的角度,UWB-AOA和藍牙AOA是兩種完全不同的產品,相較于藍牙AOA UWB-AOA定位精度更高、覆蓋范圍更廣、適用場景更加豐富。
    的頭像 發表于 05-09 17:07 ?1894次閱讀
    一文介紹:UWB-AOA產品特點及其應用

    如何解決隧道廣播聽不清楚的問題

    1、隧道廣播的設置標準 根據交通運輸部 2012 年第 3 號公告發布的《高速公路通信技術要求》有線廣播設計原則為:隧道監控等級為 A + 、A、B 等級的隧道應設置有線廣播系統,隧道監控等級為 C等級的隧道可設置有線廣播系統, 隧道段有線廣播揚聲器設置在隧道洞外入、出口,洞內宜每隔50m設置1臺。 隧道廣播與緊急電話分機的一般布設形式:在隧道內沿行車方向右側每隔約200m左右布設一部隧道廣播與緊急電話分機,隧道外距隧道洞口約5m左右布設一部緊
    的頭像 發表于 03-15 13:18 ?483次閱讀
    如何解決隧道廣播聽<b class='flag-5'>不清楚</b>的問題

    傻傻分不清?射頻模擬信號源和矢量信號源的區別

    傻傻分不清?射頻模擬信號源和矢量信號源的區別? 射頻模擬信號源和矢量信號源是測試和測量領域中常見的兩種信號源。它們在信號產生原理、輸出信號特性、使用場景等方面有很大區別。本文將從原理、特性和應用場
    的頭像 發表于 01-19 15:54 ?6642次閱讀

    請問ADXL362的溫度讀出后如何換算?

    請問ADXL362的溫度讀出后如何換算,芯片手冊上寫的不清楚!麻煩告訴下怎么換算,并舉個例子,謝謝!
    發表于 01-02 08:16

    晶體與晶振傻傻分不清?看完這篇文章您就明白了

    對于電子工程師而言,晶體和晶振是電路中不可或缺的關鍵元件,尤其在涉及到時鐘信號和同步操作時。雖然兩者在功能上有著相似之處,但在實際應用、電路設計以及布局布線等方面卻存在著顯著的區別。本文將詳細對比
    的頭像 發表于 12-29 08:07 ?3643次閱讀
    晶體與晶振<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?看完這篇文章您就明白了

    晶體與晶振傻傻分不清?看完這篇文章您就明白了

    對于電子工程師而言,晶體和晶振是電路中不可或缺的關鍵元件,尤其在涉及到時鐘信號和同步操作時。 雖然兩者在功能上有著相似之處,但在實際應用、電路設計以及布局布線等方面卻存在著顯著的區別。 本文將詳細
    的頭像 發表于 12-27 08:40 ?2272次閱讀
    晶體與晶振<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?看完這篇文章您就明白了
    主站蜘蛛池模板: 东京热一本无码av| 亚洲乱码中文字幕久久| 欧美含羞草免费观看全部完| 精品蜜臀AV在线天堂| 国产精品久久人妻无码网站一区L| YELLOW视频在线观看大全| 99精品亚洲| 76人遣返航班上71人呈阳性| 中文字幕亚洲无线码在线| 一级毛片美国| 浴室里强摁做开腿呻吟的漫画男男| 亚洲日产2020乱码草莓毕| 亚洲精品久久久久久久蜜臀老牛 | 丰满饥渴老太性hd| 成年色黄APP下载| 成人精品视频在线观看| 大胆国模一区二区三区伊人| 超碰在线视频| 妇少水多18P蜜泬17P亚洲乱| 囯产精品麻豆巨作久久| 国产成人无码区免费内射一片色欲| 国产成人精品s8p视频| 国产精品久久久久影院色| 国产精品永久在线| 国产午夜精品鲁丝片| 海量激情文学| 久久re视频精品538在线| 久久欧洲视频| 女性BBWBBWBBWBBW| 日韩成人在线视频| 四川少妇大战4黑人| 亚洲爱视频| 中文无码字慕在线观看| 992交通广播| 成人在线观看国产| 国产精品自在自线亚洲| 黄子佼81岁父亲现状曝光| 老师你狠狂| 日本红怡院亚洲红怡院最新| 午夜视频体内射.COM.COM| 一攻多受h嗯啊巨肉bl巨污|