色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Batch的大小、災難性遺忘將如何影響學習速率

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-14 08:58 ? 次閱讀

編者按:上篇文章中,我們提到了如何高效地訓練ResNet。在今天的文章中,我們將對mini-batch的尺寸進行研究,同時要考慮遺忘性問題。

在上一篇文章中,我們得到了一個18層的ResNet網絡,測試精度達到94%需要341秒,并且經過進一步調整后,時間縮短至297秒。

目前,訓練使用的batch大小是128,batch更大,就支持更高效的計算,所以我們想試試當batch增大到512會發生什么。如果我們想估計之前的設置,就需要保證學習率和其他超參數都經過合適的調整。

具有mini-batch的隨機梯度下降幾乎是每次只訓練一個樣本,但不同的是,參數的更新會延遲到batch結束。在低學習率的限制下,你可以認為這種延遲是更高階的效應,只要梯度只在mini-batch上求和而不是計算平均數,批處理就不會改變任何一階的順序。我們還在每個batch之后應用了權重衰減,它會通過batch size中的一個因素增加,從而抵消需要處理的batch數量。如果梯度根據mini-batch被平均,那么學習速率應該增加到可以消除這一影響只留下權重衰減,因為權重衰減的更新對應著學習率的因子。

所以現在我們將batch size定為512開始訓練。訓練時間為256秒,將學習速率增加10%,在128的batch size下,3/5的訓練都能達到94%的測試精確度。如之前所料,在512的batch size下,驗證結果有更大的噪聲,這是因為批規范化的影響。

現在速度增加的很好,但是結果讓我們很吃驚

考慮到要用不同的mini-batch進行訓練,我們認為這一過程中我們忽略了兩點。首先,我們認為延遲更新,直到這一mini-batch結束都是更高階的影響,這在較低的學習率中是可行的。目前配置中的快速訓練速度很大程度上取決于高學習率的使用。在凸優化的背景下(或僅僅是二次方的梯度下降),我們可以在某一點設置學習速率,達到最大的訓練速度,在這一點處,二階效應開始平衡一階效應,并且一階步長產生的益處可以通過曲率效應抵消。假設我們處于這種狀態mini-batch導致的延遲更新應該產生相同的曲率懲罰,因為學習率的增加,訓練會變得不穩定。簡而言之,如果可以忽略高階效應,就說明訓練速度不夠快。

另外,我們發現訓練步驟只有一個,但事實上,訓練是一個很長的運行過程,要改變參數就需要好幾個步驟。所以,小的batch和大的batch訓練之間的二階差異可以隨著時間積累,導致訓練軌跡有很大不同。在之后的文章中我們會重新討論這一點。

所以,我們該如何在限制訓練速度的情況下,還可以提高batch size,同時不用維持曲率效應帶來的不穩定性?答案可能是其他因素在限制學習速率,而我們并沒有考慮到曲率效應。我們認為這一其他因素就是“災難性遺忘(Catastrophic Forgetting)”,這也是在較小batch中限制學習率的原因。

首先,我們要對這一概念進行解釋。這一術語通常用于,當一個模型在一個任務上訓練后,又應用到第二第三個模型上。但是學習之后的任務會導致性能下降,有時這種影響是災難性的。在我們的案例中,這些任務是來自同一個訓練集的不同部分,所以單單在一個epoch中就會發生遺忘現象。學習速率越高,訓練中參數所用的越多,在某一點時這會削弱模型吸收信息的能力,早期的batch就會更容易遺忘。

當我們提高batch size時,并沒有立即增加模型的穩定性。如果是曲率導致的,穩定性會利可增加。反之,如果是遺忘是主要原因,模型不會受batch size的影響。

之后,我們進行了實驗將曲率的效應和遺忘性區分開。曲率效應大多依賴于學習率,而遺忘主要受學習率和數據集大小的共同影響。我們繪制了在batch size為128時,訓練和測試損失的折線圖,訓練所用的是不同大小的子集。

可以看到,首先,訓練和測試損失都在學習速率為8的地方突然變得不穩定,這說明曲率影響在這里變得非常重要。相反,其他地方的訓練和測試損失都很平穩。

如我們所料,優化學習速率因子(由測試集損失測定)和全部的訓練數據集中的優化學習速率因子很接近。對于更小的數據集來說,優化學習速率因子更高。這也符合我們上面的假設:對于一個足夠小的數據及來說,遺忘就不再是問題了,學習速率才是問題。對于更大的數據集,在遺忘的影響下,優化點會更低。

同樣,在batch size為512的情況下,曲線圖也很有趣。由于batch size比上方的大了4倍,曲線出現不穩定情況的速度更快了,當學習速率為2時即出現。我們仍然希望,學習速率因子的優化值和損失與128時的相近,因為遺忘并不對batch size產生影響。以下是得到的結果:

我們設置batch size=128,然后用一定學習速率訓練,在前五個epoch中線性增加,之后達到固定的速率并繼續訓練25個epoch。我們在兩個數據集上進行了比較:a)50%的完全訓練集沒有經過數據增強;b)全部數據都經過增強的數據集。當模型在b上運行時,我們將它停止,重新計算最后幾個epoch的損失,這樣做的目的是比較模型在最近的數據上得到的損失和此前數據上計算出的損失。

以下是學習速率是原始訓練時4倍的結果:

以下是原始訓練是現在學習速率4倍的結果:

從第一組圖表中,我們發現,與高學習速率相對應,測試損失幾乎和模型在a、b上訓練時的結果一樣。這說明,訓練無法從b和a中提取信息。右邊的圖也證明了這一結果,最近訓練的batch表現出比此前的batch更低的損失,但是在半個epoch之內,損失又恢復到模型在從未見過的測試樣本上的水平。這說明,模型忘記了在同一個epoch中它此前看到的東西,這也說明這一學習速率限制了它能吸收到的信息。

第二組圖表表現出了相反的結果。全部經過數據增強的數據集導致了更低的測試損失,最近的訓練batch比此前表現得更好。

結語

上述結果表明,如果我們想訓練一個擁有較高學習速率的神經網絡,那么就要考慮兩點。對于目前的模型和數據集來說,在128的batch size下,我們不會受到遺忘的影響,要么可以找方法降低影響(例如用更大的、伴有稀疏更新的模型或者自然梯度下降),要么可以增大batch size。當batch size達到512時,曲率就開始影響結果,我們關注的重點應該轉移到曲率上來。

對于更大的數據集,例如ImageNet-1k,遺忘的影響會更嚴重。這就能解釋為什么在小的batch size、高學習率的訓練中加速會失敗。

在接下來的文章中,我們會加速批規范化,加入一些正則化,同時替換另一種基準。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689
  • resnet
    +關注

    關注

    0

    文章

    12

    瀏覽量

    3158

原文標題:如何訓練你的ResNet(二):Batch的大小、災難性遺忘將如何影響學習速率

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    影響閃存遺忘的主要因素

    正如艾賓浩斯記憶曲線所示:輸入的信息經過人腦的注意過程后被學習學習的信息進入人腦短時記憶。遺忘學習后立即開始,若不及時加以復習,短時記憶中的信息就會被
    的頭像 發表于 12-08 10:41 ?782次閱讀
    影響閃存<b class='flag-5'>遺忘</b>的主要因素

    *** 災難性故障,求救,經驗分享

    我用***不久,出現 災難性故障的次數很多(操作失敗),有人說是盜版,有人說是誤操作,有人說是電腦內存小。請問有沒有人出現過同樣的問題,又有如何的應對方法,分享一下你的經驗,250元的考證,要是出現了這個問題,學子們又得浪費父母的250RMB了,跪求解決!
    發表于 05-03 14:36

    ***災難性故障

    打開不了,顯示出Exception EOleException in moudle ***.exe at0036E780.災難性故障
    發表于 10-15 12:10

    有沒人在使用AD過程中出現災難性故障啊,怎么解決的?

    有沒人在使用AD過程中出現災難性故障啊,怎么解決的。我最近使用的AD軟件總是出現
    發表于 11-20 09:11

    AD畫圖出現“災難性故障 (異常來自 HRESULT:0x8000FFFF (E_UNEXPECTED))”

    在AD畫原理圖中將原理圖庫中的元件拖入原理圖時出現“災難性故障 (異常來自 HRESULT:0x8000FFFF (E_UNEXPECTED))”
    發表于 01-22 17:11

    PCB災難性故障

    未知情況,我把所有封裝都選好了往PCB導的時候出現的這個問題,不知道為什么
    發表于 03-10 15:31

    DeepMind徹底解決人工智能災難性遺忘問題

    人工智能系統在設計上就傾向于在每次開始新的學習之前,忘記先前學到的所有東西,這被稱為災難性遺忘
    的頭像 發表于 09-03 11:11 ?3274次閱讀

    理解Batch Normalization中Batch所代表具體含義的知識基礎

    所謂“Mini-Batch”,是指的從訓練數據全集T中隨機選擇的一個訓練數據子集合。假設訓練數據集合T包含N個樣本,而每個Mini-BatchBatch Size為b,于是整個訓練數據可被分成N
    的頭像 發表于 10-19 09:19 ?3.5w次閱讀

    在沒有災難性遺忘的情況下,實現深度強化學習的偽排練

    來自中國的研究人員通過提出一種新的動態特征融合(DFF)策略來管理動態特征融合,該策略為不同的圖像和位置分配不同的融合權重。DFF包括兩個模塊,特征提取器和自適應權重融合組件。該模型通過實施權重模型來實現動態特征融合,從而能夠針對輸入特征圖中的每一單個位置推斷多級特征上的適當融合權重。
    的頭像 發表于 03-05 17:13 ?3464次閱讀
    在沒有<b class='flag-5'>災難性</b><b class='flag-5'>遺忘</b>的情況下,實現深度強化<b class='flag-5'>學習</b>的偽排練

    實現人工智能戰略遺忘的三個方法

    神經網絡的邏輯與此不同,如果一個神經網絡被訓練學習英語,那么其會通過調用參數解決英語問題。如果你想教它學習西班牙語,那么神經網絡對于西班牙語的認知就會覆蓋掉之前為英語學習所儲備的知識,有效清空所有內容并從零開始。我們將其稱為“
    的頭像 發表于 03-05 17:44 ?3433次閱讀

    DeepMind最新研究通過函數正則化解決災難性遺忘

    近年來,人們對持續學習(也稱為終身學習)的興趣再度興起,這是指以在線方式從可能與不斷增加的任務相關的數據中學習的系統。持續學習系統必須適應所有早期任務的良好表現,而無需對以前的數據進行
    的頭像 發表于 06-29 07:53 ?2958次閱讀
    DeepMind最新研究通過函數正則化解決<b class='flag-5'>災難性</b><b class='flag-5'>遺忘</b>

    batch normalization時的一些缺陷

    導讀 batch normalization時的一些缺陷。 Batch Normalization確實是深度學習領域的重大突破之一,也是近年來研究人員討論的熱點之一。Batch
    的頭像 發表于 11-03 17:27 ?3129次閱讀
    <b class='flag-5'>batch</b> normalization時的一些缺陷

    增量學習的概念

    在機器學習領域,增量學習致力于解決模型訓練的一個普遍缺陷:「災難性遺忘(catastrophic forgetting)」 ,也就是說,一般的機器
    的頭像 發表于 03-05 15:50 ?3901次閱讀

    有關batch size的設置范圍

    我們知道,batch size 決定了深度學習訓練過程中,完成每個 epoch 所需的時間和每次迭代(iteration)之間梯度的平滑程度。batch size 越大,訓練速度則越快,內存占用更大,但收斂變慢。
    的頭像 發表于 07-12 10:15 ?6806次閱讀

    基于先驗指導的對抗樣本初始化方法提升FAT效果

    這種現象最先由Wong等人發現,隨后他們又發現使用FGSM生成對抗樣本時使用隨機初始化可以延緩災難性遺忘發生的時間,但是隨著訓練的進行,災難性遺忘還是無法避免。
    的頭像 發表于 12-19 09:42 ?751次閱讀
    主站蜘蛛池模板: 亚洲国产欧美日本大妈| 日本久久久久久久做爰片日本| 久久精品无码一区二区日韩av | 国产精品久久久久影院嫩草 | 国产69精品久久久久无码麻豆| 俄罗斯乌克兰战争原因| 国产婷婷色综合AV蜜臀AV| 久久草香蕉频线观| 免费A级毛片无码无遮挡内射| 青青草伊人| 午夜视频在线瓜伦| 曰本老头同性xxxxx| 99国产精品| 国产精品爽爽久久久久久蜜桃网站 | 亚洲精品AV无码永久无码| 永久免费毛片| jijzzizz中国版| 国产精品视频在线自在线| 久拍国产在线观看| 日本一卡二卡三卡四卡无卡免费播放 | 国产精品久久久久久久久齐齐| 国内精品视频久久久久免费| 毛片免费大全| 天天日免费观看视频一1| 夜夜骑夜夜欢| 调教椅上的调教SM总裁被调教 | 午夜视频体内射.COM.COM| 最近中文字幕2019免费版| 芳草地社区在线视频| 久久999视频| 91免费网站在线看入口黄| 超碰在线视频 免费| 狠狠躁天天躁小说| 欧洲老妇人bb| 一个人看的HD免费高清视频| 超碰在线公开视频| 久久青草影院| 武汉美女洗澡| gogogo高清在线观看| 精品国产乱码久久久久久人妻 | 挺进老师的紧窄小肉六电影完整版|