色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google:數據并行對神經網絡訓練用時的影響

zhKF_jqr_AI ? 來源:未知 ? 2018-11-29 08:57 ? 次閱讀

編者按:談到加速模型訓練,并行計算現在已經成為一個人人可以信手拈來的術語和技巧——通過把單線程轉為多線程同時進行,我們可以把訓練用時從一禮拜縮短到幾天甚至幾小時。但無論你有沒有嘗試過并行訓練,你是否思考過這樣一些問題:模型訓練是否存在一個閾值,當batch size變化到一定程度后,訓練所用的步數將不再減少;對于不同模型,這個閾值是否存在巨大差異……

摘要

近年來,硬件的不斷發展使數據并行計算成為現實,并為加速神經網絡訓練提供了解決方案。為了開發下一代加速器,最簡單的方法是增加標準minibatch神經網絡訓練算法中的batch size。在這篇論文中,我們的目標是通過實驗表征增加batch size對訓練時間的影響,其中衡量訓練時間的是到達目標樣本外錯誤時模型所需的訓練步驟數。

當batch size增加到一定程度后,模型訓練步數不再發生變化。考慮到batch size和訓練步驟之間的確切關系對從業者、研究人員和硬件設計師來說都至關重要,我們還研究了不同訓練算法、模型和數據記下這種關系的具體變化,并發現了它們之間的巨大差異。在論文最后,我們調整了以往文獻中關于batch size是否會影響模型性能的說法,并探討了論文結果對更快、更好訓練神經網絡的意義。

研究結果

通過全面定性定量的實驗,我們最終得出了以下結論:

1. 實驗表明,在測試用的六個不同的神經網絡、三種訓練算法和七個數據集下,batch size和訓練步驟之間關系都具有相同的特征形式。

具體來說,就是對于每個workload(模型、訓練算法和數據集),如果我們在剛開始的時候增加batch size,模型所需的訓練步驟數確實會按比例逐漸減少,但越到后期,步驟數的減少量就越低,直到最后不再發生變化。與之前那些對元參數做出強有力假設的工作不同,我們的實驗嚴格對照了不同網絡、不同算法和不同數據集的變化,這個結論更具普遍性。

2. 我們也發現,最大有用batch size在不同workload上都有差異,而且取決于模型、訓練算法和數據集的屬性。

相比一般SGD,具有動量的SGD(以及Nesterov動量)的最大有用batch size更大,這意味著未來大家可以研究不同算法和batch size縮放屬性之間的關系。

有些模型的最大有用batch size很大,有些則很小,而且它們的這種關系并不像以前論文中介紹的那么簡單(比如更寬的模型并不總能更好地擴展到更大的batch size)。

相比神經網絡和算法,數據集對最大有用batch size的影響較小,但它的影響方式有些復雜。

3. 我們還發現,訓練元參數的最佳值并不總是遵循和batch size的任何簡單數學關系。比如近期有一種比較流行的學習率設置方法是直接線性縮放batch size,但我們發現這種方法并不適用于所有問題,也不適用于所有batch size。

4. 最后,通過回顧先前工作中使用的實驗方案細節,我們沒有找到任何關于增加batch size必然會降低模型性能的證據,但當batch size過大時,額外的正則化確實會變得至關重要。

實驗

下表是實驗采用的數據集,size一欄指的是訓練集中的樣本數,訓練數據分為圖像和文本兩類。

下表是實驗用的模型,它們都是從業者會在各類任務中使用的主流模型。表中也展示了我們用于每個模型和數據集的學習率。學習率的作用是加速神經網絡訓練,但找到最佳學習率本身是一個優化問題。

下圖展示了不同workload下batch size和訓練步驟之間關系變化。可以發現,雖然使用的神經網絡、算法和數據集不同,但這九幅圖都表現出了同樣的特征,就是在初始階段,隨著batch size逐漸增加,訓練步驟數會有一段線性遞減的區間,緊接著是一個收益遞減的區域。最后,當batch size突破最大有用batch size閾值后,訓練步數不再明顯下降,即便增加并行線程也不行。

下圖不同模型下batch size和訓練步驟之間關系變化。其中a、b、c三個模型的最大有用batch size比其他模型大得多,d和f表明改變神經網絡的深度和寬度可以影響模型利用較大batch size的能力,但這種做法只適用于同模型對比,不能推廣到不同模型架構的對比中。

在上圖的實驗中,MNIST模型用的都是常規的mini-batch SGD,而其他模型則用了Nesterov momentum。經過比較,我們發現Nesterov在處理較大batch size上比mini-batch SGD更好一些,所以這些模型的最大可用batch size也更大。

下圖顯示了不同數據集對batch size和訓練步驟之間關系的影響。如圖所示,雖然不大,但影響確實是客觀存在的,而且非常復雜。比如對于MNIST,子集大小對最大有用batch size的影響幾乎為0;但對于ImageNet,子集小一點似乎訓練起來更快。

小結

這里我們只呈現了部分實驗圖表,感興趣的讀者可以閱讀原文進行更深入的研究。總而言之,這篇論文帶給我們的啟示是,盡管增加batch size在短期來看是加速神經網絡訓練最便捷的方法,但如果我們盲目操作,即便擁有最先進的硬件條件,它在到達閾值后也不會為我們帶來額外收益。

當然,這些實驗數據也我們發掘了不少優化算法,它們可能能夠在許多模型和數據集中始終如一地加速模型訓練。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4772

    瀏覽量

    100838
  • 算法
    +關注

    關注

    23

    文章

    4615

    瀏覽量

    92982
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24723

原文標題:Google:數據并行對神經網絡訓練用時的影響

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人工神經網絡原理及下載

    這個網絡輸入和相應的輸出來“訓練”這個網絡網絡根據輸入和輸出不斷地調節自己的各節點之間的權值來滿足輸入和輸出。這樣,當訓練結束后,我們給定
    發表于 06-19 14:40

    訓練好的神經網絡用于應用的時候,權值是不是不能變了?

    訓練好的神經網絡用于應用的時候,權值是不是不能變了????就是已經訓練好的神經網絡是不是相當于得到一個公式了,權值不能變了
    發表于 10-24 21:55

    請問Labveiw如何調用matlab訓練好的神經網絡模型呢?

    我在matlab中訓練好了一個神經網絡模型,想在labview中調用,請問應該怎么做呢?或者labview有自己的神經網絡工具包嗎?
    發表于 07-05 17:32

    【案例分享】ART神經網絡與SOM神經網絡

    神經網絡在學習新知識的同時要保持對之前學習的知識的記憶,而不是狗熊掰棒子SOM神經網絡是一種競爭學習型的無監督神經網絡,它能將高維輸入數據映射到低維空間(通常為二維),同時保持輸入
    發表于 07-21 04:30

    如何設計BP神經網絡圖像壓縮算法?

    稱為BP神經網絡。采用BP神經網絡模型能完成圖像數據的壓縮處理。在圖像壓縮中,神經網絡的處理優勢在于:巨量并行性;信息處理和存儲單元結合在一
    發表于 08-08 06:11

    怎么解決人工神經網絡并行數據處理的問題

    本文提出了一個基于FPGA 的信息處理的實例:一個簡單的人工神經網絡應用Verilog 語言描述,該數據流采用模塊化的程序設計,并考慮了模塊間數據傳輸信號同 步的問題,有效地解決了人工神經網絡
    發表于 05-06 07:22

    基于光學芯片的神經網絡訓練解析,不看肯定后悔

    基于光學芯片的神經網絡訓練解析,不看肯定后悔
    發表于 06-21 06:33

    matlab實現神經網絡 精選資料分享

    神經神經網絡,對于神經網絡的實現是如何一直沒有具體實現一下:現看到一個簡單的神經網絡模型用于訓練的輸入
    發表于 08-18 07:25

    圖像預處理和改進神經網絡推理的簡要介紹

    為提升識別準確率,采用改進神經網絡,通過Mnist數據集進行訓練。整體處理過程分為兩步:圖像預處理和改進神經網絡推理。圖像預處理主要根據圖像的特征,將
    發表于 12-23 08:07

    優化神經網絡訓練方法有哪些?

    優化神經網絡訓練方法有哪些?
    發表于 09-06 09:52

    如何進行高效的時序圖神經網絡訓練

    現有的圖數據規模極大,導致時序圖神經網絡訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經網絡
    發表于 09-28 10:37

    如何訓練和優化神經網絡

    神經網絡是人工智能領域的重要分支,廣泛應用于圖像識別、自然語言處理、語音識別等多個領域。然而,要使神經網絡在實際應用中取得良好效果,必須進行有效的訓練和優化。本文將從神經網絡
    的頭像 發表于 07-01 14:14 ?481次閱讀

    卷積神經網絡訓練的是什么

    訓練過程以及應用場景。 1. 卷積神經網絡的基本概念 1.1 卷積神經網絡的定義 卷積神經網絡是一種前饋深度學習模型,其核心思想是利用卷積操作提取輸入
    的頭像 發表于 07-03 09:15 ?426次閱讀

    如何利用Matlab進行神經網絡訓練

    ,使得神經網絡的創建、訓練和仿真變得更加便捷。本文將詳細介紹如何利用Matlab進行神經網絡訓練,包括網絡創建、
    的頭像 發表于 07-08 18:26 ?1905次閱讀

    怎么對神經網絡重新訓練

    重新訓練神經網絡是一個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經網絡是一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。然而,隨著時間的推移,數據分布可
    的頭像 發表于 07-11 10:25 ?470次閱讀
    主站蜘蛛池模板: 超碰97人人做人人爱亚洲尤物 | 麻豆产精品一二三产区区| 亚洲中文字幕乱倫在线| 久久香蕉电影| 扒开美女嫩bbb| 侮辱丰满美丽的人妻| 久久99精品AV99果冻传媒| 757一本到午夜宫| 三级在线网址| 精品久久久久久综合网| 97超碰免费人妻中文| 视频成人永久免费下载| 幻女FREE性俄罗斯学生| 99国产电影| 香港成人社区| 男人和女人一起愁愁愁很痛| 高清无码色大片中文| 亚洲人成伊人成综合网久久久| 美女胸网站| 国产精品久久久久无码AV色戒 | 久久精品美女久久| 成人在线免费视频播放| 亚洲精品成人a在线观看| 暖暖视频大全免费观看| 国产又色又爽又刺激在线播放| 91国在线产| 亚洲 欧美无码原创区| 欧美97色伦综合网| 國産麻豆AVMDMD0179| 成人片在线播放| 中文视频在线| 亚色九九九全国免费视频| 女教师二十三歳| 黄色三级图片| 国产成人在线视频观看| 99er久久国产精品在线| 亚洲欧美日韩人成| 同房交换4p好爽| 奇米网一区二区三区在线观看| 久草在线新是免费视频| 国产国产人免费观看在线视频|