MIT CSAIL近期發表文章《彩票假設:尋找稀疏可訓練的神經網絡》認為神經網絡就像中彩票并不是每一張都有用,但應設法找到最能中獎的那個,因此可通過消除神經網絡結構件不必要的連接(也稱修剪)適應低功率設備,在一系列條件下不斷重復該過程,神經網絡可縮小10%到20%,但并不影響準確率,甚至比原始網絡跟快。
根據齊魯晚報報道,最近威海一彩民獲得了1219萬大獎,可以說是非常幸運了,看的一眾神經網絡“煉丹師”們羨慕不已。
訓練深度神經網絡的感覺就像買彩票
HackerNews網友opwieurposiu就吐槽,做DNN其實根本和買彩票沒什么區別:先是收集訓練數據,然后寫一個python腳本,支付大約1美元的GPU時間,跑一下。所不同的是,你盯著的不是輪盤的轉針,而是損失函數圖。
95%的時間都是廢的,但是每隔一段時間你就會得到很大的回報。中獎的時候,你可能覺得自己真是個天才!但復盤的時候又發現,你根本不知道為什么A方式有效而B就不行。這種感覺,跟壓彩票非常相似。
1美元的神經網絡很小了。為了更好地學習,神經網絡就必須非常大,需要海量數據集,整個訓練過程可能要持續好多天。投入100美元、1000美元、10000美元……的時候,你可能感受到的不僅僅是經費在燃燒了。
可是,如果說,實際上神經網絡不一定要那么大呢?
不修剪了,把沒用的部分直接砍掉!
MIT CSAIL的兩位研究人員Jonathan Frankle和Michael Carbin發表過一篇論文《彩票假設:尋找稀疏的、可訓練的神經網絡》剛剛被評為ICLR最佳論文。
論文指出,神經網絡剪枝技術可以在不影響精度的前提下,將訓練網絡的參數數量減少90%以上,降低存儲需求并提高推理的計算性能。然而,當前的經驗是,剪枝產生的稀疏架構從一開始就很難訓,然而同時也能提高了效率。
Frankle和Carbin發現,一個標準的修剪技巧可以自然的顯露出一個子網絡,初始化該網絡就能提高訓練效率。因此他們提出了 “彩票假設”(lottery ticket hypothesis):任何密集、隨機初始化的前饋網絡,都包含一個子網絡,以便在隔離訓練時可以在最多相同數量的訓練迭代中,匹配原始網絡的準確性。
然而,在成功的找到這個子網絡之前,必須經過多次訓練和“修剪”整個網絡。這就好像你去買了一大包彩票,然后從里面找出中獎的那個。神經網絡的好處是,所有的彩票都在你的手中,你總能找出來中獎的那個。
如果能確切的定位到原始網絡中哪個子網絡跟最終預測相關,那么也就用不著多次訓練和“修建”,直接砍掉無關的部分即可。這樣又進一步的降低了工作量,提高了效率。這就意味著,要通過一種技巧,使得每次買彩票必中!
彩票假設也可能遷移學習產生影響,在這種情況下,為圖像識別等任務訓練的網絡可以幫助完成不同的任務。
“打了折”的深度學習
感謝大家對神經網絡的過度熱捧,使得越來越多的人感嘆于神經網絡的神奇效果,但很少有人理解訓練一個神經網絡有多難。一來成本高昂,二來耗時漫長。所以研究人員必須做出許多讓步,在模型的大小、訓練耗時和最終表現等多個方面進行權衡。
包括今天兩位主角提出的“彩票假設”的驗證過程。他們首先采用一種通用的方法,用最低的“權重”“修剪”連接來消除受過訓練的網絡的不必要連接,使其適用于智能手機等低功耗設備。
“彩票假設”的關鍵創新,是發現經過網絡訓練之后,修剪連接可能根本就沒有必要。為了測試這個假設,他們嘗試再次訓練完全相同的網絡,但沒有修剪連接。
重要的是,他們將每個連接“重置”到訓練開始時分配的權重。這些初始權重對于幫助中獎來說至關重要,沒有它們,被修剪的網絡將無法學習。通過修剪越來越多的連接,最終確定了哪些是可以刪掉而不影響模型預測能力。
為了驗證這一假設,他們在各種條件下在許多不同的網絡上重復了這個過程數萬次。實驗結果顯示MNIST和CIFAR10的“中獎彩票”的規模,始終要小于幾個全連接架構和卷積前饋架構的10%-20%。這樣的話,不僅深度網絡在體積上打了折扣,成本、耗時都大打折扣。
下一步,該團隊計劃探索為什么某些子網特別擅長學習,以及有效找出這些子網的方法。
Google已經用Python實現了彩票假設算法,并在Github上開源:
https://github.com/google-research/lottery-ticket-hypothesis
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101052 -
深度學習
+關注
關注
73文章
5512瀏覽量
121419 -
遷移學習
+關注
關注
0文章
74瀏覽量
5575
原文標題:ICLR最佳論文:MIT科學家提出彩票假設,神經網路縮小10倍并不影響結果
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論