FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作,通過隨機連接的神經網絡,探索了更多樣化的連接模式,所提出的RandWire網絡ImageNet基準測試中獲得了有競爭力的準確度。
用于圖像識別的神經網絡經過大量的人工設計,已經從簡單的鏈狀模型發展到具有多個連接路徑的結構。ResNets和DenseNets的成功在很大程度上歸功于它們創新的連接規劃。
目前,神經結構搜索(NAS)的研究正在探索連接(wiring)與操作類型(operation types)的聯合優化,然而,由于可能的連接空間受到限制,盡管采用了神經結構搜索,優化仍然是由人工設計驅動的。
近日,FAIR何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網絡,探索了更多樣化的連接模式。
論文地址:
https://arxiv.org/pdf/1904.01569.pdf
作者首先定義了一個隨機網絡生成器(network generator)的概念,該生成器封裝了整個網絡生成過程,從而提供了NAS和隨機連接網絡的統一視圖。
然后,研究人員采用三種經典的隨機圖模型來生成網絡的隨機連接圖。
實驗結果令人驚訝:這些隨機生成器生成的網絡實例在ImageNet基準測試中獲得了有競爭力的準確度。
研究人員表示,這些結果表明,專注于設計更好的網絡生成器的研究可以通過探索更少約束的搜索空間,為新設計提供更多空間,從而帶來新的突破。
不過,該研究被指其思想早已在2013年PCA-Net論文中提出過,在算法設計思想方面沒有本質的創新。
何愷明等人的這一新研究到底意義如何?本文對這篇論文進行了譯介:
研究概述:網絡生成器的設計很重要
今天我們所稱的深度學習是從連接主義方法發展起來的,這一范式反映了這樣一種假設,即計算網絡的連接方式對構建智能機器至關重要。
與這一觀點相呼應的是,計算機視覺領域的最新進展是由使用鏈狀連接的模型向更精細的連接模式(如ResNet和DenseNet)的轉變所驅動的,這些連接模式之所以有效,在很大程度上是因為它們的連接方式。
在這一趨勢的推進中,神經結構搜索(neural architecture search, NAS)已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS方法專注于搜索,同時隱式地依賴于一個重要但常常被忽視的組件——網絡生成器(network generator)。
NAS網絡生成器定義了一系列可能的連接模式,并根據可學習的概率分布對網絡進行采樣。然而,就像ResNet和DenseNet中的連接模式一樣,NAS網絡生成器是手工設計的,允許的連接模式的空間被限制在所有可能的圖的一個小的子集中。從這個角度來看,我們會問:如果我們放開這種約束,并設計新的網絡生成器,會發生什么?
我們通過隨機網絡生成器采樣的隨機連接神經網絡來探討這個問題,其中人工設計的隨機過程定義了生成。
圖1:隨機連接網絡的計算圖
我們使用了三個經典的隨機圖模型:Erdos-R?enyi (ER),Barabasi-Albert (BA),以及Watts-Strogatz (WS)模型。
如圖1所示,隨機連接網絡的三個實例在ImageNet基準測試中分別達到79.1%、79.1%和79.0%的精度,超過了ResNet-50的77.1%。
為了定義完整的網絡,我們將一個隨機圖轉換成一個有向無環圖(DAG),并應用從節點到其函數角色(例如,到相同類型的卷積)的一個簡單映射。
結果令人驚訝:這些隨機生成器的幾個變體在ImageNet上產生了準確率上具有競爭力的網絡。
使用WS模型的最佳生成器生成的多個網絡性能優于或可與完全手工設計的同類網絡和通過各種神經結構搜索方法找到的網絡相媲美。
我們還觀察到,對于同一生成器生成的不同隨機網絡,精度的方差較低,但不同生成器之間存在明顯的精度差距。這些觀察結果表明,網絡生成器的設計很重要。
最后,我們的工作表明,從設計單個網絡到設計網絡生成器的新過渡是可能的,類似于如何從設計特征過渡到設計學習特征的網絡。
我們建議設計新的網絡生成器來生成用于搜索的新模型家族,而不是主要關注使用固定生成器進行搜索。設計的網絡生成器的重要性還意味著機器學習尚未實現自動化——底層的人工設計只是從網絡工程轉變到網絡生成器工程(network generator engineering)。
研究方法
接下來介紹網絡生成器的概念,這是隨機連接神經網絡的基礎。
網絡生成器(network generator)
我們定義一個網絡生成器為從參數空間Θ到神經網絡結構空間N的一個映射g,表示為g:Θ→N。對于一個給定的θ∈Θ,g(θ)返回一個神經網絡實例n∈N。N通常是一組相關網絡,例如VGG nets、ResNets或DenseNets。
生成器g決定了計算圖的連接方式。
隨機連接神經網絡(Randomly Wired Neural Networks)
對NAS的分析表明,網絡生成器是人工設計的,并且是人類知識的先驗編碼。網絡生成器的設計很可能起了相當大的作用,如果是這樣的話,目前的方法還沒有實現“AutoML”,仍然需要大量的人工。
為了研究生成器設計的重要性,僅比較相同NAS生成器的不同優化器是不夠的;有必要研究新的網絡生成器,它們與NAS生成器有本質的不同。
這就引出了我們對隨機連接神經網絡的探索。也就是說,我們將定義網絡生成器,這些生成器生成具有隨機圖的網絡,受不同的人類特定先驗影響。
我們在研究中使用了三個經典的隨機圖模型(如上文所述)。生成隨機連接網絡的方法涉及以下概念:
生成通用的圖(general graphs)。
網絡生成器首先生成一個general graph,包含一組節點和連接節點的邊,而不受限于圖和神經網絡的對應關系。這允許我們自由地使用圖理論中的任意通用圖生成器(ER/BA/WS)。一旦生成一個圖,它就被映射到一個可計算的神經網絡。
邊操作(Edge operations)。
假設生成的圖是有方向的,我們定義邊是數據流,即有向邊將數據(張量)從一個節點發送到另一個節點。
節點操作(Node operations)。
有向圖中的節點可以具有一些輸入邊和一些輸出邊。如圖2所示。
圖2:節點操作
輸入和輸出節點。
到目前為止,即使給定邊/節點操作,通用圖也不是一個有效的神經網絡,因為它可能有多個輸入節點和多個輸出節點。對于典型的神經網絡,如圖像分類,最好有一個單一的輸入和輸出。我們應用了一個簡單的后處理步驟。
階段(Stages)。
由于具有唯一的輸入和輸出節點,一個圖就足以表示一個有效的神經網絡。然而,特別是在圖像分類中,始終保持完整輸入分辨率的網絡是不可取的。通常的方法是將網絡劃分為逐步向下采樣特征映射的階段。
表1:RandWire架構
表1總結了我們實驗中使用的隨機連接神經網絡,稱為RandWire。網絡以一個分類器輸出結束(表1,最后一行)。
圖1顯示了三個隨機連接網絡樣本的完整計算圖。
實驗和結果
我們對ImageNet 1000類分類任務進行了實驗。訓練在~1.28M圖像的訓練集上進行,并在50K驗證圖像上進行測試。
實驗結果如下:
隨機生成器
圖3
圖3比較了小型計算環境中不同生成器的結果:每個RandWire網絡有~580M FLOPs。
圖4
圖4顯示了每個生成器的一個示例圖。圖生成器由隨機圖模型(ER/BA/WS)及其參數集指定,如ER(0.2)。我們觀察到:
所有隨機生成器在所有5個隨機網絡實例上都提供良好的準確度,而且它們沒有一個不收斂。
此外,隨機網絡實例之間的差異很小。圖3中的幾乎所有隨機生成器的標準偏差(std)都為0.2 ~ 0.4%。
Graph damage.
我們通過隨機移除一個節點或邊來探索Graph damage。
圖5
當刪除邊時,我們評估了精度損失與該邊的目標節點的輸入程度(圖5,底部)。
節點操作
圖6
圖6顯示了圖3中列出的每個生成器的平均精度。
結果比較
小型計算設置
表2
表2比較了在較小計算條件下的結果,這是現有NAS論文中研究的一種常見設置
表3
表3比較了RandWire與ResNet和ResNeXt在與ResNet-50/101類似的FLOPs的情況下的性能。RandWire的平均準確率分別比ResNet50和ResNet-101高1.9%和1.3%,比ResNeXt高0.6%。
更大的計算條件
表4
表4比較了在更大計算條件下的結果
COCO對象檢測
最后,我們報告了通過微調網絡進行COCO對象檢測的結果。我們使用Faster R-CNN和FPN作為目標探測器。
表5
表5比較了對象檢測結果。觀察到的趨勢與表3中的ImageNet實驗相似。這些結果表明,我們的隨機連接網絡學習到的特征也可以遷移。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100720 -
NAS
+關注
關注
11文章
284瀏覽量
112443 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論