深度神經網絡 (DNN) 是近年來機器學習研究進展的基礎,也是在圖像識別、圖像分割、機器翻譯等諸多領域能夠取得突破性進展的重要原因。
盡管 DNN 無處不在,研究人員仍在嘗試全面了解深度神經網絡的基本原理。例如,傳統理論(如 VC 維和 Rademacher 復雜度)認為:在處理未知數據時,過參數化函數 (over-parameterized functions) 的泛化能力較差;但在近期研究中卻發現,大規模過參數化的函數(參數比數據點多出幾個數量級)卻擁有出色的泛化能力,更深層次地地理解泛化對于理論的落地和DNN理論的實現從而改進模型是很有必要的。
在理解泛化之前,我們需了解 Generalization Gap(泛化性能差異)這一重要概念。泛化性能差異即模型針對相同分布的訓練數據和未知數據所表現出的性能差異。在致力獲得更好的 DNN 泛化邊界(即泛化性能差異的上限)的過程中,研究人員取得了重大進展。但是,這類邊界通常仍會大大高估真實的泛化性能差異水平,并且無法解釋部分模型為何具有出色的泛化能力。
另一方面,研究人員基于支持向量機 (support-vector machines) 等淺層模型對邊緣 (notion) 概念(即數據點與決策邊界之間的距離)進行了大量研究,最終發現此概念與模型針對未知數據所表現出的泛化能力密切相關。基于此項發現,研究人員已將使用邊緣研究泛化性能差異的方法拓展至 DNN 領域,從而使泛化性能差異的理論上限得到了高度優化,但此方式并未能顯著提高泛化模型的預測能力。
注:理論上限 鏈接
支持向量機決策邊界示例。w?x-b=0 定義的超平面是此線性分類器的“決策邊界”,即在該線性分類器下,超平面上的每個點 x 在任一類中的可能性相等。
在 ICLR 2019 論文《使用邊緣分布預測深度網絡的泛化性能差異》(Predicting the Generalization Gap in Deep Networks with Margin Distributions) 中,我們提議在各層網絡上使用標準化的邊緣分布 (Normalized Margin Distribution) 來預測泛化性能差異。
我們通過實踐研究了邊緣分布與泛化之間的關系,最終發現在對距離進行適當標準化 (Normalization) 后,邊緣分布的一些基本數據可以準確預測泛化性能差異。此外,我們還通過 GitHub 代碼庫將所有模型作為數據集公開發布,以便您進行泛化研究。
每張圖均對應一個基于 CIFAR-10 訓練的卷積神經網絡(分類準確率各不相同)。三個模型各有差異,從左至右,泛化能力逐漸增強。其中,x 軸表示 4 個層的神經網絡標準化邊緣分布,y 軸表示此分布的概率密度。標準化的邊緣分布與測試準確率密切相關,這表明我們可以將此類分布用作預測網絡 Generalization Gap(泛化性能差異)的指標。如需了解這些神經網絡的更多詳情,請參閱我們的論文。
邊緣分布作為泛化性能差異的預測指標
如果邊緣分布統計數據可以真實預測泛化性能差異,那么簡單的預測方案應能建立起二者的關系。
因此,我們選擇使用線性回歸作為預測指標。我們發現,在對邊緣分布統計數據進行對數轉換后,轉換后的數據與 泛化性能差異之間幾乎完全呈線性關系(參見下圖)。事實上,相較于其他現有的泛化測量方法,我們提出的方案可提供更準確的預測。這表明,邊緣分布可能包含與深度模型泛化性能差異相關的重要信息。
基于 CIFAR-100 和 ResNet-32 得出的 Generalization Gap 預測值(x 軸)與實際值(y 軸)關系圖。數據點的分布趨近于貼近對角線,這表明該對數線性模型的預測值非常符合實際的 Generalization Gap 水平。
深度模型泛化數據集
除論文之外,我們還介紹了深度模型泛化 (DEMOGEN) 數據集。該數據集包含 756 個經過訓練的深度模型,以及這些深度模型在 CIFAR-10 和 CIFAR-100 數據集上的訓練與及測試表現。這些模型均為 CNN(所用架構類似于“網絡中的網絡”(Network-in-Network))和 ResNet-32 的變體,它們采用當下流行的各類正則化技術和超參數設置,因而也產生了廣泛的泛化行為。
例如,基于 CIFAR-10 訓練的 CNN 模型的測試準確率在 60% 至 90.5% 之間,泛化性能差異率則介于 1% 至 35% 之間。如需了解數據集詳情,請查看我們的論文或 GitHub 代碼庫。發布數據集時,我們還為其添加了許多實用程序,以便您能夠輕松加載模型,并重現論文中所展示的結果。
我們希望本次研究和 DEMOGEN 數據集能為社區提供便利工具,讓社區成員無需重新訓練大量模型,即可研究深度學習領域的泛化問題而提供便利工具。同時,我們也希望本次研究成果能夠提供助力,以幫助我們日后對隱藏層中的泛化性能差異預測指標和邊緣分布進行更加深入的研究。
-
神經網絡
+關注
關注
42文章
4793瀏覽量
101970 -
機器學習
+關注
關注
66文章
8471瀏覽量
133694
原文標題:預測深度神經網絡泛化性能差異
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論