DeepMind提出了一種讓神經網絡進行抽象推理的新方法,類似人類的IQ測試。結果發現經典模型如ResNet得分極低,數據稍有改動就變“白癡”,而他們關注推理的架構得分高很多,如果能給出結果的符號解釋,模型的預測性能和泛化性能還會顯著提高。
在許多長期存在的機器學習問題中,基于神經網絡的模型持續取得了令人振奮的結果,但是,開發它們推理抽象概念的能力被證明是很困難的。已有的研究解決了通用學習系統的重要特性,基于此,DeepMind的最新研究提出了一種在學習機器中測量抽象推理的方法,并解釋了關于泛化(generalisation)本質的一些重要見解。
要理解為什么抽象推理對于一般智力(general intelligence)至關重要,可以思考阿基米德的名言“尤里卡!”(希臘語Eureka,意即“我發現了!”):他注意到物體的體積相當于物體溢出的水的體積,他在概念層面理解了“體積”,并因此推理出如何計算不規則物體的體積。
我們希望AI具有類似的能力。雖然目前的AI系統可以在復雜的戰略游戲中擊敗世界冠軍,但它們經常對其他看似簡單的任務束手無策,特別是當需要在新環境中發現并重新應用抽象概念時。例如,如果一個AI專門訓練來計算三角形的數量,那么即使是最好的AI系統也無法計算方塊或任何其他先前未遇到過的對象。
因此,要構建更好、更智能的系統,理解神經網絡目前處理抽象概念的方式以及它們需要改進的地方,這非常重要。為此,我們從人類智商測試(IQ測試)中測量抽象推理的方法中獲得了靈感。
人類IQ測試中的推理
標準的人類IQ測試通常要求測試者運用他們從日常經驗中學到的原理來解釋感知上簡單的視覺場景。例如,人類測試者可能已經通過觀察植物生長或建筑物的搭建,在數學課上學習加法,或跟蹤利息累計的銀行余額等了解了“進展”這個概念(即事物某些屬性可能增加的概念)。然后,他們可以在IQ題中應用這個概念來推斷隨著序列增加,形狀的數量、大小,甚至顏色的深淺等屬性。
IQ測試題1:右下角應該選哪個?
答案是A,為什么?
因為在每一排中,方框里黑點的數目有一種“漸增”的關系,因此右下角黑點的數量應該是4。
IQ測試題2:右下角應該選哪個?
答案是A,為什么?
首先,每一列的三角形狀的數目分別是1個、5個和7個,因此,右下角三角形狀的數量應該是1,因此我們排除了B、F、G這三個答案,剩下A、C、D、E、H。
這道題中還需要觀察“線”的關系,我們觀察到每一排最右方的線是AND的關系,即同時出現在左邊兩個格的線才會出現在第三個格。
因此,我們得到了右下角格的線,進一步排除C、D、E、H,正確答案就是A。
IQ測試題3:右下角應該選哪個?
答案仍然是A,為什么?
首先,每一列的形狀的數量有一種“漸增”的關系,因此右下角形狀的數量應該是5個,排除D、G。
跟前一題類似,線同樣是AND的關系,我們得到右下角的線,符合的只有A、D、E、H,D已經在前一步排除,因此剩下A、E、H三個選項。
再看形狀顏色,每一列都分別有淺灰、深灰和黑色,因此右下角應該是黑色,得到正確答案A。
我們還沒有辦法讓機器學習智能體接觸到類似的“日常體驗”,這意味著我們無法輕易地衡量它們將知識從現實世界遷移到視覺推理測試的能力。盡管如此,我們仍然可以創建一個實驗設置,充分利用人類視覺推理測試。我們不是研究從日常生活到視覺推理問題的知識遷移(人類的IQ測試是如此),而是研究從一組受控的視覺推理問題到另一組視覺推理問題的知識遷移。
為實現這一目標,我們構建了一個用于創建矩陣問題的生成器,它涉及一組抽象因素,包括“進展”(progression)之類的關系以及“顏色”、“大小”之類的屬性。雖然問題生成器使用了少量的潛在因素,但它仍然可以創建大量獨特的問題。
接下來,我們限制了生成器可用的因素或組合,以便為訓練和測試模型創建不同的問題集,從而測量我們的模型能夠多大程度上推廣到已配置的測試集。例如,我們創建了一組測試題的訓練集,其中只有在應用于線條顏色時才會遇到“漸進關系”,而在測試集中應用于形狀大小時會遇到“漸進關系”。如果模型在該測試集上表現良好,它將為推斷和應用“漸進關系”這個抽象概念的能力提供證據,即使它以前從未遇見過“漸進關系”。
抽象推理的證據
在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自相同的底層分布,我們測試的所有網絡都表現出良好的泛化誤差( generalisation error),其中一些網絡實現了令人印象深刻的絕對性能。表現最好的網絡顯式地計算了不同圖像方塊之間的關系,并且并行地評估每個潛在答案的適用性。我們稱這種架構為Wild Relation Network(WReN)。
WReN模型
CNN會獨立處理每個內容panel并且一個單獨的回答會選擇一個panel來產生9個矢量embedding。然后將這組embedding傳遞給RN(其輸出是單個sigmoid單元),為相關答案選擇panel的“得分”進行編程。 通過該網絡進行8次這樣的傳遞(為簡便起見,我們僅描繪2次),每次答案選擇一次,就會通過softmax函數得分以確定模型的預測答案。
當需要使用屬性值在先前看到的屬性值之間“內推”(interpolated),以及在不熟悉的組合中應用已知的抽象關系時,模型的泛化效果非常好。但是,同樣的網絡在“外推”(extrapolation)機制中表現糟糕得多,在這種情況下,測試集中的屬性值與訓練期間的屬性值不在同一范圍內。對于在訓練中包含深色物體,但測試中包含淺色物體的謎題中就會出現這種情況。當模型被訓練來將以前見到的關系(比如形狀的數量)應用到一個新的屬性(比如形狀的大小)時,泛化性能也會更差。
實驗結果
PGM數據集
我們將數據集稱為程序生成矩陣(Procedurally Generated Matrices,PGM)數據集。為了生成PGM,受Carpenter,Wang&Su等人的啟發,通過從以下原始集中隨機抽樣來完成的:
關系類型(R,元素是r):包括progression,XOR, OR, AND, consistent union;
目標類型(O,元素是o):包括shape,line;
屬性類型(A,元素是a):包括,type,color,position,number
PGM問題—模型比較
我們首先比較了中性分裂(訓練/測試)的所有模型,這與傳統的監督學習制度最為接近。 也許令人驚訝的是,雖然它們是強大的圖像處理器的方法,CNN模型幾乎完全失敗了PGM推理問題(表1),性能略微優于我們的基線 - context-blind的ResNet模型,該模型對內容視而不見并僅在八個候選答案受過訓練。 LSTM按順序考慮各個候選小組的能力,相對于CNN產生了小的改進。 性能最佳的ResNet變體是ResNet-50,其性能優于LSTM。 ResNet-50具有比我們的簡單CNN模型更多的卷積層,因此具有更強的推理其輸入特征的能力。
所有模型在中性分裂(左圖)上的的性能,以及根據β= 0的泛化誤差排序的泛化機制WReN模型(右圖)的泛化性能。
性能最佳的模型是WReN模型。 這種強大的性能可能部分歸因于Relation Network模塊,它是為了推理對象之間的關系而明確設計的,部分是由于評分結構。 請注意,評分結構不足以解釋改進的性能,因為WReN模型基本上優于最佳Wild-ResNet模型,該模型也具有評分結構。
不同問題類型的表現
涉及單個[r,o,a]三元組的問題比涉及多個三元組的問題更容易。 有趣的是,有三個三元組的PGM比四個三元組更難。 雖然有四個三元組的問題顯得更為復雜,但是還有更多好的方法可以解決問題。在涉及單個三元組的PGM中,OR(64.7%)被證明是一種比XOR更容易的關系(53.2%)。具有結構涉及線(78.3%)的PGM比涉及形狀的那些(46.2%)更容易,涉及形狀數(80.1%)比那些涉及形狀大小(26.4%)。這表明模型難以辨別細粒度的大小差異,而不是更顯著的變化,如線條的缺少或出現,或形狀的數量。
干擾物的影響
到目前為止報告的結果是包含干擾物屬性值的問題(見圖4)。 當這些干擾物被移除時,WReN模型的表現明顯更好(驗證組的干擾物為79.3%,測試組的干擾物為78.3%,并與干擾者為63.0%和62.6%時的情況做比較)。
離心(distraction)的影響。在兩個PGM中,底層結構S 是[形狀,顏色,連續單元],但是(b)包括形狀數、形狀類型,線顏色和線型的離心。
輔助訓練的效果
然后,我們通過使用符號元目標訓練我們的模型來探索輔助訓練對抽象推理和概括的影響。在中立狀態下,我們發現輔助訓練使測試精度提高了13.9%。重要的是,模型捕獲數據的整體能力的改進也適用于其他泛化機制。在將模型的三元組重新組合成新組合的情況下,差異最為明顯。因此,代表抽象語義原則的壓力使得它們可以簡單地解碼成離散的符號解釋,似乎提高了模型有效地組成其知識的能力。這一發現與先前關于離散通道(discrete channel)對知識表示的優勢的觀察結果一致。
輔助訓練分析
除了提高性能之外,使用元標記(meta-targets)進行培訓還可以提供一種方法來衡量模型在給定PGM的情況下存在哪些形狀,屬性和關系,從而深入了解模型的策略。 使用這些預測,WReN模型在其元目標預測正確時達到了87.4%的測試準確率,而在預測不正確時僅達到34.8%。
元目標預測可以分解為對象,屬性和關系類型的預測。 我們利用這些細粒度預測來詢問WReN模型的準確性如何隨其對每個屬性的預測而獨立變化。當形狀元目標預測正確(79.5%)時,相比預測不正確(78.2%)時模型的精度有所提高;同樣,當屬性元目標預測正確(49%)時,相比預測不正確(62.2%)時模型的精度有所提高。然而,對于關系屬性,正確和不正確的元目標預測之間的差異很大(86.8%對32.1%)。 這個結果表明正確預測關系屬性對任務成功至關重要。
最后,當模型被訓練于不僅預測正確的答案,而且預測答案的“原因”(即考慮解決這個難題的特定關系和屬性)時,我們觀察到了更好的泛化性能。有趣的是,在neutral split中,模型的準確性與它推斷矩陣背后的關系的能力密切相關:當解釋正確時,模型在87%的時候能選擇到正確的答案;但當它的解釋錯誤時,準確性下降到只有32%。這表明,當模型正確地推斷出任務背后的抽象概念時,它們能夠獲得更好的性能。
結論
最近有一些研究關注基于神經網絡的解決機器學習問題的方法的優點和缺點,通常基于它們的泛化能力。我們的研究結果表明,尋找關于泛化的普遍結論可能是無益的:我們測試的神經網絡在某些泛化方案中表現良好,而在其他時候表現很差。它們是否成功取決于一系列因素,包括所用模型的架構,以及模型是否被訓練來為其答案選擇提供可解釋的“理由”。在幾乎所有情況下,當需要推斷超出其經驗的輸入或處理完全陌生的屬性時,系統的表現很差;這是一個關鍵且極為重要的研究領域,未來的工作可以集中于這個焦點。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100719 -
機器學習
+關注
關注
66文章
8406瀏覽量
132567 -
DeepMind
+關注
關注
0文章
130瀏覽量
10848
原文標題:ResNet可能是白癡?DeepMind給神經網絡們集體測智商
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論