?
深度神經網絡(DNNs)已經在人工智能領域取得了極大的成功,它們以圖像識別、自動化機器翻譯、精確醫療和許多其他解決方案為載體,直接影響著我們的生活。
不僅如此,這些現代人工算法和人腦之間有許多相似之處:首先是兩者在功能上的相似,(比如說,它們都可以解決非常復雜的任務),以及它們在內在結構上的相似性(比如它們包含許多具有層級結構的神經元)。
既然這兩個系統很明顯存在眾多相似性,于是人們不禁提出許多問題:人類視覺和機器視覺到底有多大的相似性?我們可以通過研究機器視覺來理解人類視覺系統嗎?或者從另一個角度來說:我們能從人類視覺的研究中獲得一些啟發來改進機器視覺的效能嗎?所有這些問題都促使我們對這兩個奇妙的系統進行比較研究。
雖然比較研究可以增進我們對這兩個系統的理解,但實踐起來并不那么容易。兩個系統之間存在的眾多差異可能會使研究工作變得十分復雜,同時也帶來許多挑戰。因此,謹慎地進行DNNs與人腦之間的比較研究就顯得至關重要。
論文地址:https://arxiv.org/pdf/2004.09406.pdf
論文《The Notorious Difficulty of Comparing Human and Machine Perception》(《比較人類和機器感知中最難攻克的困難》)中,作者強調了容易得出錯誤結論的三個最常見的陷阱:
人們總是過于急切地得出結論:機器學習能夠學會和人類類似的行為。這就好像我們僅僅因為動物的臉上可能有與人類類似的表情,就迅速得出結論認為動物也會和人類一樣感到快樂或悲傷。
要得出超出測試架構和訓練過程的一般性結論可能會很困難。
在比較人和機器時,實驗條件應該是完全相同的。
陷阱1:人們總是過于急切地得出結論:機器學習能夠學會和人類類似的行為先來做一個小實驗:下面的圖像是否包含閉合輪廓?
這張呢?
你可能很容易判斷出這兩幅圖像都有一個閉合的輪廓。根據格式塔理論(Gestalt Theory),對閉合輪廓的知覺被認為是人類視覺系統能夠從外界獲得物體意義的重要原因。人類會利用全局信息以判斷一條線是否是閉合輪廓,因為圖像的局部區域不足以提供完整的信息,這個過程通常被稱為“輪廓整合”(contour integration)。
我們假設卷積神經網絡很難完成全局輪廓整合。就其性質而言,卷積在其大部分層中主要是處理大量的局部信息,而處理全局信息的能力相對要弱一些,這就使得在對象識別中,相對于形狀,卷積更擅長處理紋理信息(相關工作可參考,Geirhos等人2018年的工作《ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness》,Brendel 和Bethge 2019年的工作《Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet》)。
我們用下面這組具有閉合和開放輪廓的圖像訓練模型:
為了測試DNN能否按有無閉合輪廓將圖像分類,我們創建了自己的數據集。
令人驚訝的是,經過訓練的模型幾乎完美地完成了這項任務:它可以很輕易地區分出圖像中是否包含閉合輪廓。如下圖所示,y軸表示準確度,即正確預測的分數,其值為1意味著模型正確地預測了所有圖像,而0.5則是指模型的表現比較隨機。
我們訓練CNN,以讓它按是否包含閉合輪廓進行圖像分類。繪制的效果表明,它在和訓練數據一樣獨立分布的測試集上表現良好。
這是否意味著DNNs可以像人類一樣毫不費力地完成全局輪廓整合?如果是這樣的話,即使不用新圖像對模型進行任何訓練,它也應該能夠很好地處理不同的數據集。
遵循這一邏輯,我們繼續用分布外(OOD.)圖像測試模型的性能:與原始數據集不同的是,這個樣本中大多數圖形的輪廓包含更多的邊緣,或者從原來的直線變成了曲線。
該測試應該能夠揭示我們的模型是真正地學習了閉合的概念,還是只是在原始圖像中提取了一些其他的統計線索(比如,封閉圖像和開放圖像可能包含不同數量的黑白像素等等)。
我們再次欣喜地發現我們的模型對于新圖形也處理得很好,也就是說,我們的模型在通用性方面表現良好。
我們的DNN通用性較好,不需要再次訓練(用o.o.d.測試)也能很好地處理不同的數據集。與原始數據集不同,圖形從原來的直線變成曲線,大多數圖形輪廓包含更多的邊緣或多個曲線形狀。
根據這些數據,我們可以得出結論,DNNs的確可以學習“閉合”這一抽象概念。然而,這還不是最后的結論。我們研究了更多不同的數據集。這一次,我們改變了線條的顏色或粗細。然而對于這些新圖形,我們的模型就無法判斷圖像是否包含閉合輪廓了,其準確率下降到50%左右,相當于隨機猜測。
雖然我們的DNN可以泛化到一些不同的數據集,但對于其他變化則會出現問題
在這些新圖形上出現的問題,表明DNN所學習的分辨圖形的策略并不能處理所有不同的數據集。接下來一個自然的問題就是探究模型究竟學到了什么策略。
正如我們最開始所假設的那樣,模型似乎需要全局信息,才能很好地完成我們的任務。為了驗證這個假設,我們使用了一個只能訪問局部區域的模型。
有趣的是,我們發現,即使提供給這個模型的圖塊小于閉合輪廓,DNN 仍然表現良好。這一發現表明,要讓模型檢測出我們所使用的這一組圖像刺激中是否含有閉合輪廓,整體信息并不是必須的。下圖展示了模型可能使用的局部特性:某些線的長度為正確的分類任務提供了線索。
一個只能訪問局部區域的模型(BagNet)顯示,圖形的整體特性對于模型完成我們的任務來說,并不是必需的。相反,局部區域幾乎已經可以為正確的分類任務提供足夠的證據。更具體地說,一條短線和一個開放的尾端為模型將圖形判斷為開放輪廓提供了證據。作為人類,我們常常執著于弄清一個特定的任務是如何被解決的。在這個案例中,我們認為只有通過輪廓整合才能解決閉合輪廓識別這一問題,然而結果證明這個假設是錯的。相反,更簡單的解決方案是從人類的角度基于局部特征進行識別,這是難以預料得到的。在比較人腦和機器模型時,這一點需要謹記于心——DNNs能夠找到與我們期望它們使用的方法完全不同的解決方案。為了避免我們倉促得出有人為偏見的結論,徹底檢查整個模型,包括其決策過程和數據集,是非常重要的。
陷阱2:很難得出超出測試架構和訓練過程的一般性結論
下圖顯示了合成視覺推理測試(SVRT)的兩個示例(Fleuret等人 2011年的工作《Comparing machines and humans on a visual categorization test》)。
你能解決下面的問題嗎?
SVRT數據集的23個問題中,每一個問題都可以相應地分配到兩個任務類別的其中之一。第一類稱為“相同-不同任務”,需要模型判斷形狀是否相同。第二類稱為“空間任務”,需要根據形狀在空間上的排列方式做出判斷,例如,根據一個形狀是否位于另一個形狀的中心做出判斷。
人類通常非常擅長解決SVRT問題,只需要幾個示例圖像就可以學習潛在的規則,然后就能正確地對新圖像進行分類。
曾有兩個研究小組用SVRT數據集測試了深度神經網絡。他們發現這兩個任務類別的測試結果存在很大差異:他們的模型在空間任務上表現良好,但在“相同-不同任務”上卻表現不佳。Kim等人在2018年提出,可能是人類大腦中像周期性連接這樣的反饋機制,對于完成相同-不同任務來說至關重要。
這些結果已經被引證為更廣泛的說法——DNNs不能很好地完成“相同-不同任務”。而下面我們將要提到的實驗,將證明事實并非如此。
Kim等人使用的DNNs只包括2-6層,但通常用于對象分類任務的DNNs相比之下要大得多。我們想知道標準的DNNs是否也會出現類似的結果。為此,我們使用ResNet-50進行了同樣的實驗。
有趣的是,我們發現ResNet-50完成的所有任務(包括相同-不同任務)的準確率均達到90%以上,即使與Kim等人使用的100萬張圖像相比,我們只使用了28000張訓練圖像。這表明前饋神經網絡確實可以在“相同-不同任務”上達到較高的精度。
Kim等人的研究結果表明,只包含2-6層的DNNs可以很容易地解決空間任務,但是對“相同-不同任務”表現不佳。我們找到了一個模型(ResNet-50),它對兩種類型的任務都能達到很高的準確率。這一發現表明,相同-不同任務對前饋模型沒有固有的限制。
在第二個實驗中,我們只使用了1000個訓練樣本。在這個場景中,我們發現對于大多數空間任務,模型仍然可以達到較高的準確度,而對于相同-不同任務,準確度會下降。這是否意味著相同-不同任務更加困難?我們認為,低數據模式并不適合用于決定任務的難度。學習速度很大程度上取決于系統的初始條件。與我們的DNNs不同,人類是從終身學習中獲益。換言之,如果從零開始訓練人類視覺系統完成這兩類任務,則人類視覺系統也很可能會在樣本效率上表現出與ResNet-50相似的差異。那么我們從這個案例研究中學到了什么可以用于比較人類視覺和機器視覺呢?首先,做出任何關于DNNs不能很好地執行某個特定任務的結論,我們都必須要謹慎。訓練DNNs是一個復雜的任務,而且它們的性能很大程度上取決于經過測試的體系結構和訓練過程的各個方面。其次,明白DNNs和人類有不同的初始條件這一點也很重要。因此,當我們從使用很少的訓練數據的環境中得出結論時,尤其需要小心謹慎。總而言之,在得出超出測試架構和訓練過程的一般性結論時,我們必須保持謹慎。
陷進3:在比較人和機器時,實驗條件應該是完全相同的。請看下面左邊這張圖。很明顯你可以看到一副眼鏡,現在如果稍微裁剪一下照片,我們仍然可以清晰地看到是一副眼鏡。繼續裁剪幾次,我們仍然能夠識別出這是一副眼鏡。然而,從某個時刻開始,情況就發生了變化:我們不能再識別出這是副眼鏡了。從可以識別出物體的裁剪過渡到無法識別出物體的裁剪,其中有趣的一點是它的清晰度的變化:略大的裁剪(我們稱之為“最小可識別裁剪”)能夠被大多數人正確分類(例如90%),而略小的裁剪(最大不可識別裁剪)只有少數幾個人(例如20%)能正確地分類。這個識別度的降低被稱為“可識別差”(可參考Ullman 等人 2016年的工作)。它的計算方法是從正確分類“最小可識別裁剪物”的人的比例中減去正確分類“最大不可識別裁剪物”的人的比例。在下面的圖中,可識別差為:0.9 - 0.2 = 0.7。
當裁剪或降低圖像分辨率時,我們最終會無法識別其中的物體。實驗表明,這個過程中可識別度會急劇下降,下降的程度被稱為“可識別差”。請注意,此圖中的比例和裁剪是為了示意而編制的。Ullman等人找出了人類仍能辨認出物體圖像的最小部分,他們還測試了機器的視覺算法是否具有同樣明顯的差距。結果發現,在所測試的機器視覺算法中,可識別差要小得多(等于0.14),并得出結論,機器與人類視覺系統的功能有所不同(比較第二個圖中左邊的兩個柱形)。在我們的工作中,我們在一個與Ullman等人的實驗非常相似的實驗設計中,重新審視了可識別差,但兩者之間有一個關鍵的區別:我們是在機器選擇的圖塊而不是人類選擇的圖塊上測試機器。具體地說,我們利用最先進的深卷積神經網絡實現了一種搜索算法,它模仿了人類實驗。這就確保了機器在他們選擇的圖塊上被評估——就像人類在他們選擇的圖塊上被評估一樣。
我們用DNN實現了一個模擬人類實驗的搜索算法。正確識別的概率繪制在y軸上,對應于x軸上減少的裁剪。與人類實驗類似,當不能辨別出物體時,正確識別概率急劇下降。換句話說,我們發現我們的機器算法也有很大的可識別差。我們發現,在這些條件下,我們的神經網絡確實在最小可識別裁剪和最大不可識別裁剪之間具有同樣大的可識別差,正如Ullman等人針對人類的實驗結果一樣。
從左到右的可識別差:Ullman等人2016年用人類選擇的圖塊對人類和機器算法進行測試;我們的DNN在機器選擇的圖塊上進行測試。當用在機器選擇的圖塊上進行測試時,我們的DNN有一個很大的可識別差,這與Ullman等人在2016年用人類選擇的圖塊測試機器算法所得到的結果不同。這個案例研究說明,適當調整人類和機器的測試條件對于比較兩個系統之間的現象是非常重要的。
總結上述三個案例研究突出了在比較人和機器時面臨的幾大難點。本文特別強調了這幾點:確認偏差會導致對結果的錯誤解釋,從特定的體系結構和訓練過程中歸納結論是很困難的,條件不相等的測試過程會導致錯誤的決策行為。綜上所述,在進行嚴謹的人機比較時,我們必須保持謹慎,并盡量減少我們習以為常的人類偏見。只有這樣,人工智能和人類之間的比較研究才能富有成效。
評論
查看更多