理解深度神經(jīng)網(wǎng)絡(luò)的運作機制對于幫助我們解釋它們的決定,以及構(gòu)建更強大的系統(tǒng)起到了至關(guān)重要的作用。例如,試想在不了解個體齒輪如何嚙合的情況下去構(gòu)建時鐘會有多么的困難。在神經(jīng)科學(xué)和深度學(xué)習(xí)中,理解神經(jīng)網(wǎng)絡(luò)的一種方法是調(diào)查個體神經(jīng)元所扮演的“角色”,尤其是那些易于解釋的神經(jīng)元。
我們對單一方向泛化的重要性的研究(On the importance of single directions for generalization)即將在第六屆國際學(xué)習(xí)表征會議 (ICLR)上問世,該研究采用的方法受到數(shù)十年實驗神經(jīng)科學(xué)的啟發(fā)– 通過探索刪除神經(jīng)元帶來的影響 – 來確定深度神經(jīng)網(wǎng)絡(luò)中神經(jīng)元小組的重要性,以及相對容易解釋的神經(jīng)元是否對神經(jīng)網(wǎng)絡(luò)的計算更為重要?
我們通過刪除單個神經(jīng)元以及神經(jīng)元小組對其所在的網(wǎng)絡(luò)性能的損害來研究它們的影響力。我們的實驗帶來了兩個令人驚訝的發(fā)現(xiàn):
雖然以前的許多研究都集中于解讀易解釋的單個神經(jīng)元(例如,“貓神經(jīng)元”,或深層網(wǎng)絡(luò)隱藏層中只對貓的圖像有反應(yīng)的神經(jīng)元),但是我們發(fā)現(xiàn)這些可解釋的神經(jīng)元相對于難懂的,難以解釋其活動的神經(jīng)元來說并沒有更加重要。
能夠?qū)ξ粗獔D像進行正確分類的網(wǎng)絡(luò)比只能對已知圖像進行正確分類的神經(jīng)網(wǎng)絡(luò)更能適應(yīng)神經(jīng)元的刪除。換句話說,泛性好的網(wǎng)絡(luò)比那些記憶網(wǎng)絡(luò)更少依賴單一方向的輸入。
“貓神經(jīng)元”可能更易于解釋,但它們并不重要
在神經(jīng)科學(xué)和深度學(xué)習(xí)中,對單個輸入類別的圖像(例如狗)作出響應(yīng)的易于解釋的神經(jīng)元(“選擇性”神經(jīng)元)已經(jīng)得到了廣泛的研究。在深度學(xué)習(xí)中,這導(dǎo)致了對貓神經(jīng)元,情緒神經(jīng)元和括號神經(jīng)元的強調(diào);在神經(jīng)科學(xué),有詹妮弗安妮斯頓神經(jīng)元研究,等等。然而,這些少數(shù)高選擇性神經(jīng)元相對于大多數(shù)具有低選擇性、更難懂,難以解釋其活動的神經(jīng)元的重要性仍然未知。
具有明顯響應(yīng)模式(例如,對貓活躍,對其他所有活動不活躍)的神經(jīng)元比看到隨機圖像活躍和不活躍的神經(jīng)元更容易解釋。
為了評估(某個)神經(jīng)元的重要性,我們測量了當(dāng)該神經(jīng)元被刪除時,神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)上的表現(xiàn)變化。如果一個神經(jīng)元是非常重要的,刪除它應(yīng)會對神經(jīng)網(wǎng)絡(luò)產(chǎn)生高度的破壞性,大大降低該網(wǎng)絡(luò)的性能;相反地,刪除一個不重要的神經(jīng)元則應(yīng)該無法對神經(jīng)網(wǎng)絡(luò)構(gòu)成很大影響。神經(jīng)科學(xué)家經(jīng)常進行類似的實驗,然而他們很難達到這些實驗所需的精度,而這精度在人工神經(jīng)網(wǎng)絡(luò)中恰恰容易獲得。
刪除神經(jīng)元對簡單神經(jīng)網(wǎng)絡(luò)影響的直觀圖示。顏色較深的神經(jīng)元更加活躍。嘗試點擊隱藏層中的神經(jīng)元并刪除它們,觀察輸出神經(jīng)元的活動會如何改變。請注意,刪除一個或兩個神經(jīng)元對輸出影響很小,而刪除大部分神經(jīng)元則會對輸出影響很大,并且一些神經(jīng)元比其他神經(jīng)元更重要!
令人驚訝的是,我們發(fā)現(xiàn)選擇性強的神經(jīng)元和重要性之間幾乎沒有關(guān)系。換句話說,“貓神經(jīng)元”并不比難懂神經(jīng)元更加重要。這一發(fā)現(xiàn)與最近在神經(jīng)科學(xué)方面的工作相互呼應(yīng),即難懂神經(jīng)元實際上可以提供很多信息。我們需將視野拓展到最易于解釋的神經(jīng)元以外來了解深度神經(jīng)網(wǎng)絡(luò)。
“貓神經(jīng)元”可能更易解釋,但它們并不比難懂的沒有明顯偏好的神經(jīng)元更重要。嘗試點擊上圖的二維線畫圖函數(shù),看看重要性和易解釋性之間的關(guān)系!
盡管可解釋的神經(jīng)元在直覺上更容易理解(“它喜歡狗”),但它們并不比難懂的,沒有明顯偏好的神經(jīng)元更重要。
越泛化的神經(jīng)網(wǎng)絡(luò),越難被打破
對于我們正在努力構(gòu)建的智能系統(tǒng)來說,只有當(dāng)這種系統(tǒng)能夠推廣到對新的情況進行解讀時,我們才能稱之為智能系統(tǒng)。例如,一個圖像分類網(wǎng)絡(luò)如果只能對以前看過的特定狗的圖像進行分類,而不能對同一只狗的新的圖像進行分類的話,那么它是無用的。只有當(dāng)它可以對新的例子進行智能分類時,這個系統(tǒng)才能展現(xiàn)了它的效用。 一篇由Google Brain,Berkeley大學(xué)和DeepMind最近在ICLR 2017上獲得最佳論文的合作論文表明,深度網(wǎng)絡(luò)可以簡單地記住它們接受過培訓(xùn)的每個圖像,然而卻不能以類人類的方式對圖像進行學(xué)習(xí)(例如,了解抽象的“狗”概念)。
通常我們不知道網(wǎng)絡(luò)是否已經(jīng)學(xué)會了一種能夠推廣到新情況的解決方案。通過逐漸刪除越來越大的神經(jīng)元組,我們發(fā)現(xiàn),相比起對以前訓(xùn)練期間看到的圖像進行簡單記憶的網(wǎng)絡(luò),泛化良好的網(wǎng)絡(luò)在應(yīng)對刪除時表現(xiàn)出的穩(wěn)健性要強得多。換句話說,泛化好的網(wǎng)絡(luò)很難被打破(盡管它們肯定還是會被打破的)。
隨著越來越多的神經(jīng)元組被刪除,泛化的網(wǎng)絡(luò)性能的下降速度遠遠低于記憶網(wǎng)絡(luò)的性能。
通過以這種衡量網(wǎng)絡(luò)的穩(wěn)健性的方式,我們可以評估一個網(wǎng)絡(luò)是否在利用記憶來進行“欺騙”。了解網(wǎng)絡(luò)在進行記憶時的變化將有助于我們建立新的網(wǎng)絡(luò),這種網(wǎng)絡(luò)記憶較少,泛化較強。
受到神經(jīng)科學(xué)啟發(fā)的分析
總之,這些發(fā)現(xiàn)證明了使用受實驗神經(jīng)科學(xué)啟發(fā)的技術(shù)對理解神經(jīng)網(wǎng)絡(luò)的重要作用。通過這些方法,我們發(fā)現(xiàn)選擇性強的個體神經(jīng)元并不一定比不具選擇性的神經(jīng)元更加重要,并且,單個神經(jīng)元對泛化的網(wǎng)絡(luò)的影響比其對單純依靠記憶數(shù)據(jù)訓(xùn)練出來的網(wǎng)絡(luò)更小。這些結(jié)果意味著單個神經(jīng)元的重要性可能比你乍看上去的要低。
試圖了解所有神經(jīng)元,而不僅僅是那些易于理解的神經(jīng)元的作用可以幫助我們更好地理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作,更加重要的是,我們可以利用這種理解來構(gòu)建更加智能和應(yīng)用廣泛的系統(tǒng)。
-
神經(jīng)
+關(guān)注
關(guān)注
0文章
46瀏覽量
12532 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121356
原文標(biāo)題:DeepMind 最新研究:通過刪除神經(jīng)元理解深度學(xué)習(xí)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論