深度學習是一種處理和解讀數據的方式,我們需要更深入的理解機器的運作才能更更好的控制和應用它為我們服務,接下來將要詳細討論深度學習得以實現如此優異表現的原因。為了簡化討論的過程,本文將利用Tensorlow及其API為例來進行討論,從認知論的程度來理解深度學習背后的魅力。
神經網絡表現出的縮減效應
對于深度學習的理解有各種不同的觀點和層次順序。我們首先用下面的網絡結構作為例子:
上圖描述了一張圖像經過一個深度學習網絡的傳播過程,我們在這里先進行一個小小的變換,將最左端看做是底部,而最右端看做是整個網絡的頂部。這樣我們就可以利用自底向上的方法來對網絡進行分析。
上圖中我們會看到隨著信息向網絡頂層傳播,數據和復雜度在明顯的下降。我們能不能假設這一過程是一種認知的濃縮呢?它是不是將不重要的部分剔除了,如何做到的呢?深度學習模型通過什么方式來判斷哪些是顯著的特征而哪些不是呢?
對于純粹的數據縮減來說主要是通過壓縮或者隨機刪除的機制來實現的,但這對于深度學習來說卻不是一個好辦法。我們需要的是提出那些不顯著的部分并在最后留下那些顯著的數據和特征。但很多人對于基于重要性的縮減方法沒有正確的認識并利用了無損壓縮算法來進行評估。
下面讓我們用一個實際的例子來自底向上的理解深度學習網絡到底進行了什么樣的工作。假設我們要建立一個人臉檢測系統,我們先構建一個可以理解圖像的神經網絡并利用很多帶標簽的照片對它進行監督訓練并將網絡植入到系統中去,當我們再輸入一張包含人臉的照片時系統就能迅速的找出圖像中人臉的位置。就這一過程而言,輸入數據是RGB彩色照片上的像素值,并在網絡中進行了各種計算隨后輸出結果。我們可以看到網絡的輸出要比輸入少很多,這意味著在處理過程中很多信息被丟棄了。從輸入或者低級的抽象進行一定程度的縮減并傳遞到下一層進行操作。
圖片在神經網絡中傳輸的故事里,前面階段神經網絡只能操作一些臨近的像素并檢測出簡單的直線和曲線信息、以及不同的顏色。所以他們描述的主要是基于線條和顏色的基本信息。
而上面的層則會進行更為復雜的處理,他們可能會“看到”某些邊緣與先前看到過的邊緣很類似屬于某一類物體。它們也許會說“這和之前看到的草很類似呀”。甚至沒有標簽信號的時候,這種高層次的信號也能形成某一種表達向前傳播。
在更上一層,神經網絡可能會看到更多的草“哇,這么多草葉子,這里一定是草地了”,那么草地的信號會被繼續向前傳播;
最后頂部的操作會綜合這些結果“我們是人臉檢測器,并不關心草地,忘了它們吧”。最后將不顯著的草地的信息丟棄。
將不是人臉的數據剔除后剩下的是什么呢?
在你知道網絡的表達是什么之前是不能丟棄其中的信息的。具體來說就像上面的例子中低層級的草葉檢測器不能丟棄草一樣,因為它們還不知道更高級的顯著性特征草地-不是草地/人臉-不是人臉的線索。
我們能做的僅僅是在理解和抽象的層面上進行操作。每一個層級接收低下傳上來的描述、丟棄它認為不相關的部分并將它們自己對于信息的表示向上傳遞,直到到達真正知道網絡所要搜尋的目標的層。
而這也是深度學習之所以深的原因。
這并不是一個新穎的觀點,早在1959年Oliver Selfridge就提出了類似的觀點稱為喧囂,但長期被人工智能界忽略了,但它卻提前60年預言了信息自下向上傳遞的層狀架構,這就是今天廣泛使用的深度神經網絡。
那么在具體的程序中是否有支持縮減的操作呢?讓我們來看看tensorflow中的算子。
我們先來看看池化操作,tensorflow中有超過50個池化操作算子,下圖是2*2的最大池化操作:
它將鄰近的四個像素中最大值傳遞給下一個層級。靠近輸入端的四個值可能是相互鄰近的像素值,但更多通過池化則只選出了其中最重要的一個,可以看做是拋棄了75%不重要的部分,僅僅留下最高的一個值。
在像素層面可能是最亮的值,在上面草葉的例子中就會表示“這里至少有一片葉子”。對于丟棄信息的解讀是需要根據網絡層的實際情況來進行的,事實上神經網絡層代表了不同的縮減或者稱之為抽象。
現在我們應該對深度神經網絡中最為重要的觀點有了一定的感受了:縮減需要在不同層次的抽象上進行。在決定哪些需要保留哪些需要丟棄只能在對應的抽象層次上進行。我們不能在僅僅看到深淺不一的綠色就決定丟棄草地的抽象,因為這個層次還沒有草地的信號被表達出來。這也對應著一個簡單的道理,對于行為的決策只有在對學習產生積極貢獻的時候才能做出,不可靠或無用的決策將會通過一些機制被忽略。
接下來我們來觀察tensorflow中的卷積操作,手冊中是這樣介紹卷積操作的:
雖然她被稱為卷積操作,但實際上應該嚴格的成為互相關操作。(編者注:卷積和互相關不同在核是否翻轉,如果核對稱則相同)
不同的核用于發現不同的互相關和共現關系。共現關系能對圖像中不同位置的模式進行學習。就像Hinton舉的一個例子嘴總是在鼻子的下面,這種空間關系是深度網絡能夠從學習過程中發現模式并與標簽對應起來。這使得圖像理解器可以為圖像中鼻子的位置打上鼻子的標簽。此外系統還能夠學習到物體間相對后面和下面的概念。
傳播到深度網絡高層次的信息描述的正是這些關系,而不相關的信息則被視為不顯著的并被丟棄。在上面的示意圖中, 丟棄操作是由卷積+ReLU后面的最大池化層完成的。需要說明的ReLU是一種用于丟棄負值的函數,同時它還為深度學習引入了重要的非線性但這不是此次分析的重點。
由卷積ReLU和池化層組成的模塊在深度學習中十分普遍,因為這三者的結合形成了十分可靠的減約過程。他們常常被打包在一起作為深度學習的單元被整合到計算圖中去,并用各自不同的方式抽取出數據中顯著的特征。
最后再強調一遍,這就是深度學習為何深的原因,因為你只能在你能理解抽象表達相關性的不同層處進行縮減,拋棄不相關的信息,而淺層的網絡并沒有理解這些表達的能力。
深度學習科學嗎?
深度學習一般使用線性代數來進行數學描述,但我們還不能通過這些數學公式解釋出深度網絡可以形成各種復雜的理解能力。
讓我們先來考慮一下卷積操作,卷積層能夠發現相關性。例如很多片草葉出現的時候意味著一片草地。模型在訓練過程中不斷去發現內在的相關性,一旦發現后就會對網絡權重進行調整進行正確的縮減,以增加模式被再次發現的概率。但在本質上所有的相關性都會被遺忘隨后在下一次訓練中重新發現,深度學習向上傳輸的信號和向下傳輸的梯度是根據誤差的信號來調整權重的,也可以說系統是從錯誤中學習的。在這一層次上,這種自下而上自頂向下的方式將會在每張圖像上重復很多次。
這種上上下下的方式造就了對于圖像的理解能力,也有人在文本上應用同樣的方法獲得成功。其中的過程就和自然學習一樣,將生物的神經元和軟件中的“神經元”聯系了起來。
無論是深度學習算法家族還是自然學習,都在科學上有重要的意義,他們跳過了因果聯系的推導過程,而從相關性中去發掘聯系。這在經典科學理論中是不成立的,要么是優美的公式要么就什么也不是。很多深度學習程序僅僅包含少量的線索來實現一般的結果,有時候增加層數并不管用,這樣的問題在深度學習的日常中并不罕見。沒有先驗模型沒有信息,對于模型的可靠性、正確性或者系統的整體性能我們只有通過不斷地的驗證才能完成。
但你可能會問為什么我們還要使用這種不能保證給出正確答案的系統呢?因為我們別無選擇了。我們在可靠的縮減方法失效的時候僅僅只能使用系統全局的方法,在任務需要理解能力需要自動縮減內容和復雜度的時候只有這樣的方法。
難道真沒有其他的選擇了嗎?有啊!我們周圍幾十億人類就已經掌握了這種復雜的技能。因為人們生活在豐富多彩的世界里。所以你可以使用理論上未被證明但效果十分顯著的方法,一種建立在深度學習之上的全局理解機器來理解世界。這樣的機器不能被證明是正確的因為它于通常的計算機不同,它主要的工作是縮減信息,這是一種從前只在動物里擁有的能力——一種全局性(Holistic skill)的能力。
在AI認識論中有一個十分有力的結果:我們將會再次遇到曾經遇見的事物。這種縮減和抽象的能力將會成為人工智能領域必不可少的功能。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101047 -
深度學習
+關注
關注
73文章
5512瀏覽量
121410
原文標題:自底向上看深度學習網絡的工作原理
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論