實例分析神經網絡給我們帶來的變化
大小:0.6 MB 人氣: 2017-10-11 需要積分:1
標簽:神經網絡(97481)
如今不迷戀深度學習是不可能的,你可以看到神經網絡正在發揮它無止境的技巧。在我看來,神經網絡給我們留下深刻印象至少有兩個原因:(1)神經網絡可以從弱先驗中學習建立許多良好的自然功能模型
將分層、分布式的表示與快速的、經GPU優化的梯度計算結合的思想是非常強大的。初期的神經網絡會碰到局部最優的問題,但是訓練更深層網絡的能力解決了此問題,并使得反向傳播大放光彩。在通過簡單的架構決策得到少量的專業知識之后,深度學習的實踐者們現在找到了一系列強大的參數函數以及優化它們的實用方法。
第一個這種架構決策是卷積或者遞歸結構的使用,向模型輸入空間和時間上不變的數據。單憑這點,神經網絡在圖像分類,語音識別,機器翻譯,Atari游戲以及許多其他領域都表現得十分出色。最近,基于輸入數據自頂向下關注點(top-down attention )的機制在圖像和自然語言任務中體現了它的價值,然而可微的內存模型比如磁帶和堆棧甚至可以讓網絡從只有一對輸入輸出的簡單算法中學習規則。
(2)神經網絡可以學習到驚人有用的表示
當社區仍然急切等待非監督式學習的出現時,深度監督式學習已經在構建可歸納和可解釋特征方面體現了令人印象深刻的才能。也就是說,神經網絡在被訓練預測P(y|x)時學習到的特征通常是可解釋的,并且為一些其他相關函數P(z|x)建模非常有用。
舉幾個例子:
用于分類場景的卷積神經網絡的單元通常可以學習在這些場景中特定的物體(比如燈塔),即使它們沒有被明確的訓練這么做(Zhou et al., 2015)。
圖像分類網絡中底層的相關系數能夠提供一幅圖像藝術風格出奇良好的簽名,可以對一幅圖像使用其他風格來合成新圖像(Gatys et al., 2015)。
一種遞歸神經網絡[文末有更正]被訓練用來預測句子中丟失的詞語,可以學習到有意義的單詞組合,簡單的矢量運算可以用來尋找語義類比。比如:
vking - vman + vwoman ≈ vqueenvParis - vFrance + vItaly ≈ vRomevWindows - vMicrosoft + vGoogle ≈ vAndroid
我毫不懷疑,在未來幾年,神經網絡將會運用于更多的任務之中,更深入地整合到行業里去,并將繼續有新的超能力讓研究者耳目一新。這當然有道理,我也無意貶低深度學習目前和未來的影響;但是關于這些模型智能的樂觀情緒令人擔憂,讓人又想起20世紀60年代人工智能的冬天。
從過去幾年的進步可以推斷,我們會相信,深度強人工智能的出現指日可待,只需多一些架構技巧,更大的數據集和更強勁的計算能力就能夠實現。我認為有兩點有力的原因可以增加對此的懷疑。
首先,僅僅依靠單個任務,想要讓機器有廣泛的智能或者有能力獲得這種智能是個壞主意。50年代的下跳棋機器驚艷了研究者,很多人認為這是邁向人類水平推理的一大步,但現在我們意識到在這種游戲中達到人類水平或超人類水平要比達到人類水平的強智能要簡單太多了。事實上,即使是最優秀的人,也很容易被簡單啟發式搜索算法打敗。這種算法可能無法促進機器智能的長遠目標,盡管它表面上看起來會非常智能,在人工智能的其他領域也是一樣,比如80年代的專家系統。 在大多數任務中,人類水平或超人類水平的性能不一定是通往接近人類機能的必要墊腳石。
同樣的道理,神經網絡學習可解釋詞語組合的能力,并不意味著它是成為人類水平理解世界的正確工具。這些有目的性的統計模型在對世界沒有更豐富感知的情況下,單從文本中就可以學習到有意義的關系令人印象深刻,令人吃驚,但這可能會讓人談論任務意想不到的簡單而不是模型的能力。比如跳棋機器可以通過樹搜索來贏得勝利,許多語義關系可以這么做來從文本數據中學習。這兩者都有令人印象深刻的智能行為,但都不是達到真正機器智能的方式。
我想特別說明神經網絡的長處,以及與人類智能如何聯系。深度學習產生了驚人的判別模型,生成模型和特征提取,但它們的共同之處都是需要非常大的訓練數據集。在n和d非常高的情況下,它作為一種強大的通用模式識別工具使用。這可能是這種范式中最佳的工具。
這非常適合大腦能夠解決的一種特定類型的問題:找到良好的表示來描述通過感官收到的持續、巨大的數據。在任何感官從環境獲取信息前,視覺和聽覺系統需要從原始像素和聲波中對數據進行折疊,拉伸和扭曲,轉換成能夠從信號中更好捕獲復雜統計規律的數據形式。不管這種能力是從頭開始學習還是通過進化而形成的,大腦能夠嫻熟地解決這個問題——甚至,有最新證據表明大腦發現的表示與神經網絡發現的差異并不大。我認為,深度學習可以為許多感知問題提供了不起的起點。
這就是說,這種高n、高d的范式是非常特別的,并不適合用來描述大量的智能行為。人類思維的多面性包括規劃完成新目標,從他人的行為中推斷他們的目的,學習結構化理論來描述世界規則,發明實驗來驗證這些理論,僅從一個例子中學習識別新物體種類。它們往往會有一些從少量觀測數據中得到的不確定原則推斷。對于神經網絡取得的所有成就,它們僅僅在不同于以上提到的任務的基本任務中證明了自己的價值。如果表面上看起來它們在所有方面都取得成功,那么是因為它們學習了上百次的例子,而人類并沒這么做。
深度學習給我帶來了邁向機器智能的一個途徑,而且我們現在可以使用許多不同的工具。從擁有大量數據的弱先驗中,在高維度下學習良好特征,是一種的、令人興奮的能力,但我們不應該就認為大部分智能Agent面臨的問題都能夠用這種方式解決。神經網絡中的梯度下降可能可以幫助建立思考機器的組成部分,但它本身是沒有思考能力的。
更正:用來生成單詞類比的模型實際上是一種對數線性跨詞序列模型(log linear skip-gram model),用來區別負樣本中臨近單詞對(Mikolov et al., 2013)。非常感謝fnl的指正。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%