近日,圖靈獎得主、深度學(xué)習(xí)巨頭Geoffrey Hinton和Yann LeCun在ACM FCRC 2019上發(fā)表了精彩演講。
二人分別在大會上做了題為《深度學(xué)習(xí)革命》和《深度學(xué)習(xí)革命:續(xù)集》的精彩演講。目前視頻已經(jīng)公開:
Geoffrey Hinton:《深度學(xué)習(xí)革命》
Geoffrey Hinton
Hinton表示,自從20世紀50年代開始,人工智能存在兩種范式:分別是邏輯啟發(fā)的方法和生物學(xué)啟發(fā)的方法。
邏輯啟發(fā)的方法(The logic-inspired approach):智能的本質(zhì)是使用符號規(guī)則來操縱符號表達。 我們應(yīng)該專注于推理。
生物學(xué)啟發(fā)的方法(The biologically-inspired approach):智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中連接的優(yōu)勢。 我們應(yīng)該專注于學(xué)習(xí)和感知。
不同的范式便使得最終的目標有所不同。因此,在內(nèi)部表示(internal representation)方面也存在著兩種觀點:
內(nèi)部表示是符號表達式。程序員可以用一種明確的語言把它們交給計算機;可以通過對現(xiàn)有表示應(yīng)用規(guī)則派生新的表示。
內(nèi)部表示與語言完全不同。它們是神經(jīng)活動的向量(big vectors);它們對神經(jīng)活動的其他載體有直接的因果影響;這些向量是從數(shù)據(jù)中學(xué)到的。
由此也導(dǎo)致了兩種讓計算機完成任務(wù)的方式。
首先是智能設(shè)計:有意識地精確計算出你將如何操縱符號表示來執(zhí)行任務(wù),然后極其詳細地告訴計算機具體要做什么。
其次是學(xué)習(xí):向計算機展示大量輸入和所需輸出的例子。讓計算機學(xué)習(xí)如何使用通用的學(xué)習(xí)程序?qū)⑤斎胗成涞捷敵觥?/p>
Hinton舉了一個例子:人們花了50年的時間,用符號型人工智能(symbolic AI)來完成的任務(wù)就是“看圖說話”。
針對這項任務(wù),人們嘗試了很長時間來編寫相應(yīng)的代碼,即便采用神經(jīng)網(wǎng)絡(luò)的方法依舊嘗試了很長一段時間。最終,這項任務(wù)得到很好解決的方法竟然是基于純學(xué)習(xí)的方法。
因此,對于神經(jīng)網(wǎng)絡(luò)而言,存在如下的核心問題:
包含數(shù)百萬權(quán)重和多層非線性神經(jīng)元的大型神經(jīng)網(wǎng)絡(luò)是非常強大的計算設(shè)備。但神經(jīng)網(wǎng)絡(luò)能否從隨機權(quán)重開始,并從訓(xùn)練數(shù)據(jù)中獲取所有知識,從而學(xué)習(xí)一項困難的任務(wù)(比如物體識別或機器翻譯)?
針對這項問題,前人們付出了不少的努力:
針對如何訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),Hinton認為分為兩大方法,分別是監(jiān)督訓(xùn)練和無監(jiān)督訓(xùn)練。
監(jiān)督訓(xùn)練:向網(wǎng)絡(luò)顯示一個輸入向量,并告訴它正確的輸出;調(diào)整權(quán)重,減少正確輸出與實際輸出之間的差異。
無監(jiān)督訓(xùn)練:僅向網(wǎng)絡(luò)顯示輸入;調(diào)整權(quán)重,以便更好地從隱含神經(jīng)元的活動中重建輸入(或部分輸入)。
而反向傳播(backpropagation algorithm)只是計算權(quán)重變化如何影響輸出錯誤的一種有效方法。不是一次一個地擾動權(quán)重并測量效果,而是使用微積分同時計算所有權(quán)重的誤差梯度。
當有一百萬個權(quán)重時,反向傳播方法要比變異方法效率高出一百萬倍。
然而,反向傳播算法卻又讓人感到失望。
在20世紀90年代,雖然反向傳播算法的效果還算不錯,但并沒有達到人們所期待的那樣——深度網(wǎng)絡(luò)訓(xùn)練非常困難;在中等規(guī)模的數(shù)據(jù)集上,一些其他機器學(xué)習(xí)方法甚至比反向傳播更有效。
符號型人工智能的研究人員稱,期望在大型深層神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)困難的任務(wù)是愚蠢的,因為這些網(wǎng)絡(luò)從隨機連接開始,且沒有先驗知識。
Hinton舉了三個非常荒誕的理論:
而后,深度學(xué)習(xí)開始被各種拒絕:
2007年:NIPS program committee拒絕了Hinton等人的一篇關(guān)于深度學(xué)習(xí)的論文。因為他們已經(jīng)接收了一篇關(guān)于深度學(xué)習(xí)的論文,而同一主題的兩篇論文就會“顯得過多”。
2009年:一位評審員告訴Yoshua Bengio,有關(guān)神經(jīng)網(wǎng)絡(luò)的論文在ICML中沒有地位。
2010年:一位CVPR評審員拒絕了Yann LeCun的論文,盡管它擊敗了最先進的論文。 審稿人說它沒有告訴我們?nèi)魏侮P(guān)于計算機視覺的信息,因為一切都是“學(xué)到的”。
而在2005年至2009年期間,研究人員(在加拿大!)取得了幾項技術(shù)進步,才使反向傳播能夠更好地在前饋網(wǎng)絡(luò)中工作。
到了2012年,ImageNet對象識別挑戰(zhàn)賽(ImageNet object recognition challenge)有大約100萬張從網(wǎng)上拍攝的高分辨率訓(xùn)練圖像。
來自世界各地的領(lǐng)先計算機視覺小組在該數(shù)據(jù)集上嘗試了一些當時最好的計算機視覺方法。其結(jié)果如下:
這次比賽的結(jié)果后,計算機視覺相關(guān)的組委會們才突然發(fā)覺原來深度學(xué)習(xí)是有用的!
Hinton在演講中討論了一種全新的機器翻譯方式。
對于每種語言,我們都有一個編碼器神經(jīng)網(wǎng)絡(luò)和一個解碼器神經(jīng)網(wǎng)絡(luò)。編碼器按原句中的單詞順序讀取(它最后的隱藏狀態(tài)代表了句子所表達的思想)。而解碼器用目標語言表達思想。
自2014年年以來,神經(jīng)網(wǎng)絡(luò)機器翻譯得了很大的發(fā)展。
接下來,Hinton談到了神經(jīng)網(wǎng)絡(luò)視覺的未來。
他認為卷積神經(jīng)網(wǎng)絡(luò)獲得了巨大的勝利,因為它若是在一個地方能行得通,在其它地方也能使用。但它們識別物體的方式與我們不同,因此是對抗的例子。
人們通過使用對象的坐標系與其部分的坐標系之間的視點不變幾何關(guān)系來識別對象。Hinton認為神經(jīng)網(wǎng)絡(luò)也能做到這一點(參考鏈接:arxiv.org/abs/1906.06818)。
那么,神經(jīng)網(wǎng)絡(luò)的未來又是什么呢?
Hinton認為:
幾乎所有人工神經(jīng)網(wǎng)絡(luò)只使用兩個時間尺度:對權(quán)重的緩慢適應(yīng)和神經(jīng)活動的快速變化。但是突觸在多個不同的時間尺度上適應(yīng)。它可以使快速權(quán)重(fast weight)進行short-term memory將使神經(jīng)網(wǎng)絡(luò)變得更好,可以改善優(yōu)化、可以允許真正的遞歸。
Yann LeCun演講:《深度學(xué)習(xí)革命:續(xù)集》
Yann LeCun
Jeff剛才提到了監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)在數(shù)據(jù)量很大時效果很好,可以做語音識別、圖像識別、面部識別、從圖片生成屬性、機器翻譯等。
如果神經(jīng)網(wǎng)絡(luò)具有某些特殊架構(gòu),比如Jeff在上世紀八九十年代提出的那些架構(gòu),可以識別手寫文字,效果很好,到上世紀90年代末時,我在貝爾實驗室研發(fā)的這類系統(tǒng)承擔(dān)了全美手寫文字識別工作的10%-20%,不僅在技術(shù)上,而且在商業(yè)上也是一個成功。
到后來,整個社群一度幾乎拋棄了神經(jīng)網(wǎng)絡(luò),一方面是因為是缺乏大型數(shù)據(jù)集,還有部分原因是當時編寫的軟件過于復(fù)雜,投資很大,還有一部分原因是當時的計算機速度不夠快,不足以運行其他所有應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)其實是受到了生物學(xué)的啟發(fā),它并不是照搬生物學(xué),但確實從中得到很多啟發(fā),比如視覺皮層的結(jié)構(gòu),以及在學(xué)習(xí)信號處理時自然而然產(chǎn)生的一些觀點,比如filtering是處理音視頻信號的好辦法,而卷積是filtering的一種方式。這些經(jīng)典理念早在上世紀五六十年代就由Hubel和wiesel等人在神經(jīng)科學(xué)領(lǐng)域提出,日本科學(xué)家Fukushima在上世紀80年代對其也有貢獻。
我從這些觀點和成果中受到啟發(fā),我發(fā)現(xiàn)可以利用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)來復(fù)現(xiàn)這些現(xiàn)象。卷積網(wǎng)絡(luò)的理念是,世界上的物體是由各個部分構(gòu)成的,各個部分由motif構(gòu)成,而motif是由材質(zhì)和邊緣的基本組合,邊緣是由像素的分布構(gòu)成的。如果一個層級系統(tǒng)能夠檢測到有用的像素組合,再依次到邊緣、motif、最后到物體的各個部分,這就是一個目標識別系統(tǒng)。
層級表示不僅適用于視覺目標,也適用于語音、文本等自然信號。我們可以使用卷積網(wǎng)絡(luò)識別面部、識別路上的行人。
在上世紀90年代到2010年左右,出現(xiàn)了一段所謂“AI寒冬”,但我們沒有停下腳步,在人臉識別、行人識別,將機器學(xué)習(xí)用在機器人技術(shù)上,使用卷積網(wǎng)絡(luò)標記整個圖像,圖像中的每個像素都會標記為“能”或“不能”被機器人穿越,而且數(shù)據(jù)收集是自動的,無需手動標記。
幾年之后,我們使用類似的系統(tǒng)完成目標分割任務(wù),整個系統(tǒng)可以實現(xiàn)VGA實時部署,對圖像上的每個像素進行分割。這個系統(tǒng)可以檢測行人、道路、樹木,但當時這個結(jié)果并未馬上得到計算機社群的認可。
最近的視覺識別系統(tǒng)的一個范例是Facebook的“全景特征金字塔網(wǎng)絡(luò)”,可以通過多層路徑提取圖像特征,由多層路徑特征生成輸出圖像,其中包含圖像中全部實例和目標的掩模,并輸出分類結(jié)果,告訴你圖像中目標的分類信息。不僅是目標本身的分類,還包括背景、材質(zhì)等分類,比如草地、沙地、樹林等。可以想象,這種系統(tǒng)對于自動駕駛會很有用。
醫(yī)療成像及圖像分割
卷積網(wǎng)絡(luò)對于醫(yī)學(xué)成像應(yīng)用也很有幫助。與上面提到的網(wǎng)絡(luò)類似,它也分為解碼器部分,負責(zé)提取圖像特征,另一部分負責(zé)生成輸出圖像,對其進行分割。
神經(jīng)網(wǎng)絡(luò)機器翻譯
在翻譯應(yīng)用上,采用了許多網(wǎng)絡(luò)架構(gòu)上的創(chuàng)新,如自注意力機制、輕量卷積、動態(tài)卷積等,實現(xiàn)基于語境的動態(tài)卷積網(wǎng)絡(luò)內(nèi)核。在ICML2019上的最新機器翻譯卷積網(wǎng)絡(luò)模型,其參數(shù)數(shù)量達到200M至300M,WMT數(shù)據(jù)集上的BLEU得分:英語-德語29.7,英語-法語43.2,漢語-英語24.4。
自動駕駛系統(tǒng)
游戲
無模型強化學(xué)習(xí)很適合游戲領(lǐng)域應(yīng)用。現(xiàn)在強化學(xué)習(xí)領(lǐng)域的一大問題就是數(shù)據(jù)的缺乏,使用強化學(xué)習(xí)訓(xùn)練系統(tǒng)需要大量的重復(fù)試驗和試錯,要達到人類訓(xùn)練15分鐘的水平,機器需要大概80小時的實時游戲,對于圍棋來說,要達到超人的水平,機器需要完成大約2000萬盤的自對弈。Deepmind最近的《星際爭霸2》AI則完成了大約200年的游戲時間。
這種海量重復(fù)試驗的方式在現(xiàn)實中顯然不可行,如果你想教一個機器人抓取目標,或者教一臺自動駕駛車學(xué)會駕駛,如此多的重復(fù)次數(shù)是不行的。純粹的強化學(xué)習(xí)只能適用于虛擬世界,那里的嘗試速度要遠遠快于現(xiàn)實世界。
這就引出了一個問題:為什么人和動物的學(xué)習(xí)速度這么快?
和自動駕駛系統(tǒng)不同,我們能夠建立直覺上真實的模型,所以不會把車開下懸崖。這是我們掌握的內(nèi)部模型,那么我們是怎么學(xué)習(xí)這個模型的,如何讓機器學(xué)會這個模型?基本上是基于觀察學(xué)會的。
動物身上也存在類似的機制。預(yù)測是智能的不可或缺的組成部分,當實際情況和預(yù)測出現(xiàn)差異時,實際上就是學(xué)習(xí)的過程。
上圖顯示了嬰兒學(xué)習(xí)早期概念和語言的過程。嬰兒基本上是通過觀察學(xué)習(xí)這個世界的,但其中也有一小部分是通過交流。
自監(jiān)督學(xué)習(xí):預(yù)測與重建
以視頻內(nèi)容預(yù)測為例,給定一段視頻數(shù)據(jù),從其中一段視頻內(nèi)容預(yù)測另外一段空白處的內(nèi)容。自監(jiān)督學(xué)習(xí)的典型場景是,事先不公布要空出哪一段內(nèi)容,實際上根本不用真的留出空白,只是讓系統(tǒng)根據(jù)一些限制條件來對輸入進行重建。系統(tǒng)只通過觀察來完成任務(wù),無需外部交互,學(xué)習(xí)效率更高。
機器在學(xué)習(xí)過程中被輸入了多少信息?對于純強化學(xué)習(xí)而言,獲得了一些樣本的部分碎片信息(就像蛋糕上的櫻桃)。對于監(jiān)督學(xué)習(xí),每個樣本獲得10-10000bit信息(蛋糕表面的冰層),對于半監(jiān)督學(xué)習(xí),每個樣本可獲得數(shù)百萬bit的信息(整個蛋糕內(nèi)部)。
自監(jiān)督學(xué)習(xí)的必要性
機器學(xué)習(xí)的未來在與自監(jiān)督和半監(jiān)督學(xué)習(xí),而非監(jiān)督學(xué)習(xí)和純強化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)就像填空,在NLP任務(wù)上表現(xiàn)很好(實際上是預(yù)測句子中缺失的單詞),但在圖像識別和理解任務(wù)上就表現(xiàn)一般。
為什么?因為這世界并不全是可預(yù)測的。對于視頻預(yù)測任務(wù),結(jié)果可能有多重可能,訓(xùn)練系統(tǒng)做出唯一一種預(yù)測的結(jié)果往往會得到唯一“模糊”的結(jié)果,即所有未來結(jié)果的“平均”。這并不是理想的預(yù)測。
我們需要利用隱變量來處理不確定性。訓(xùn)練樣本只是整個可能的輸出集合的表示。
幾百年以來,理論的提出往往伴隨著之后的偉大發(fā)明和創(chuàng)造。深度學(xué)習(xí)和智能理論在未來會帶來什么?值得我們拭目以待。
-
圖靈
+關(guān)注
關(guān)注
1文章
39瀏覽量
9714 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121272
原文標題:圖靈獎得主Hinton和 LeCun最新演講:深度學(xué)習(xí)如何繼續(xù)革命?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論