Geoffrey Hinton是深度學(xué)習(xí)的創(chuàng)始人之一,2019年圖靈獎(jiǎng)得主,谷歌工程研究員。
在津南谷歌的I/O開(kāi)發(fā)者大會(huì)上,美國(guó)科技媒體Wired的NicholasThompson和Hinton討論了他早期對(duì)大腦的癡迷,以及計(jì)算機(jī)可以模仿其神經(jīng)結(jié)構(gòu)的可能性。他們還討論了意識(shí)這個(gè)概念以及Hinton未來(lái)的計(jì)劃。
以下是對(duì)話(huà)過(guò)程,請(qǐng)欣賞!
Nicholas Thompson:讓我們從你早期的一些極具影響力的論文開(kāi)始談起。每個(gè)人都說(shuō),“這是一個(gè)聰明的想法,但實(shí)際上我們不可能以這種方式來(lái)設(shè)計(jì)計(jì)算機(jī)。那么,請(qǐng)解釋一下你為什么如此堅(jiān)持、如此自信地認(rèn)為自己找到了重要的東西。
在我看來(lái),大腦必須通過(guò)學(xué)習(xí)“聯(lián)系”的力量來(lái)發(fā)揮作用,除此以外沒(méi)有別的方式。如果你想讓一個(gè)設(shè)備完成一些智能工作,那么有兩個(gè)選擇:一是你可以編程,二是它可以學(xué)習(xí)。人當(dāng)然不是被編程的,所以我們必須學(xué)習(xí)。因此這肯定是正確的道路。
NT:那么,能解釋一下神經(jīng)網(wǎng)絡(luò)是什么嗎?
GH:你有相對(duì)簡(jiǎn)單的處理元素,它們是非常松散的神經(jīng)元模型。這些模型之間有連接,每個(gè)連接都有權(quán)值,并且可以通過(guò)學(xué)習(xí)改變權(quán)值。神經(jīng)元所做的是,將連接上的活動(dòng)乘以權(quán)值,再把它們?nèi)考悠饋?lái),然后決定是否發(fā)送輸出。如果它得到一個(gè)足夠大的和,就會(huì)發(fā)送一個(gè)輸出;如果總和為負(fù)數(shù),則不會(huì)發(fā)送任何內(nèi)容。僅此而已。你所要做的就是把成千上萬(wàn)的神經(jīng)元和成千上萬(wàn)的權(quán)值的平方連接起來(lái),然后算出如何改變權(quán)值,它就能做任何事情。這只是一個(gè)你如何改變權(quán)值的問(wèn)題。
NT:你是什么時(shí)候意識(shí)到這種模式與大腦運(yùn)作方式相近的?
GH:神經(jīng)網(wǎng)絡(luò)總是這樣設(shè)計(jì)出來(lái)的,被設(shè)計(jì)成像大腦那樣去工作。
NT:意思就是,在你職業(yè)生涯的某個(gè)階段,你開(kāi)始去了解大腦的工作方式。或許是在你12歲的時(shí)候,也或許是在你25歲的時(shí)候。所以,你究竟是什么時(shí)候決定要模仿大腦來(lái)制作電腦模型的?
GH:基本是在了解大腦原理后。具體想法是:通過(guò)改變連接的字符串(就像人們認(rèn)為的大腦學(xué)習(xí)方式那樣),來(lái)制造一個(gè)像大腦那樣學(xué)習(xí)的學(xué)習(xí)設(shè)備。這個(gè)主意也不是我的首創(chuàng),圖靈也有同樣的想法。圖靈,盡管他奠定了很多標(biāo)準(zhǔn)計(jì)算機(jī)科學(xué)的基礎(chǔ),他也相信大腦是一個(gè)有著隨機(jī)權(quán)值的無(wú)組織的“裝置”,它會(huì)使用強(qiáng)化學(xué)習(xí)來(lái)改變連接,最終學(xué)習(xí)一切。他還認(rèn)為這是獲得情報(bào)的最佳途徑。
NT:所以你遵循圖靈的想法——制造機(jī)器最好的方法就是模仿人類(lèi)的大腦。腦子里想著:這就是人腦的工作原理,因此讓我們?cè)煲粋€(gè)這樣的機(jī)器吧。
GH:是的,這不僅僅是圖靈的想法,很多人都這么認(rèn)為。
NT:最黑暗的時(shí)刻是什么時(shí)候?還有,什么時(shí)候那些同樣贊成圖靈想法、一直在工作的人退縮時(shí),但你卻仍然繼續(xù)前進(jìn)?
GH:總有一群人始終相信它,尤其是在心理學(xué)領(lǐng)域。但是對(duì)于計(jì)算機(jī)科學(xué)家,90年代時(shí)得到的數(shù)據(jù)集非常小,計(jì)算機(jī)運(yùn)行也沒(méi)有那么快。在小數(shù)據(jù)集方面,其他的方法比如支持向量機(jī),工作得更好。
在80年代我們就發(fā)展了反向傳播,原本以為它能解決所有問(wèn)題,結(jié)果卻不行,我們疑惑為什么行不通。現(xiàn)在知道其實(shí)是數(shù)據(jù)規(guī)模導(dǎo)致其不能解決所有問(wèn)題,當(dāng)時(shí)我們都沒(méi)有意識(shí)到。
NT:那你當(dāng)時(shí)認(rèn)為為什么行不通呢?
GH:我們認(rèn)為這行不通,是因?yàn)槲覀儧](méi)有完全正確的算法和完全正確的目標(biāo)函數(shù)。很長(zhǎng)一段時(shí)間以來(lái),我一直認(rèn)為這是因?yàn)槲覀円恢痹谧霰O(jiān)督學(xué)習(xí),你必須給數(shù)據(jù)貼上標(biāo)簽。其實(shí)我們應(yīng)該做的是無(wú)監(jiān)督學(xué)習(xí),就是從沒(méi)有標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。
NT:有意思。所以問(wèn)題是你沒(méi)有足夠的數(shù)據(jù),而你當(dāng)時(shí)卻以為自己擁有適量的數(shù)據(jù),但未被正確標(biāo)記。因此你只是誤解了這個(gè)問(wèn)題?
GH:我認(rèn)為僅僅使用標(biāo)簽是一個(gè)錯(cuò)誤。大部分學(xué)習(xí)過(guò)程都沒(méi)有使用任何標(biāo)簽,只是嘗試在數(shù)據(jù)中對(duì)結(jié)構(gòu)建模。我相信這一點(diǎn)。我也認(rèn)為隨著計(jì)算機(jī)變得越來(lái)越快,對(duì)于任何給定大小的數(shù)據(jù)集,只要計(jì)算機(jī)足夠快,都最好做無(wú)監(jiān)督學(xué)習(xí)。一旦你完成了無(wú)監(jiān)督學(xué)習(xí),你就能從更少的標(biāo)簽中進(jìn)行學(xué)習(xí)。
NT:所以在20世紀(jì)90年代,你仍然繼續(xù)身處學(xué)術(shù)界進(jìn)行這個(gè)研究,也依舊發(fā)表論文,但沒(méi)有解決什么大的問(wèn)題。你有沒(méi)有說(shuō)過(guò),我覺(jué)得研究夠了,要去試試別的方向?還是你只是堅(jiān)持要繼續(xù)研究深度學(xué)習(xí)?
GH:是的,我一直在堅(jiān)持這樣的研究一定有用。我的意思是,大腦中的連接正在以某種方式完成學(xué)習(xí)過(guò)程,我們必須弄清它。可能有很多不同的方法來(lái)學(xué)習(xí)連接的強(qiáng)度,大腦正在使用其中一個(gè)。當(dāng)然,你也必須擁有可以學(xué)習(xí)這些連接強(qiáng)度的東西。我從來(lái)沒(méi)有懷疑過(guò)這一點(diǎn)。
NT:因此你永遠(yuǎn)不會(huì)懷疑。那么,什么時(shí)候研究開(kāi)始可行的?
GH:80年代最令人沮喪的一件事是,如果你建立的網(wǎng)絡(luò)有很多隱藏層,你就無(wú)法訓(xùn)練它們。這也不完全正確,因?yàn)槟憧梢杂?xùn)練一些相當(dāng)簡(jiǎn)單的任務(wù),比如識(shí)別筆跡。但是大多數(shù)深層神經(jīng)網(wǎng)絡(luò),我們是不知道如何訓(xùn)練它們的。大約在2005年,我想出了一種無(wú)人監(jiān)督的深網(wǎng)訓(xùn)練方法。你獲取到輸入,比如說(shuō)像素,然后你會(huì)得到一堆特征,它們很好地解釋為什么像素是這樣的。接著你把這些特征當(dāng)做數(shù)據(jù),又學(xué)習(xí)到另一組特征,所以我們可以解釋為什么這些特征有相關(guān)性。你不斷地進(jìn)行一層又一層學(xué)習(xí),但有趣的是,你可以通過(guò)一些數(shù)學(xué)運(yùn)算,來(lái)證明每次你學(xué)習(xí)另外一層,你不一定有一個(gè)更好的數(shù)據(jù)模型,但你有一個(gè)關(guān)于你的模型有多好的波段。這樣每次添加另一層時(shí),你都可以獲得更好的波段。
NT:這是什么意思,你有一個(gè)關(guān)于你的模型有多好的波段?
GH:一旦有了一個(gè)模型,你說(shuō),“模型找到這些數(shù)據(jù)有多令人奇怪?”你向它展示了一些數(shù)據(jù)然后說(shuō):“這是你相信的那種東西嗎,還是說(shuō)這令人驚訝?”而你想要做的是擁有一個(gè)模型,一個(gè)好的模型是看著數(shù)據(jù)說(shuō),“是的,是的,我知道。這是不足為奇。”
通常很難準(zhǔn)確計(jì)算出這個(gè)模型發(fā)現(xiàn)數(shù)據(jù)的驚人程度。但是你可以在上面計(jì)算一個(gè)波段,然后得出結(jié)論說(shuō)這個(gè)模型發(fā)現(xiàn)的數(shù)據(jù)沒(méi)有那個(gè)模型那么令人驚訝。你還可以展示,當(dāng)添加了額外的特征探測(cè)器層時(shí),得到一個(gè)模型能使得你每次添加一個(gè)層,波段就會(huì)發(fā)現(xiàn)數(shù)據(jù)變得更好。
NT:大約在2005年,你取得了這個(gè)數(shù)學(xué)上的突破。那么你又是什么時(shí)候開(kāi)始得到正確答案的?當(dāng)時(shí)你在處理什么數(shù)據(jù)?你在處理什么數(shù)據(jù)?語(yǔ)音數(shù)據(jù)是你的第一個(gè)突破,對(duì)吧?
GH:這只是手寫(xiě)的數(shù)字,非常簡(jiǎn)單。而之后大約在同一時(shí)間,他們開(kāi)始開(kāi)發(fā)GPU(圖形處理單元)。大約在2007年,做神經(jīng)網(wǎng)絡(luò)的人們開(kāi)始使用GPU。我有一個(gè)非常優(yōu)秀的學(xué)生,也開(kāi)始使用GPU來(lái)尋找航拍圖像中的道路。他寫(xiě)了一些代碼,然后被其他學(xué)生用來(lái)使用GPU去識(shí)別語(yǔ)音中的音素,當(dāng)時(shí)他們正在使用預(yù)訓(xùn)練的想法。在他們完成所有這些預(yù)訓(xùn)練之后,只要把標(biāo)簽貼在上面然后使用反向傳播,你就可以有一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的非常深的網(wǎng)。然后你可以繼續(xù)使用反向傳播,它確實(shí)有效。它在某種程度上超過(guò)了語(yǔ)音識(shí)別的基準(zhǔn)。
NT:它擊敗了最好的商業(yè)語(yǔ)音識(shí)別?也擊敗了語(yǔ)音識(shí)別方面最好的學(xué)術(shù)工作?
GH:在一個(gè)名為TIMIT的相對(duì)較小的數(shù)據(jù)集上,它的表現(xiàn)略好于最好的學(xué)術(shù)作品。還在IBM完成了工作,并且相當(dāng)迅速。很快,人們就意識(shí)到這個(gè)東西——因?yàn)樗驍×嘶?0年時(shí)間開(kāi)發(fā)的標(biāo)準(zhǔn)模型——如果再多開(kāi)發(fā)一點(diǎn)就會(huì)做得很好。所以我的研究生們?nèi)チ宋④洠琁BM和谷歌,谷歌是最快把它變成生產(chǎn)語(yǔ)音識(shí)別器的。到2012年,這項(xiàng)2009年首次完成的工作,在Android上出現(xiàn)了。而后Android在語(yǔ)音識(shí)別方面突然變得更加擅長(zhǎng)。
NT:自從40年前開(kāi)始產(chǎn)生這個(gè)想法的那一刻,你已經(jīng)研究了20年,現(xiàn)在你終于比你的同事出色了。這種感覺(jué)怎么樣?
GH:我只有30年的想法!
NT:是的,是的!所以只是一個(gè)新想法。新的!
GH:我感覺(jué)很好,它終于找到了真正的問(wèn)題所在。
NT:你還記得第一次得到啟示性的數(shù)據(jù)時(shí),你在哪里嗎?
GH:不記得了。
NT:好的。所以你意識(shí)到它適用于語(yǔ)音識(shí)別。那又是從什么時(shí)候開(kāi)始將它應(yīng)用于其他問(wèn)題?
GH:就在那之后我們開(kāi)始把它應(yīng)用到其他各種問(wèn)題上。George Dahl是最早從事語(yǔ)音識(shí)別研究的人之一,他將其應(yīng)用于預(yù)測(cè)一種分子是否會(huì)與某種物質(zhì)結(jié)合,并成為一種良好的藥物。還有這么有一場(chǎng)比賽,他只把我們?cè)O(shè)計(jì)的語(yǔ)音識(shí)別標(biāo)準(zhǔn)技術(shù)應(yīng)用到預(yù)測(cè)藥物的活性上,就贏得了比賽。表明了這些東西的運(yùn)用范圍是相當(dāng)普遍的。然后我的一個(gè)學(xué)生說(shuō),“Geoff,你知道么,這個(gè)東西將用于圖像識(shí)別,李菲菲已經(jīng)為它創(chuàng)建了正確的數(shù)據(jù)集。還有一個(gè)公開(kāi)的競(jìng)爭(zhēng),我們也必須這么做。”
當(dāng)時(shí)是2012年,我們得到的結(jié)果比標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)要好得多。
NT:那么,是什么區(qū)分了哪些區(qū)域工作最快,哪些區(qū)域需要更多間?似乎視覺(jué)處理、語(yǔ)音識(shí)別,這樣類(lèi)似于用感官知覺(jué)來(lái)處理的人類(lèi)核心活動(dòng)被認(rèn)為是首先需要清除的障礙,對(duì)嗎?
GH:是也不是,因?yàn)檫€有一些比如運(yùn)動(dòng)控制這樣的其他領(lǐng)域。我們?nèi)祟?lèi)非常擅長(zhǎng)運(yùn)動(dòng)控制,我們的大腦顯然就是為此而設(shè)計(jì)的。而直到現(xiàn)在,神經(jīng)網(wǎng)絡(luò)才開(kāi)始與其他最好的技術(shù)競(jìng)爭(zhēng)。神經(jīng)網(wǎng)絡(luò)技術(shù)最終會(huì)贏,但現(xiàn)在才剛剛開(kāi)始贏。
另外,我認(rèn)為推理——抽象推理,這是我們要學(xué)習(xí)做的最后一件事,我也認(rèn)為這將是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)做的最后一件事。
NT:所以你一直說(shuō)神經(jīng)網(wǎng)絡(luò)最終會(huì)贏得一切。
GH:嗯,我們都是神經(jīng)網(wǎng)絡(luò)。他們可以做任何我們能夠做的事情。
NT:是的,但是人腦并不一定是有史以來(lái)最有效的計(jì)算機(jī)器。
GH:當(dāng)然不是了。
NT:當(dāng)然不是我這人類(lèi)的腦袋!難道不存在一種比人腦更有效的機(jī)器建模方法嗎?
GH:從哲學(xué)的角度來(lái)說(shuō),我并不反對(duì)這樣的想法,即可能有一些完全不同的方式來(lái)做出(人類(lèi)能夠做到的)這一切。比如它可以是這樣的。如果從邏輯開(kāi)始,你試圖將邏輯自動(dòng)化,然后再做一些看起來(lái)很酷炫的定理證明,再做些推理,然后你決定通過(guò)推理來(lái)做視覺(jué)感知——可能最后成功方法就是這個(gè)。事實(shí)證明它沒(méi)有。但我對(duì)這一事實(shí)沒(méi)有哲學(xué)上的反對(duì)意見(jiàn)。只是我們知道大腦可以做到這一點(diǎn)。
NT:但也有一些事情我們的大腦做不好。對(duì)于這些事情而言,神經(jīng)網(wǎng)絡(luò)會(huì)不會(huì)也沒(méi)有什么辦法將其做好呢?
GH:很可能(做不好),是的。
NT:我這還有個(gè)相對(duì)獨(dú)立的問(wèn)題:我們并不完全知道它們到底是如何運(yùn)作的,對(duì)吧?
GH:不,我們確實(shí)不知道它們?nèi)绾芜\(yùn)作。
NT:我們不了解自上而下的神經(jīng)網(wǎng)絡(luò)是如何工作的。這是我們不理解神經(jīng)網(wǎng)絡(luò)運(yùn)作方式的一個(gè)核心要素。麻煩您解釋一下這個(gè)問(wèn)題,然后讓我再問(wèn)一下這個(gè)顯而易見(jiàn)的跟進(jìn)問(wèn)題:如果我們不知道這些東西是如何工作的,那它們?cè)趺茨芷鹱饔媚兀?/p>
GH:如果你看一下目前的計(jì)算機(jī)視覺(jué)系統(tǒng),其中大部分基本上是前饋;他們不使用反饋連接。當(dāng)前的計(jì)算機(jī)視覺(jué)系統(tǒng)還有一個(gè)問(wèn)題——它們很容易出現(xiàn)對(duì)抗性錯(cuò)誤。你可以稍微改變一張熊貓照片上的幾個(gè)像素——現(xiàn)在照片看起來(lái)仍然像只熊貓,但系統(tǒng)會(huì)突然改口說(shuō)這其實(shí)是一只鴕鳥(niǎo)。顯然,你改變像素的方式是經(jīng)過(guò)精心設(shè)計(jì)的,從而欺騙它認(rèn)為照片是一只鴕鳥(niǎo)。但重點(diǎn)是,照片對(duì)你來(lái)說(shuō)仍然像一只熊貓。
最初我們認(rèn)為這些算法非常有效。但是,當(dāng)我們不得不面對(duì)這樣一個(gè)事實(shí),即他們明明面對(duì)著一只熊貓但確信這其實(shí)是一只鴕鳥(niǎo)時(shí),你會(huì)有點(diǎn)擔(dān)心。我認(rèn)為這個(gè)問(wèn)題一部分是由于,這些算法不是試圖從概括性表征中重建圖像,而是試圖進(jìn)行歧視性學(xué)習(xí)。在那里你只學(xué)習(xí)特征探測(cè)器的層次,而目標(biāo)函數(shù)只是關(guān)于改變權(quán)重以便你更好地得到正確的答案。
最近在多倫多,我們一直在發(fā)現(xiàn),或者Nick Frost一直在發(fā)現(xiàn),如果你引入重建,那么它可以幫助你更好地解決對(duì)抗性攻擊這一問(wèn)題。所以我認(rèn)為在人類(lèi)的視覺(jué)中,我們使用重建來(lái)進(jìn)行學(xué)習(xí)。并且,因?yàn)槲覀兺ㄟ^(guò)重建來(lái)進(jìn)行大量學(xué)習(xí),我們更不易于被對(duì)抗性攻擊蒙蔽雙眼。
NT:你相信神經(jīng)網(wǎng)絡(luò)中的自上而下的信息傳導(dǎo)旨在幫助你測(cè)試如何進(jìn)行重建。你如何測(cè)試并確定它是熊貓而不是鴕鳥(niǎo)?
GH:我認(rèn)為這至關(guān)重要,是的。
NT:但是腦科學(xué)家并不是很贊同這一觀點(diǎn)是嗎?
GH:腦科學(xué)家們都同意這一表述——如果你在感知途徑中有兩個(gè)皮質(zhì)區(qū)域,那么一定會(huì)有向后的連接。這些科學(xué)家們?cè)谄溆猛旧蠎延胁煌挠^點(diǎn)。有人認(rèn)為這可能是為了關(guān)注,可能是為了學(xué)習(xí),也可能是為了重建。或者它可能包括所有這些可能性。
NT:所以我們并不知道向后溝通是什么。您正在將重構(gòu)組合進(jìn)您構(gòu)建的神經(jīng)網(wǎng)絡(luò)(或向后溝通)中,即使我們不能夠確定那就是大腦的運(yùn)作方式?
GH:是的。
NT:這不是作弊嗎?我的意思是,你是想做一個(gè)與大腦一樣的東西,但你目前壓根不知道大腦是如何運(yùn)作的。
GH:并不是。我不是在做計(jì)算神經(jīng)科學(xué)。我也不是想模擬大腦的運(yùn)作方式。我其實(shí)是被大腦激發(fā)靈感,說(shuō)“這玩意能用,如果我們想做些什么類(lèi)似有效的東西,我們應(yīng)該從這里來(lái)找靈感。“。
所以這是”神經(jīng)啟發(fā)“,而不是神經(jīng)模型。整個(gè)模型,包括我們使用的神經(jīng)元,都是受到神經(jīng)元有很多層聯(lián)系并且此聯(lián)系的強(qiáng)度能夠被改變這一事實(shí)的啟發(fā)。
NT:這很有趣。那么如果我從事計(jì)算機(jī)科學(xué),而且我正在研究神經(jīng)網(wǎng)絡(luò)并想要擊敗你,那么一種選擇就是建立自上而下的溝通機(jī)制,并將其建立在其他腦科學(xué)模型上。所以是基于學(xué)習(xí)而不是重建。
GH:如果他們確實(shí)是更好的模型那么你就贏了。就這樣。
NT:那真是非常有趣。讓我們轉(zhuǎn)到更一般的話(huà)題吧。這么說(shuō)來(lái),神經(jīng)網(wǎng)絡(luò)將能夠解決各種問(wèn)題。那么有沒(méi)有神經(jīng)網(wǎng)絡(luò)無(wú)法捕獲的人類(lèi)大腦的奧秘?例如,情緒......
GH:不。
NT:那么愛(ài)可以通過(guò)神經(jīng)網(wǎng)絡(luò)重建嗎?意識(shí)可以重建嗎?
GH:當(dāng)然。一旦你弄明白這些東西意味著什么。我們是神經(jīng)網(wǎng)絡(luò),對(duì)吧?意識(shí)是我特別感興趣的東西。沒(méi)有它我還是能活下來(lái),但......人們并不真正知道它們的含義。有各種不同的定義。我認(rèn)為這是一個(gè)非常科學(xué)的術(shù)語(yǔ)。100年前,如果你問(wèn)人們什么是生活,他們會(huì)說(shuō),“生物有生命力,當(dāng)它們死亡時(shí),生命力消失了。這就是活著和死亡之間的區(qū)別,即你是否具有生命力。
“現(xiàn)在我們不再有生命力這一表述了,我們只是認(rèn)為這是一個(gè)科學(xué)發(fā)展前的偽概念。一旦你學(xué)習(xí)一些生物化學(xué)和分子生物學(xué),你就不再需要生命力這一解釋了,你將能夠理解它是如何運(yùn)作的。我認(rèn)為這與意識(shí)相同。我認(rèn)為意識(shí)是一種用某種特殊本質(zhì)來(lái)解釋心理現(xiàn)象的嘗試。
而這個(gè)特殊的本質(zhì),你其實(shí)并不需要它。一旦你能夠真正解釋它,那么你將能夠解釋我們?nèi)绾巫龀瞿切┳屓藗冋J(rèn)為我們具有意識(shí)的行為,你也將能夠解釋所有這些不同的意識(shí)含義——完全不需要借助于什么‘意識(shí)’這一概念。
NT:所以沒(méi)有無(wú)法創(chuàng)造的情感?無(wú)法創(chuàng)造的思想?一旦我們真正理解了大腦是如何工作的,那么在理論上,人腦所有的功能都能夠被一個(gè)完整構(gòu)造的神經(jīng)網(wǎng)絡(luò)所執(zhí)行?
GH:約翰列儂有一首歌,聽(tīng)起來(lái)很像你剛才所說(shuō)的情況。
NT:你對(duì)此有100%的信心嗎?
GH:不,我是貝葉斯派,所以我有99.9%的自信心。
NT:好的,那0.1是什么?
GH:那是說(shuō),比如,我們所有人、所有這些都是一個(gè)龐大模擬的一部分。
NT:那倒是不假。那么我們從計(jì)算機(jī)工作中學(xué)到了什么呢?
GH:所以我認(rèn)為我們?cè)谶^(guò)去十年中所學(xué)到的是,如果你采用一個(gè)具有數(shù)十億個(gè)參數(shù)的系統(tǒng),以及一個(gè)目標(biāo)函數(shù)——就像用文字填補(bǔ)空白一樣——它將能夠比你預(yù)期的更加完美地運(yùn)行。您可能會(huì)想到(傳統(tǒng)AI學(xué)派中的大多數(shù)人也都會(huì)這么想),采用具有十億個(gè)參數(shù)的系統(tǒng),用隨機(jī)值啟動(dòng)它們,測(cè)量目標(biāo)函數(shù)的梯度(即對(duì)于每個(gè)參數(shù),如果你稍微改變一下這個(gè)參數(shù),看目標(biāo)函數(shù)將如何變化)——然后在改善目標(biāo)函數(shù)的方向上改變它。
你可能會(huì)覺(jué)得這將是一種陷入困境的無(wú)望算法。但事實(shí)證明,這是一個(gè)非常好的算法。你越將其規(guī)模擴(kuò)大,它就越好。這真的只是一個(gè)實(shí)踐上的發(fā)現(xiàn)。確實(shí)有一些相關(guān)理論出現(xiàn),但它基本上算是一個(gè)實(shí)踐發(fā)現(xiàn)。現(xiàn)在,因?yàn)槲覀円呀?jīng)發(fā)現(xiàn)了這一點(diǎn),它使得”大腦計(jì)算某些目標(biāo)函數(shù)的梯度,并更新突觸強(qiáng)度的權(quán)重以遵循該梯度“這一猜想更加合理。我們只需弄清楚它如何進(jìn)行降級(jí),以及目標(biāo)函數(shù)是什么。
NT:但我們當(dāng)時(shí)對(duì)大腦并不了解吧?我們并不了解重新加權(quán)?
GH:這曾是一個(gè)理論。很久以前,人們認(rèn)為這是一種可能性。但總會(huì)有一些傳統(tǒng)的計(jì)算機(jī)科學(xué)家說(shuō):“這一切都是隨機(jī)的,你只需通過(guò)梯度下降來(lái)學(xué)習(xí)它——這對(duì)于十億個(gè)參數(shù)來(lái)說(shuō)永遠(yuǎn)不會(huì)有用。你必須掌握很多知識(shí)。“我們現(xiàn)在知道這是錯(cuò)的;你可以隨便輸入起始參數(shù),并學(xué)習(xí)一切。
NT:所以讓我們把它擴(kuò)展一下。當(dāng)我們?cè)谀P蜕线\(yùn)行這些大規(guī)模測(cè)試時(shí),根據(jù)我們對(duì)人類(lèi)大腦功能的理解,我們可能會(huì)繼續(xù)越來(lái)越多地了解大腦實(shí)際上是如何運(yùn)作的。你認(rèn)為這會(huì)最終導(dǎo)致這樣一種情形嗎——我們將人類(lèi)大腦重新連接成更高效的機(jī)器?
GH:如果我們真的了解現(xiàn)狀,我們應(yīng)該能夠讓教育工作變得更好。我覺(jué)得我們會(huì)的。如果你最終能夠了解你的大腦中發(fā)生了什么并且它如何進(jìn)行學(xué)習(xí),但你卻無(wú)法為更好進(jìn)行學(xué)習(xí)而適應(yīng)環(huán)境,那真的是非常奇怪。
NT:未來(lái)幾年內(nèi),您認(rèn)為我們將如何利用我們對(duì)大腦的了解以及深度學(xué)習(xí)改變教育的運(yùn)作方式?您會(huì)怎么改變教學(xué)課程?
GH:幾年后,我不確定我們會(huì)學(xué)到多少東西。我認(rèn)為改變教育的時(shí)間會(huì)被拖長(zhǎng)。但是你可以看到現(xiàn)在的(機(jī)器人)助手正在變得越來(lái)越聰明。一旦它們能夠真正理解對(duì)話(huà),就可以與孩子進(jìn)行對(duì)話(huà)并對(duì)他們進(jìn)行教育。
NT:理論上,當(dāng)我們更好地理解大腦時(shí),你會(huì)根據(jù)我們知道他們將要學(xué)習(xí)的方式,讓助手們與孩子們進(jìn)行更好的對(duì)話(huà)。
GH:是的,我對(duì)此并沒(méi)有太多考慮。這不是我的研究?jī)?nèi)容,但聽(tīng)起來(lái)確實(shí)很可信。
NT:我們將能夠理解夢(mèng)是如何運(yùn)作的嗎?
GH:是的,我對(duì)夢(mèng)超級(jí)感興趣。我至少有四種不同的做夢(mèng)理論哦。
NT:讓我們聽(tīng)一聽(tīng)唄,一,二,三,四。
GH:很久以前,有一些叫做Hopfield網(wǎng)絡(luò)的東西,它們把記憶當(dāng)做本地吸引子來(lái)學(xué)習(xí)。Hopfield發(fā)現(xiàn),如果你試圖把太多的記憶放進(jìn)去,它們就會(huì)感到困惑。它們會(huì)把兩個(gè)本地吸引子同時(shí)考慮進(jìn)來(lái)并將其合并為二者之間的某種吸引子。
然后,F(xiàn)rancis Crick 和Graeme Mitchison發(fā)現(xiàn),我們可以通過(guò)”忘卻“來(lái)擺脫這些假極小值。因此我們關(guān)閉輸入,將神經(jīng)網(wǎng)絡(luò)置于隨機(jī)狀態(tài),然后讓它穩(wěn)定下來(lái)。我們覺(jué)得這很糟糕,改變連接,這樣你就不會(huì)一直穩(wěn)定于那個(gè)狀態(tài)。如果你這么做了的話(huà),網(wǎng)絡(luò)就能夠存儲(chǔ)更多的記憶了。
然后我和Terry Sejnowski反應(yīng)過(guò)來(lái):如果我們不僅有幫助儲(chǔ)存記憶的神經(jīng)元(姑且稱(chēng)之為名花有主的神經(jīng)元),我們還有一些其他富余的神經(jīng)元(姑且稱(chēng)之為形同單身的神經(jīng)元),我們是否能夠找到一種算法,能讓這些富余的神經(jīng)元也來(lái)協(xié)助存儲(chǔ)記憶?
最后,我們想出了Boltzmann機(jī)器學(xué)習(xí)算法,它有著非常有趣的屬性:輸入數(shù)據(jù),它在其他節(jié)點(diǎn)周?chē)鷵u搖晃晃,玩到開(kāi)心為止。一旦完成,它會(huì)基于兩個(gè)單元節(jié)點(diǎn)是否處于激活(active)狀態(tài)來(lái)增加所有連接的強(qiáng)度。
你還必須歷經(jīng)一個(gè)階段:切斷神經(jīng)元的輸入,你讓它四處游蕩并進(jìn)入一個(gè)它滿(mǎn)意的狀態(tài),當(dāng)它玩爽了,你說(shuō):“把所有的活躍分子(激活的神經(jīng)元)逮出來(lái)不讓它們坐一塊(減弱連接強(qiáng)度)”。
所以這里我這里在介紹玻爾茲曼算法的步驟。但實(shí)際上,這個(gè)算法背后有著深厚的數(shù)學(xué)背景,你在處理的問(wèn)題,無(wú)非是如何改變連接關(guān)系,使得有著這些隱藏單元(hidden unit)的神經(jīng)網(wǎng)絡(luò)能夠清楚地復(fù)現(xiàn)數(shù)據(jù)。同時(shí),這個(gè)算法中,必須還有另一個(gè)階段,我們稱(chēng)之為負(fù)面階段。在網(wǎng)絡(luò)沒(méi)有輸入的情況下運(yùn)行時(shí),它會(huì)“忘記”之前所有的狀態(tài)。
我們每晚都要做好幾個(gè)小時(shí)的夢(mèng)。如果我隨機(jī)叫醒你,你可以告訴我你剛剛夢(mèng)到了什么,因?yàn)閴?mèng)的信息都儲(chǔ)存在你的短時(shí)記憶力。沒(méi)錯(cuò),你做了好幾個(gè)小時(shí)的夢(mèng)。
但是當(dāng)你早上醒來(lái)時(shí),你經(jīng)常只能回憶起一串夢(mèng)中的最后一夢(mèng),別的都想不起來(lái)了——這是件多么幸運(yùn)的事情啊,因?yàn)閴?mèng)的記憶越多,現(xiàn)實(shí)的記憶也會(huì)越少,你會(huì)無(wú)法分辨一段模糊的記憶究竟是真實(shí)發(fā)生的,還是夢(mèng)里浮現(xiàn)的。那么,為什么我們不能夠記得我們夢(mèng)里發(fā)生的所有事情呢?Crick的觀點(diǎn)是,夢(mèng)的全部意義在于忘掉那些事情,這就如同你把所有學(xué)過(guò)的東西都還給老師了。
而Terry Sejnowski和我證明,實(shí)際上,這便是Boltzmann機(jī)器的最大似然的(maximum-likelihood)學(xué)習(xí)邏輯。這和做夢(mèng)一樣。
NT:我想談?wù)勀愕钠渌碚摗5悄阍谠O(shè)計(jì)深度學(xué)習(xí)算法時(shí),真的基于了夢(mèng)的模式嗎?研究圖像數(shù)據(jù)集一段時(shí)間,重置,再次研究,再重置。
GH:是的,我們有些類(lèi)似的機(jī)器學(xué)習(xí)算法。最早一些可以學(xué)習(xí)如何處理隱藏單元的算法都是基于Boltzmann機(jī),但是它們效率很低。不過(guò),我發(fā)現(xiàn)了一種對(duì)它們進(jìn)行近似的方法,提高了它們的效率。這個(gè)方法才是把深度學(xué)習(xí)救回正軌的東西。那個(gè)方法就是限制性Boltzmann機(jī)的有效表述形式,它所做的,就是忘記學(xué)習(xí)過(guò)的一切。但是,這個(gè)神經(jīng)網(wǎng)絡(luò)不是真的在全程睡覺(jué)劃水,它只是在運(yùn)算完每個(gè)數(shù)據(jù)點(diǎn)之后,小小地走神一下。
NT:好的吧,所以這些機(jī)器人會(huì)做夢(mèng),夢(mèng)里還在數(shù)山羊。我們接著來(lái)看看第二,第三和第四條理論吧。
GH:第二理論被稱(chēng)為睡眠喚醒算法(Wake Sleep Algorithm)。你的目的,是得到一個(gè)生成模型。所以你會(huì)想到,你想擁有一個(gè)可以生成數(shù)據(jù)的模型,這個(gè)網(wǎng)絡(luò)模型里有著多層的特征檢測(cè)器,并能夠從高到低激活從高級(jí)到低級(jí)的特征,直到它直接激活了像素?cái)?shù)據(jù)(輸入數(shù)據(jù))——像素?cái)?shù)據(jù)就是圖片的基本表述方式。你也當(dāng)然想反向開(kāi)車(chē),你想做圖像識(shí)別。
因此,你就有了一個(gè)由兩個(gè)階段組成的算法。在喚醒階段,數(shù)據(jù)輸入,神經(jīng)網(wǎng)絡(luò)做圖像識(shí)別,不是學(xué)習(xí)用于識(shí)別的連接,而是學(xué)習(xí)生成連接。 所以數(shù)據(jù)進(jìn)來(lái),我激活了隱藏單位。
然后我學(xué)會(huì)讓那些隱藏的單位善于重構(gòu)那些數(shù)據(jù),因此它正在學(xué)習(xí)在每一層進(jìn)行重構(gòu)。問(wèn)題在于,你如何學(xué)習(xí)前向連接?我的想法是,如果你知道前向連接,你可以學(xué)習(xí)后向連接,因?yàn)槟憧梢詫W(xué)習(xí)重建。
現(xiàn)在,事實(shí)證明,如果使用后向連接,你可以學(xué)習(xí)前向連接,因?yàn)槟憧梢詮捻敳块_(kāi)始生成一些數(shù)據(jù)。由于你生成了數(shù)據(jù),你知道了所有隱藏層的激活狀態(tài),因此您可以學(xué)習(xí)前向連接來(lái)恢復(fù)這些狀態(tài)——這就是睡眠階段。當(dāng)你停止輸入時(shí),你只需生成數(shù)據(jù),然后嘗試重建生成數(shù)據(jù)的隱藏單位。因此,如果你了解了自上而下的連接,你也將學(xué)習(xí)自下而上的連接。
如果你知道自下而上的那些連接,你會(huì)學(xué)到自上而下的連接。(譯者:個(gè)人理解,假想模型神經(jīng)網(wǎng)絡(luò)前向傳播是一套權(quán)值,反向傳播是另外一套權(quán)值,其一可知其二。)那么,如果你從隨機(jī)的連接開(kāi)始,并嘗試交替使用兩者,會(huì)發(fā)生什么呢?嘿,居然真的還能用。當(dāng)然,為了更好的效果,你必須做各種調(diào)整,但是交替使用確實(shí)能用。
NT:好的吧,那你準(zhǔn)備介紹一下另外2個(gè)理論嗎?我們還有8分鐘,是不是也許我們先問(wèn)其他的問(wèn)題?
GH:如果你再給我一個(gè)小時(shí),我就能把另外2個(gè)家伙搞出來(lái)。
NT:好的吧,那我們還是來(lái)談?wù)勏乱粋€(gè)話(huà)題吧。你接下來(lái)的研究是什么?你現(xiàn)在準(zhǔn)備解決什么問(wèn)題?
GH:你最終想做的,還是那些你沒(méi)有完成的事情。我認(rèn)為我可能會(huì)研究我從未完成的事情,我稱(chēng)之為膠囊網(wǎng)絡(luò),它是關(guān)于如何使用重構(gòu)進(jìn)行視覺(jué)感知的理論,以及如何將信息規(guī)劃到正確的位置。在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)中,信息,網(wǎng)絡(luò)層的活性,只是自動(dòng)地存儲(chǔ);你不能決定將它們發(fā)送到哪里。膠囊網(wǎng)絡(luò)的理念是決定在哪里發(fā)送信息。
現(xiàn)在,自從我開(kāi)始研究膠囊網(wǎng)絡(luò)以來(lái),谷歌的其他一些非常聰明的人發(fā)明了transformer,transformer正在做和膠囊網(wǎng)絡(luò)同樣的事情。transformer決定在哪里路由信息,這是一個(gè)巨大的突破。
推動(dòng)膠囊網(wǎng)絡(luò)發(fā)展的另一動(dòng)力是坐標(biāo)系。當(dāng)人類(lèi)使用視覺(jué)時(shí),他們是在使用坐標(biāo)系的。如果它們?cè)趯?duì)象上使用了錯(cuò)誤的坐標(biāo)系,那么他們甚至無(wú)法識(shí)別該對(duì)象。給你舉一個(gè)小栗子:想象一個(gè)四面體;它有一個(gè)三角形底座和三個(gè)三角形面,所有等邊三角形。容易想象,對(duì)嗎?現(xiàn)在想象一下用一個(gè)平面把它切開(kāi)——你看到了一個(gè)正方形截面。
這就不容易想到這個(gè)對(duì)象其實(shí)是個(gè)四面體了吧,對(duì)吧?每次切片時(shí),你通常都會(huì)得到一個(gè)三角形的截面。如何獲得一個(gè)正方形的截面,并不好想。不,可能這一點(diǎn)都不好想。好的,但我會(huì)幫你得到這個(gè)詭異的形狀。我需要你的筆。想象一下,如果你拿這樣的筆,你會(huì)得到這樣的形狀,另一支像這樣的直角筆,你將這支筆上的所有點(diǎn)連接到這支筆上的所有點(diǎn)。那是一個(gè)堅(jiān)實(shí)的四面體。
好的,你看到它其實(shí)是另外一套坐標(biāo)系,四面體的邊緣,這兩條線(xiàn)和坐標(biāo)系的標(biāo)線(xiàn)重合。如果你用那一套坐標(biāo)系想象一個(gè)四面體,很明顯,這樣,在頂部你有一個(gè)長(zhǎng)方形,在底部我們也得到一個(gè)長(zhǎng)方形,中間有一個(gè)正方形。所以現(xiàn)在很清楚了,你如何切割它能夠得到一個(gè)正方形的截面,前提是你參考的是什么坐標(biāo)系。
因此很明顯,對(duì)于人類(lèi)而言,坐標(biāo)框架對(duì)于感知非常重要。
NT:但是你是如何在你的模型中加入?yún)⒖枷敌畔⒌哪兀课业囊馑际牵闶侨绾胃恼四阍?990年代犯的錯(cuò)誤:嘗試把規(guī)則帶入系統(tǒng)中卻使之與系統(tǒng)非監(jiān)督學(xué)習(xí)的本質(zhì)產(chǎn)生矛盾?
GH:你對(duì)這個(gè)錯(cuò)誤的總結(jié)非常到位。我太固執(zhí)了以致于這變成了一個(gè)大錯(cuò)誤,我現(xiàn)在就想彌補(bǔ)一點(diǎn)過(guò)失。這有點(diǎn)像尼克松總統(tǒng)當(dāng)年與中國(guó)談判一樣。實(shí)際上,我在這個(gè)事情上,發(fā)揮了不好的作用。
NT:所以你現(xiàn)在的工作主要是針對(duì)于視覺(jué)識(shí)別,還是可以看做提高當(dāng)前坐標(biāo)系規(guī)則的研究?
GH:這個(gè)技術(shù)當(dāng)然能用在其他領(lǐng)域里,但是我的興趣主要在于怎么把它用在視覺(jué)識(shí)別上。
NT:深度學(xué)習(xí)曾經(jīng)是一個(gè)獨(dú)特的東西,我的意思是,深度學(xué)習(xí)是深度學(xué)習(xí),人工智能是人工智能(AI)。現(xiàn)在,深度學(xué)習(xí)變成了AI的同義詞,同時(shí)現(xiàn)在AI變成了熱門(mén)的營(yíng)銷(xiāo)術(shù)語(yǔ),基本上意味著以某些方式驅(qū)動(dòng)機(jī)器。作為幫助創(chuàng)建這一術(shù)語(yǔ)的人,您是如何看待這個(gè)現(xiàn)象的?
GH:曾幾何時(shí),人工智能,意味著邏輯主義/符號(hào)主義,研究人員用計(jì)算機(jī)的符號(hào)字符串模擬人類(lèi)的認(rèn)知。還有神經(jīng)網(wǎng)絡(luò),就意味著你在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。不同的企業(yè),不同的學(xué)派,百家爭(zhēng)鳴,大放異彩。這就是我當(dāng)年成長(zhǎng)的環(huán)境。而現(xiàn)在我看到好多人一邊常年一直在說(shuō)神經(jīng)網(wǎng)絡(luò)就是廢物,一邊又在說(shuō)“我是人工智能專(zhuān)業(yè)的教授,我需要錢(qián)”。這就很煩人。
NT:嗯,我還有時(shí)間,就再問(wèn)一個(gè)問(wèn)題。在一次采訪(fǎng)中,談到人工智能,你說(shuō),好吧,把它想象成一個(gè)反鏟——一個(gè)可以挖坑的機(jī)器,用的不好就會(huì)傷到自己。解決問(wèn)題的關(guān)鍵是,當(dāng)你準(zhǔn)備使用反鏟作業(yè)時(shí),要好好看著準(zhǔn)備挖坑的鏟子和自己的一畝三分地,不要讓鏟子碰了腦袋。 對(duì)于你的工作而言,你做出的什么選擇和這個(gè)例子很接近?
GH:我猜我永遠(yuǎn)不會(huì)主動(dòng)應(yīng)用人工智能技術(shù)制造武器。我的意思是,你的確可以設(shè)計(jì)出功于殺戮的反鏟。但是我覺(jué)得這一定是反鏟最差勁的應(yīng)用了,我永遠(yuǎn)不會(huì)干這事的。
NT:好的,Geoffrey Hinton。這真是一場(chǎng)令人印象深刻的訪(fǎng)談。滿(mǎn)滿(mǎn)的都是干貨。我們“明年”還會(huì)回來(lái)的——帶著第三和第四的“做夢(mèng)”理論。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100713 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238247 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121111
原文標(biāo)題:Geoffrey Hinton專(zhuān)訪(fǎng):如何解釋神經(jīng)網(wǎng)絡(luò)的變遷
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論