耶路撒冷號(hào)稱三教圣地, 而它的牛逼之處絕不僅在于宗教, 如果你深入了解, 你會(huì)發(fā)現(xiàn)它的科學(xué),尤其是理論創(chuàng)新也同樣牛逼, 尤其是在腦科學(xué)和人工智能方向。 當(dāng)然神族人不是特別關(guān)心最接地氣的問題, 而是更關(guān)注形而上的理論框架。 耶路撒冷的腦與深度學(xué)習(xí)會(huì)就是這樣一個(gè)杰出的體現(xiàn)。
深度學(xué)習(xí)有關(guān)的核心會(huì)議, 從NIPS到ICLR 我們都不會(huì)陌生, 這些會(huì)議對(duì)深度學(xué)習(xí)在人工智能的應(yīng)用極為相關(guān)。 耶路撒冷的這個(gè)會(huì)議與之不同的是, 它非常關(guān)注深度學(xué)習(xí)與腦的交叉領(lǐng)域, 關(guān)注它們背后共同的指導(dǎo)理論, 在這點(diǎn)上也算是獨(dú)樹一幟。因?yàn)樵诖蠹颐τ谧鰬?yīng)用主題的時(shí)候, 其實(shí)更需要有一些人其思考背后的理論,即使這樣的思考在一個(gè)時(shí)間里不會(huì)馬上促進(jìn)應(yīng)用, 但是在更長(zhǎng)遠(yuǎn)的時(shí)間里, 卻可能把應(yīng)用推向一個(gè)遠(yuǎn)高于現(xiàn)在的平衡點(diǎn)。就像人類在了解牛頓定律以前就能夠建造各種各樣的橋梁。有人可能會(huì)說我們不需要牛頓定律, 而實(shí)際上他們沒有看到我們有了牛頓定律后所造的橋根本不是一種橋, 不是石拱橋,或者獨(dú)木橋,而是跨海大橋。 好了,我們直接來(lái)說正事, 來(lái)總結(jié)下會(huì)議里一些有趣的內(nèi)容。
腦與深度學(xué)習(xí)的關(guān)系本來(lái)就是一個(gè)高度雙向的主題, 這個(gè)會(huì)議圍繞以下幾個(gè)核心問題:
1 深度學(xué)習(xí)的基礎(chǔ)理論, 深度學(xué)習(xí)為何work又為何不work?
2 如何從心理學(xué)和認(rèn)知科學(xué)的角度歸納當(dāng)下深度學(xué)習(xí)的不足?
3 如何用深度學(xué)習(xí)促進(jìn)對(duì)人腦的理解,包含感知(視覺為主), 認(rèn)知與記憶。 反過來(lái)如何促進(jìn)AI?
會(huì)議最大的一個(gè)板塊, 在于對(duì)深度學(xué)習(xí)理論的剖析, 這個(gè)板塊可謂大牛云集, 從信息瓶頸理論的創(chuàng)始人Tshiby 到 MIT的 Tomaso Poggio, 從牛津的Andrew Saxe到MIT的Daniel Lee, 都表達(dá)了自己的核心觀點(diǎn), 問題圍繞的一個(gè)主線就是深度學(xué)習(xí)的泛化能力 。
我們把這個(gè)問題分成兩個(gè)子問題:
深度學(xué)習(xí)的泛化能力為什么那么好?大家知道深度學(xué)習(xí)理論的第一個(gè)謎團(tuán)就是一個(gè)大的網(wǎng)絡(luò)動(dòng)輒百萬(wàn)參數(shù), 而能夠泛化的如此之好, 這是非常不符合貝卡母剃刀原理的(解決同樣的問題簡(jiǎn)單的模型更好),更加作妖的是, 這種泛化能力往往隨著參數(shù)的繼續(xù)增加而增強(qiáng)。 這到底是為什么? 幾個(gè)不同的流派從不同的角度回答了這個(gè)問題。
1, 信息流派:從信息論的角度分析深度學(xué)習(xí), Tshiby是該流派的集大成者,也是此次的發(fā)言者。 他的核心觀點(diǎn)是從把深度網(wǎng)絡(luò)理解為一個(gè)信息管道, 數(shù)據(jù), 就是入口的原油 ,里面富集了我們可以預(yù)測(cè)未來(lái)的信息, 那么這個(gè)深度網(wǎng)絡(luò), 就是首先要把輸入數(shù)據(jù)里那些相關(guān)性最高的成分給把握住, 然后再一步步的把我們與預(yù)測(cè)信息無(wú)關(guān)的東西給剔除, 最后得到一個(gè)與預(yù)測(cè)對(duì)象而非輸入數(shù)據(jù)極為相關(guān)的表征。 深度學(xué)習(xí)的泛化能力, 在于層數(shù)越深, 這種對(duì)無(wú)關(guān)信息的抽離的效率就越高, 因?yàn)殡S機(jī)梯度下降的訓(xùn)練過程, 每層的網(wǎng)絡(luò)權(quán)重都在做一個(gè)隨機(jī)游走, 越高的層 ,就越容易忘記那些與預(yù)測(cè)無(wú)關(guān)的特征, 層數(shù)越多, 這個(gè)過程其實(shí)就越快,我們能夠在控制梯度消失的同時(shí)擁有更多的層, 會(huì)使我們?cè)娇斓陌l(fā)現(xiàn)那個(gè)與預(yù)測(cè)相關(guān)的不變的特征本質(zhì)。
信息瓶頸理論, 深度網(wǎng)絡(luò)作為信息抽取的管道。
2, 幾何流派:這是Daniel D Lee 的talk 。從Manifold learning的角度理解 , 深度學(xué)習(xí)的“類" 對(duì)應(yīng)一個(gè)在高維空間里得到一個(gè)低維流形,。這一個(gè)高, 一個(gè)低, 就是深度能力泛化能力的源泉。 這個(gè)觀點(diǎn)的核心起源可以追溯到SVM的max margin solution。 在SVM的世界, 首先我們可以用增加維度的方法把兩堆在低維世界混合分不開的點(diǎn)投影到高維空間, 它們就清楚的分割開來(lái)。 然后我們用最大間隔來(lái)做限制,讓這兩堆點(diǎn)分的盡可能開, 就可以避免過擬合。
這個(gè)做法的本質(zhì)首先用維度增加增強(qiáng)模型的容量, 然后在模型有了更高容量后我們當(dāng)然也更容易過擬合。但是我們可以用最大間隔盡可能把數(shù)據(jù)”打“到一起, 事實(shí)上讓每個(gè)類數(shù)據(jù)分布的維度盡可能低,這就可以避免過擬合。在深度學(xué)習(xí)的世界里, 我們每層網(wǎng)絡(luò)都把之前的數(shù)據(jù)映射到一個(gè)新的流型里, 最簡(jiǎn)單的假設(shè)就是一個(gè)球體。比如貓和狗的分類, 就是兩個(gè)球體, 一個(gè)貓星, 一個(gè)狗星。 在一個(gè)同樣的高維空間里, 這兩個(gè)球的維度越小, 半徑越小, 就越容易把它們分開,而且可以分的類越多。 隨著深度網(wǎng)絡(luò)的層數(shù)變深, 這個(gè)趨勢(shì)恰恰是每個(gè)球的維度越低,半徑越小。 如果不同類型的圖像對(duì)應(yīng)不同的球,層數(shù)越深, 就越容易給它們分開。這個(gè)觀點(diǎn)的內(nèi)在事實(shí)上和Tshiby的信息瓶頸有異曲同工處, 大家體會(huì)下, 那個(gè)小球的維度越低是不是在抓取數(shù)據(jù)里的不變性。
幾何學(xué)派, 貓星和狗星的分離
幾何流派, 高維空間的低維流型隨著層數(shù)變深的變化
3, 動(dòng)力學(xué)流派 :高維空間非線性優(yōu)化的本質(zhì)是這種優(yōu)化隨著維度增長(zhǎng)效率增加。 這是牛津那位仁兄Andrew Saxe的talk 。 牛津例來(lái)是深度學(xué)習(xí)的陣地, 理論當(dāng)然當(dāng)仁不讓。 這個(gè)talk從非線性優(yōu)化的角度揭示了深度學(xué)習(xí)泛化的本質(zhì)。 網(wǎng)絡(luò)訓(xùn)練的過程, 事實(shí)上是高維空間上一個(gè)尋找動(dòng)力學(xué)定點(diǎn)(全局最優(yōu))的過程, 每時(shí)每刻,梯度下降的方向是由當(dāng)下x和y的相關(guān)性和x和x的自相關(guān)性決定的。 當(dāng)優(yōu)化進(jìn)行到定點(diǎn)(最優(yōu)點(diǎn))附近時(shí)候, 這個(gè)相關(guān)性信息開始減少, 網(wǎng)絡(luò)開始對(duì)數(shù)據(jù)里的噪聲敏感, 因此我們需要早停法來(lái)減少過擬合。 但是, 如果我們的網(wǎng)絡(luò)足夠大,甚至這個(gè)早停都不必要我們無(wú)需提防這種擬合噪聲帶來(lái)的過擬合。 取得這個(gè)結(jié)論需要非常復(fù)雜的線性代數(shù), 同學(xué)們可以參考論文High-dimensional dynamics of generalization error in neural network
會(huì)議的另一個(gè)部分talk,圍繞深度學(xué)習(xí)的泛化能力為何如此之差, 這不是互相矛盾嗎?此泛化非彼泛化也。
1, 先天的偏見與推理的無(wú)知
先驗(yàn)誤差導(dǎo)致的失靈: 希伯來(lái)大學(xué)的Shai Shalev 深度網(wǎng)絡(luò)可以戰(zhàn)勝圍棋這樣牛逼的游戲, 然而你想不想的到, 它可能在學(xué)習(xí)乘法表的時(shí)候都會(huì)出錯(cuò)? 這個(gè)talk講解了讓深度網(wǎng)絡(luò)學(xué)習(xí)并泛化一個(gè)乘法表, 然后看在測(cè)試集上它是怎么表現(xiàn)得。 非常有趣的是 ,雖然深度網(wǎng)絡(luò)在訓(xùn)練集上表現(xiàn)完美, 在測(cè)試集上出現(xiàn)了讓人恥笑的系統(tǒng)誤差, 說明它還真的不如一個(gè)小孩子的學(xué)習(xí)能力。 這突出了反應(yīng)了深度統(tǒng)計(jì)學(xué)習(xí)依然無(wú)法繞過統(tǒng)計(jì)學(xué)習(xí)固有的缺陷, 就是缺少真正的推理能力。 而這種系統(tǒng)誤差背后的原因, 是網(wǎng)絡(luò)內(nèi)在的inductive bias, 這就好像網(wǎng)絡(luò)自己就帶著某種先天的偏見, 我們卻對(duì)它茫然無(wú)知。
深度學(xué)習(xí)學(xué)乘法出現(xiàn)的難以忍受的系統(tǒng)誤差
另一個(gè)驚人的talk來(lái)自于Montreal University的Anron Courville。 他圍繞一個(gè)深度學(xué)習(xí)的當(dāng)紅應(yīng)用領(lǐng)域VAQ -視覺看圖回答問題展開。 這個(gè)框架的核心在于讓深度網(wǎng)絡(luò)看圖, 回答一個(gè)有關(guān)圖像的問題, 比如圖像里有幾把桌子幾把椅子這種。 我們關(guān)鍵考察那些需要一點(diǎn)推理能力才能回答的問題, 比如回答完了圖像里有幾個(gè)桌子,有什么顏色的椅子后, 問它圖像里有什么顏色的桌子。 如果這個(gè)網(wǎng)絡(luò)真的有泛化能力, 它就會(huì)回答這個(gè)問題。 事實(shí)上是我們所設(shè)計(jì)的超復(fù)雜的由CNN和LSTM組成的巨型網(wǎng)絡(luò)在這個(gè)問題面前舉步維艱。 它可以找到3張桌子或5張桌子, 但是很難把什么顏色的椅子里學(xué)到的東西遷移到桌子里正確回答出灰色的桌子。之后我們從工程學(xué)的原理設(shè)計(jì)了一個(gè)全新的結(jié)構(gòu)把這種推理能力人為的遷移進(jìn)去, 會(huì)使問題稍稍好轉(zhuǎn)。
視覺看圖回答問題
2, 你不知道的CNN那些缺陷:
1 CNN真是平移不變的嗎?Yair Weiss 希伯來(lái)大學(xué)計(jì)算機(jī)系的Dean給大家講解了CNN網(wǎng)絡(luò)最大的根據(jù)-平移不變性是錯(cuò)誤的。 我們知道CNN網(wǎng)絡(luò)建立的基礎(chǔ)是它模仿生物感受野的原理,建立了一個(gè)共享權(quán)值的網(wǎng)絡(luò)系統(tǒng) ,這樣不同位置的圖像部分, 會(huì)共享同一種特征偏好, 你的鼻子出現(xiàn)在圖像的頂端或下面都是鼻子。
而Yair Weiss卻想了一個(gè)方法, 證實(shí)了CNN, 哪怕你把圖像向上移動(dòng)了一個(gè)像素, 都可能造成它整個(gè)看法(分類)的變化。 這和那個(gè)在動(dòng)物臉上加噪聲看成其它動(dòng)物的實(shí)驗(yàn)類似, 證明了CNN的脆弱性,同時(shí)動(dòng)搖了平移不變的基礎(chǔ)。 一開始我也覺得是天方夜譚, 但是看了他的整個(gè)試驗(yàn)后開始稍稍信服。 事實(shí)上它證實(shí)了對(duì)于最早期的CNN-neocognitron , 平移不變的確是成立的。 但是對(duì)于”現(xiàn)代“CNN, Alexnet, VGG, ResNet, 這個(gè)性質(zhì)卻不再成立。 因?yàn)楝F(xiàn)代CNN在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)里,加入了大量的降采樣,比如池化, 這些在空間上離散的降采樣操作, 導(dǎo)致了一種驚人的脆弱性,就是平移不變的喪失。 當(dāng)然, 在實(shí)際應(yīng)用中, 它不夠成那么大的問題, 因?yàn)槟阌肋h(yuǎn)可以通過數(shù)據(jù)增強(qiáng)的方法, 來(lái)強(qiáng)化網(wǎng)絡(luò)里的這些不變性。
CNN居然不是平移不變的
2,CNN對(duì)細(xì)節(jié)的敏感與對(duì)輪廓的忽視。我們本來(lái)相信CNN對(duì)不同尺度的圖像特征,從細(xì)節(jié)紋理到圖像輪廓, 都會(huì)同樣器重并做出判斷。 而事實(shí)上, 來(lái)自德國(guó)Tubingen的Matthias Bethe, 給我們展示了CNN事實(shí)很可能把自己90%的判斷依據(jù),放在了細(xì)節(jié)和紋理上。 也就是說, 它也許可能精確的識(shí)別狗和貓,但是它或許真正基于的是狗毛和貓毛的區(qū)別做出的判斷。 如果你聯(lián)想一下那么在圖像里加入噪聲, CNN就可以把熊貓看成長(zhǎng)頸鹿的實(shí)驗(yàn), 就覺得這個(gè)想法還挺合理的。 它通過它的實(shí)驗(yàn)驗(yàn)證了它的這個(gè)理論。也就是用那套圖像特征遷移的網(wǎng)絡(luò), 把一個(gè)個(gè)圖片的紋理抽取, 或者更換掉, 雖然還是貓或者狗, 里面的紋理變了, 那個(gè)CNN就徹底傻掉了。 同時(shí)它還對(duì)比了人的認(rèn)知測(cè)試,看到了CNN的巨大差距。
CNN難道只對(duì)細(xì)節(jié)感興趣?
以上這些研究都暴露了CNN和人腦的區(qū)別。 即使是圖像識(shí)別這個(gè)目前AI做的最好的領(lǐng)域, 這個(gè)”人工智能“ 也顯得太”人工“ 了, 而與”智能“差距甚遠(yuǎn)。當(dāng)然Matthias通過強(qiáng)化對(duì)輪廓的訓(xùn)練識(shí)別, 可以讓它變得更像人一點(diǎn), 可以識(shí)別一定的整體特征, 然而這個(gè)時(shí)候?qū)傮w數(shù)據(jù)集的識(shí)別度會(huì)變得更差。到這里,可以說是從深度學(xué)習(xí)多么好,到了深度學(xué)習(xí)多么差, 我們畢竟還沒有掌握智能最核心的東西,包括符號(hào)推理這些, 也沒有具備真正的”泛化能力“ , 此處之后的幾個(gè)talk,就是圍繞這個(gè)智能的真正核心,探討人腦有多牛逼了。
腦科學(xué)與心理學(xué)角度的智能:
1, 有關(guān)表征學(xué)習(xí):
來(lái)自Princeton的Yael Niv講解了智能科學(xué)的核心-表征學(xué)習(xí)的幾個(gè)關(guān)鍵問題:首先什么是表征學(xué)習(xí), 表征學(xué)習(xí)的本質(zhì)概念是學(xué)習(xí)一個(gè)真實(shí)世界的神經(jīng)表示。它可能是從真實(shí)世界抽離出來(lái)的一些核心特征, 或者我們說的對(duì)真實(shí)世界的抽象, 而這里面,卻可以幫助我們大大增強(qiáng)我們舉一反三的學(xué)習(xí)能力。 比如說你被蛇咬了, 下一次出現(xiàn)運(yùn)動(dòng)的細(xì)長(zhǎng)生物你知道避開。 另一方面, 我們可以把任務(wù)根據(jù)當(dāng)下情景在大腦中重構(gòu)出來(lái), 比如都是討價(jià)還價(jià), 你碰到辣妹可能就沒有那么用力了,而是開始談笑風(fēng)聲起來(lái)。我們可以把從相似的任務(wù)里學(xué)到的經(jīng)驗(yàn)整合, 或者同一個(gè)經(jīng)驗(yàn)里學(xué)到的東西和不同的新的任務(wù)結(jié)合。
這些都依賴于我們大腦中一套靈活的對(duì)不同任務(wù)和事物的表征系統(tǒng)。 這個(gè)系統(tǒng)我們可以管它叫任務(wù)表征系統(tǒng)。Yael 講了這個(gè)任務(wù)表征系統(tǒng)的一些基本特性, 比如說貝葉斯證據(jù)整合,證據(jù)如何互相關(guān)聯(lián)和啟發(fā)(召喚), 并把這些研究和大量心理學(xué)測(cè)試聯(lián)系在一起。 這種對(duì)任務(wù)的極強(qiáng)的遷移學(xué)習(xí)能力, 可以從一個(gè)任務(wù)中的經(jīng)驗(yàn),關(guān)聯(lián)到一大堆任務(wù)的能力, 是得到更好的泛化能力, 甚至走向通用人工智能的一個(gè)關(guān)鍵步驟。 如何能夠通過學(xué)習(xí)得到這種可以遷移的任務(wù)表征也將成為重中之重。
表征學(xué)習(xí)-智能的核心
2, 有關(guān)人類記憶的研究:
來(lái)自哈佛醫(yī)學(xué)院的Anna Schapiro 講解了海馬記憶的兩個(gè)根本機(jī)制。 我們知道, 海馬是人和小鼠短期記憶, 情景記憶的載體。 在海馬體內(nèi)有兩種不同的記憶模式。 一個(gè)事短期的快速的記憶, 每個(gè)記憶由相互獨(dú)立的神經(jīng)元基團(tuán)表達(dá), 另一種是長(zhǎng)期的穩(wěn)固的, 某幾個(gè)記憶根據(jù)它們的共性共享大量的神經(jīng)元基團(tuán)。 在夜晚睡眠的時(shí)候, 我們白天記住的東西一部分會(huì)從短期轉(zhuǎn)向長(zhǎng)期,另一部分則會(huì)被遺忘。 有意思的是 , 誰(shuí)會(huì)被遺忘, 誰(shuí)會(huì)被增強(qiáng)呢?
事實(shí)上Anna的研究表明人腦有一種非常靈活的機(jī)制, 可以把那些重要的記憶篩選出來(lái),從短期區(qū)域走向長(zhǎng)期區(qū)域, 而一些不重要的就像被水沖過一樣遺忘掉。 這個(gè)機(jī)理可以由海馬體的一個(gè)網(wǎng)絡(luò)動(dòng)力模型理解。 同時(shí)這個(gè)研究還一定程度解開人類神經(jīng)編碼的方式。 那些長(zhǎng)期記住的事物為什么要共享神經(jīng)元基團(tuán)? 這是為了更有效的泛化, 一些類似的事物,或任務(wù),通過共享神經(jīng)元, 可以更好的提取共性, 預(yù)測(cè)和它們類似的東西。 反過來(lái)這也表明我們大腦內(nèi)的記憶很多可能是錯(cuò)誤的, 類似的東西之間會(huì)”相互污染“ ,這就是我們?yōu)槭裁唇?jīng)常會(huì)記混或記串。
兩種記憶承載的模式, 一種很獨(dú)立, 一種有重合。
海馬模型
最后一個(gè)模塊,就是圍繞人腦和深度學(xué)習(xí)的關(guān)系, 雖然我們的最終夢(mèng)想是把讓人腦牛逼的算法遷移到AI系統(tǒng), 但是第一步最容易實(shí)現(xiàn)的恰好是反過來(lái), 如何借助深度學(xué)習(xí)這個(gè)崛起的工具更好的挖掘人腦的原理。
對(duì)于這塊,來(lái)自斯坦福的Daniel L K Yamins 提出了一個(gè)非??岬难芯靠蚣埽?就是用reverse eigeerneering(逆向工程, 正是我導(dǎo)師的領(lǐng)域) 研究人腦的感知系統(tǒng)(視覺或聽覺皮層)。 對(duì)人腦視覺或聽覺回路進(jìn)行建模是我們一直的夢(mèng)想 ,整個(gè)計(jì)算神經(jīng)科學(xué), 圍繞如何用數(shù)學(xué)建模來(lái)理解這些現(xiàn)象 ,建立實(shí)驗(yàn)數(shù)據(jù)之間的聯(lián)系。然而建立這樣的模型異常復(fù)雜, 需要考慮的生物細(xì)節(jié)極為繁瑣。 現(xiàn)在, 深度學(xué)習(xí)的網(wǎng)絡(luò)給我們提供了極佳的工具去理解這些現(xiàn)象。我們的一個(gè)想法是用這些深度學(xué)習(xí)模型去學(xué)習(xí)具體任務(wù),等到它學(xué)會(huì)了我們?cè)傧敕▉?lái)理解它。 那我說你不還是搞一些toy model 給我嗎? 誰(shuí)信? 沒關(guān)系, 不是有實(shí)驗(yàn)數(shù)據(jù)嗎, 我們先讓它能做任務(wù), 再用它來(lái)擬合我們的實(shí)驗(yàn)數(shù)據(jù), 比如你先訓(xùn)練一個(gè)CNN來(lái)做圖像識(shí)別, 同時(shí)訓(xùn)練好后, 你想法讓這個(gè)CNN里的神經(jīng)元活動(dòng)能夠匹配從大腦視覺皮層得到的實(shí)驗(yàn)數(shù)據(jù), 這樣你就得到“生物版” CNN。為了確定它是一個(gè)真正的科學(xué), 而不是一種“形似”的騙術(shù), 我們會(huì)用這個(gè)生物版本的CNN提出一些新的現(xiàn)象預(yù)測(cè), 可以拿回到實(shí)驗(yàn)檢驗(yàn), 如果真的成立了, 這個(gè)用深度學(xué)習(xí)“構(gòu)建出來(lái)”的模型, 就可以得到一個(gè)我們目前階段最接近真實(shí)生物系統(tǒng)的模型。 你可以理解我們做了一個(gè)機(jī)器貓,它不僅能夠捉老鼠,而且各項(xiàng)生理指標(biāo)也和真貓差不多。
讓深度網(wǎng)絡(luò)和動(dòng)物看同樣的圖像,并把它們的內(nèi)部活動(dòng)聯(lián)系起來(lái)!
具體可以見Nature論文Using goal-driven deep learning models to understand sensory cortex。
這一類的工作還有一個(gè)talk是如何構(gòu)建一個(gè)CNN網(wǎng)絡(luò)理解人類的視網(wǎng)膜系統(tǒng),同樣的,這個(gè)網(wǎng)絡(luò)既有視覺信息的處理能力, 同時(shí)還能夠描述生物的神經(jīng)活動(dòng), 甚至可以預(yù)測(cè)一些生物視網(wǎng)膜特有的現(xiàn)象(如對(duì)未來(lái)運(yùn)動(dòng)信息的預(yù)測(cè))。這一類工作可以說打通了生物與工程, 雖然人工神經(jīng)網(wǎng)絡(luò)無(wú)論在單個(gè)神經(jīng)元還是在功能層面和神經(jīng)元活動(dòng)層面都獲取了類似于真實(shí)生物系統(tǒng)的特性, 我們又有多大可能認(rèn)為我們用這個(gè)方法理解大腦的真正工作機(jī)理, 這依然是一個(gè)仁者見仁 ,智能見智的過程。
最后, 關(guān)于所有人的夢(mèng)想, 把大腦的牛逼算法遷移到AI, 有一個(gè)talk頗有啟發(fā)。 它來(lái)自于斯坦福的Surya Ganguli,如何讓深度網(wǎng)絡(luò)生成語(yǔ)義結(jié)構(gòu):一個(gè)AI最根本的問題是如何溝通統(tǒng)計(jì)主義, 連接主義和符號(hào)主義的人工智能, 統(tǒng)計(jì)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)代表了前兩者的巔峰, 而早期活躍的符號(hào)主義目前只保留了知識(shí)圖譜這樣的果實(shí)殘留。 事實(shí)上, 如果不能讓符號(hào)主義的思維重新以某個(gè)方式進(jìn)入到深度學(xué)習(xí), 真正的AI將很難到來(lái)。 而這個(gè)方向的第一個(gè)步驟就是如何得到語(yǔ)義結(jié)構(gòu)的神經(jīng)表示。 人類的語(yǔ)言,可以用幾千個(gè)單詞表達(dá)十萬(wàn)百萬(wàn)的事物, 由于組合規(guī)則和樹結(jié)構(gòu)。那些共用特征的概念會(huì)被放在一個(gè)樹枝之上, 而另一些則會(huì)放在其它樹枝上。 這種特征層級(jí)結(jié)構(gòu), 使得人類的概念學(xué)習(xí)極為有效率, 只要直接把一個(gè)新概念放到它應(yīng)該在的枝椏上, 有些該有的就都有了。 那么, 基于統(tǒng)計(jì)和連接主義的神經(jīng)網(wǎng)絡(luò)可不可以再現(xiàn)這種樹結(jié)構(gòu)呢?Ganguli 的研究給這個(gè)方向提示了可能, 它把學(xué)習(xí)和非線性系統(tǒng)在高維空間的運(yùn)動(dòng)聯(lián)系起來(lái),訓(xùn)練,就是不同的概念根據(jù)其間相似度互相分離的過程。 通過分叉等結(jié)構(gòu), 把概念的樹結(jié)構(gòu)和動(dòng)力學(xué)空間聯(lián)系在了一起。 詳情請(qǐng)見論文: A mathematical theory of semantic development.
A mathematical theory of semantic development deep neural networks。 學(xué)習(xí)過程里的概念分離
這個(gè)會(huì)議, 可以說對(duì)于深度學(xué)習(xí)和腦科學(xué)未來(lái)的發(fā)展, 意義都非常深刻。 我看到的是, 盡管人們都懷揣著統(tǒng)一兩個(gè)領(lǐng)域的夢(mèng)想, 但現(xiàn)實(shí)的差距還非常遙遠(yuǎn), 雙方的溝通依然艱難。而這也更突出了這類會(huì)議的難能可貴。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238264 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113 -
cnn
+關(guān)注
關(guān)注
3文章
352瀏覽量
22203
原文標(biāo)題:徐鐵:當(dāng)深度學(xué)習(xí)握手腦科學(xué)-圣城會(huì)議歸來(lái)
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論