近幾年來,隨著深度學(xué)習(xí)的學(xué)術(shù)研究和工業(yè)應(yīng)用都越發(fā)火熱,大多數(shù)研究者們開始形成一個(gè)共識(shí),那就是「未來的通用人工智能(AGI)一定不會(huì)是多層神經(jīng)網(wǎng)絡(luò)」。邏輯推理、高層次概念抽象、小樣本多任務(wù)學(xué)習(xí)等等重要的智慧組成部分在多層神經(jīng)網(wǎng)絡(luò)上都欠奉,整個(gè)領(lǐng)域逐漸形成這樣的認(rèn)知就理所當(dāng)然了。
但近幾天的一篇文章揭示了另一個(gè)真正有爭(zhēng)議的問題:關(guān)于 AI 研究的方法論,是要「設(shè)計(jì)會(huì)學(xué)習(xí)的、能利用大規(guī)模計(jì)算能力的方法(元算法),即便我們現(xiàn)在的計(jì)算能力還不足以支持這樣的方法,但我們靜等算力發(fā)展就好」,還是「想辦法把人類的知識(shí)直接做成模型的一部分,這才是原理化、結(jié)構(gòu)化的做法」。這個(gè)問題形成了不小的討論,許多知名學(xué)者都發(fā)表了自己的意見。
強(qiáng)化學(xué)習(xí)開路人首先發(fā)難
Richard Sutton 是強(qiáng)化學(xué)習(xí)領(lǐng)域的開拓者,有「強(qiáng)化學(xué)習(xí)之父」之稱。Richard Sutton是如今鼎鼎大名的 DeepMind 研究科學(xué)家、AlphaGo 主程序員 David Silver 的老師,他本人如今也在 DeepMind 工作。
3 月 13 日,Richard Sutton 在自己的個(gè)人主頁(yè)incompleteideas.net 發(fā)表了一篇博客,名為「The Bitter Lesson」(苦澀的教訓(xùn))。我們把全文編譯如下。
AI 研究這七十年的發(fā)展中,我們學(xué)到的最有用的一課是,能夠充分利用計(jì)算能力的通用方法最終往往是效果最好的,而且要比其他方法的表現(xiàn)高出一大截。這個(gè)結(jié)論背后最重要的原因是由于摩爾定律,或者說,摩登定律的實(shí)際影響是讓每單位計(jì)算能力的價(jià)格指數(shù)級(jí)地降低。大多數(shù) AI 研究進(jìn)行的時(shí)候都默認(rèn)了智能體可以使用的資源是固定的(在這種情況下,能繼續(xù)提高智能體表現(xiàn)的方法并不多,借助人類的知識(shí)就是其中一種);但是,只需要不長(zhǎng)的時(shí)間,比如只比一個(gè)一般的研究進(jìn)行的時(shí)間再長(zhǎng)一點(diǎn),我們就一定會(huì)有更多的計(jì)算資源可以拿來用。研究人員們總是想要找到能在短期內(nèi)帶來提升的方法,所以他們的成果往往是想辦法把他們已經(jīng)掌握的人類知識(shí)利用起來;但是長(zhǎng)期來看,真正重要的事情是利用更多的計(jì)算能力。這兩種路線其實(shí)并不是對(duì)立的,但是在實(shí)踐中大家往往只做其中一個(gè),就好像在心里做出了承諾必須要一條路走到黑一樣。選擇了利用人類知識(shí)這條路的研究人員們就免不了會(huì)讓方法變得復(fù)雜,更復(fù)雜的方法也就更不容易像通用方法那樣使用更多的計(jì)算資源。有很多 AI 研究人員都是做了很久研究之后才學(xué)到這個(gè)教訓(xùn)。下面我給大家講幾個(gè)比較重大的例子,希望大家看過之后都能有些收獲。
在用計(jì)算機(jī)下國(guó)際象棋的嘗試中,1997 年擊敗人類國(guó)際象棋冠軍卡斯帕洛夫的方法,就是基于大規(guī)模深度搜索的。當(dāng)時(shí)大多數(shù)計(jì)算機(jī)下棋的研究人員選擇的方法都嘗試運(yùn)用人類對(duì)棋盤上特殊結(jié)構(gòu)的理解,所以當(dāng)他們看到大規(guī)模深度搜索的方法首先擊敗了人類的時(shí)候,他們都不免有些驚愕和沮喪。不過他們也并沒有立即就認(rèn)輸,面對(duì)著依靠專門的軟硬件+簡(jiǎn)單的搜索就能得到高超表現(xiàn)的方法,他們聲稱「暴力搜索」也許這次勝利了,但這并不是一種通用的策略,而且人類也不是這樣下棋的。他們希望某個(gè)基于人類知識(shí)的系統(tǒng)可以突然出現(xiàn)并勝出,但遺憾的是這樣的事情并沒有發(fā)生。
計(jì)算機(jī)下圍棋的研究里也出現(xiàn)過類似的故事,只不過時(shí)間上要遲 20 年左右。研究人員們起初投入了大量的時(shí)間精力研究如何利用人類的知識(shí),或者是利用棋局中的特殊特征,以避免使用暴力搜索。顯然最終他們的努力仍然白費(fèi)了,而且這次還要更糟糕一點(diǎn),一旦基于搜索的方法開始大規(guī)模、高效地使用起來,那些方法就再也沒有追上的機(jī)會(huì)。同等重要的是一種新方法開始得到使用:通過自我對(duì)弈的過程,學(xué)習(xí)價(jià)值函數(shù)(很多其它的游戲/比賽中也有這樣的做法,只不過在 1997 年的那個(gè)國(guó)際象棋程序里沒有很多運(yùn)用)。「自我對(duì)弈學(xué)習(xí)」,以及「學(xué)習(xí)」這件事總地來說,其實(shí)就像是一種搜索,它能讓大規(guī)模計(jì)算能力更好地發(fā)揮作用。在 AI 研究中,搜索和學(xué)習(xí)是能夠利用大規(guī)模計(jì)算能力的最重要的兩類技術(shù)。下圍棋的研究就和下象棋的研究一樣,大家一開始都是直接嘗試如何運(yùn)用人類的理解(這樣就不需要那么多搜索),然后直到后來他們開始擁抱搜索和學(xué)習(xí)的時(shí)候才獲得了巨大的成功。
在語(yǔ)音識(shí)別領(lǐng)域,早在 1970 年代就有 DARPA 贊助的語(yǔ)音識(shí)別競(jìng)賽。當(dāng)時(shí)參加比賽的很多都是利用人類知識(shí)的方法——單詞知識(shí)、音節(jié)、人聲的頻率特征,等等;同時(shí)也有新一些的方法,它們?cè)诒举|(zhì)上更像統(tǒng)計(jì)學(xué)的方法,而且也需要更多的計(jì)算,基于的理論是隱馬爾可夫模型(HMMs)。再一次,基于統(tǒng)計(jì)的方法勝過了基于人類知識(shí)的方法。在這之后的幾十年中,自然語(yǔ)言處理領(lǐng)域逐漸發(fā)生了巨大的變化,基于統(tǒng)計(jì)學(xué)和計(jì)算的方法逐漸占據(jù)了主導(dǎo)地位。近幾年出現(xiàn)的用于語(yǔ)音識(shí)別的深度學(xué)習(xí)方法更是這個(gè)方向上的堅(jiān)定一步。深度學(xué)習(xí)對(duì)人類知識(shí)的依賴更小、使用的計(jì)算能力更多,再加上是在非常大的訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)的,最終得到的語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)也有了大跨度的飛躍。在游戲中也是一樣,研究人員們總是先嘗試?yán)斫庾约旱乃伎挤绞剑缓髶?jù)此設(shè)計(jì)系統(tǒng)。他們很努力地嘗試把自己的知識(shí)融入到系統(tǒng)中,但是最終結(jié)果表明這樣的做法并沒有什么好處,也浪費(fèi)了研究者自己的大量時(shí)間精力;而同時(shí),通過摩爾定律,大規(guī)模計(jì)算能力變得觸手可及,我們也有了新的方式讓這些計(jì)算能力派上用場(chǎng)。
計(jì)算機(jī)視覺領(lǐng)域也有類似的模式。早期的方法認(rèn)為視覺任務(wù)是尋找邊緣,或者是泛化的圓柱體,或者是一些 SIFT 特征。如今這些方法都扔進(jìn)垃圾堆了。現(xiàn)代深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)只需要一個(gè)卷積的概念和某幾種變種,然后就可以獲得好得多的表現(xiàn)。
這是一個(gè)很大的教訓(xùn)。但是作為一個(gè)領(lǐng)域,我們還沒能完全吸取這個(gè)教訓(xùn),因?yàn)槲覀冞€在持續(xù)地犯相同的錯(cuò)誤。為了能看清這點(diǎn),以及有效地避免這種錯(cuò)誤,我們要能夠理解這些錯(cuò)誤的誘人之處。我們必須要學(xué)到這個(gè)苦澀的教訓(xùn),那就是我們對(duì)自己的思考方式的了解,長(zhǎng)期看來是行不通的。對(duì)于過往歷史的觀察已經(jīng)表明了:
AI 研究人員總是會(huì)嘗試把知識(shí)構(gòu)建到他們的智能體中;
短期總是可以看到回報(bào)的,這對(duì)研究者當(dāng)事人來說是好的;
長(zhǎng)期看來這會(huì)延緩甚至阻止更大的進(jìn)步產(chǎn)生;
真正的突破性進(jìn)展最終來自完全相反的方向,那就是基于大規(guī)模計(jì)算能力的搜索和學(xué)習(xí)。
雖然最終取得了成功,但這條路上布滿了苦澀,而且成功的果實(shí)也無(wú)法完全消化,因?yàn)槌晒Ξ吘共⒉粊碓从谌藗兏矚g的、更以人為中心的途徑。
在這個(gè)苦澀的教訓(xùn)中我們應(yīng)該學(xué)到一件事,那就是通用目標(biāo)方法含有巨大的力量,隨著可用的計(jì)算能力變多,這些方法的表現(xiàn)可以變得越來越好。搜索和學(xué)習(xí)這兩種方法的表現(xiàn)隨著計(jì)算能力增加而變好的程度簡(jiǎn)直是沒有上限的。
還有一件事需要我們學(xué)到,那就是人類思維的真正內(nèi)容是極其復(fù)雜、無(wú)法描述的。我們需要停止嘗試尋找更簡(jiǎn)單的方法理解我們自己的思維,比如用簡(jiǎn)單的方法理解空間、物體、多智能體、對(duì)稱性,等等。所有這些都是無(wú)窮多樣的、本征復(fù)雜的外部環(huán)境的一部分。我們沒辦法嘗試把這些元素構(gòu)建成為系統(tǒng)的一部分,因?yàn)樗鼈兊膹?fù)雜性本來就是無(wú)窮高的。相反地,我們應(yīng)該做的是,構(gòu)建那些可以自己尋找并捕捉這種任意復(fù)雜性的元方法。這些方法的關(guān)鍵點(diǎn)是它們能夠找到好的近似,但是尋找近似的過程也是這些方法自己執(zhí)行,而不是我們(通過增加人類知識(shí)的方法)替他們完成。我們希望智能體可以像我們一樣探索發(fā)現(xiàn),而不是直接包括我們已經(jīng)探索發(fā)現(xiàn)好的。把我們已知的東西放在里面,只會(huì)更難看到真正的探索發(fā)現(xiàn)過程是如何發(fā)生的。
AI 研究學(xué)者們反應(yīng)不一
Richard Sutton 的文章發(fā)表后在 Twitter 上的 AI 學(xué)者圈子里引發(fā)了熱烈的討論,贊同和反對(duì)的聲音都有很多。
贊同的包括:
谷歌大腦研究員 David Ha轉(zhuǎn)推評(píng)論:(Sutton「苦澀的教訓(xùn)」文章)這就像擴(kuò)大簡(jiǎn)單的隨機(jī)搜索的規(guī)模就可以避免使用集成了領(lǐng)域知識(shí)的難搞的強(qiáng)化學(xué)習(xí)算法。(雷鋒網(wǎng) AI 科技評(píng)論注:David Ha 近期就在關(guān)注一些簡(jiǎn)單的隨機(jī)搜索獲得比強(qiáng)化學(xué)習(xí)更好表現(xiàn)的論文)。我得到的收獲是,往往是那些可以拓展規(guī)模的方法才能夠經(jīng)受時(shí)間考驗(yàn)。能夠拓展的系統(tǒng)具有簡(jiǎn)單、優(yōu)雅的設(shè)計(jì),也便于理解。設(shè)計(jì)這樣的系統(tǒng)也需要更高的人類智慧。如果研究 AI 的人有時(shí)候可以思考得不那么像科學(xué)家或者工程師,而是更像設(shè)計(jì)師或者藝術(shù)家的話,他們可能會(huì)有新的收獲。AI 研究有時(shí)候更像藝術(shù)而不是科學(xué)(也有人說像「煉丹」)。
OpenAI CTO Greg Brockman轉(zhuǎn)發(fā)評(píng)論:Sutton 的這篇文章觀察了歷史上反復(fù)發(fā)生的事情,發(fā)現(xiàn) AI 計(jì)算規(guī)模的增加總是可以擊敗那些自以為精妙的設(shè)計(jì)(而且他也解釋了為什么這個(gè)事實(shí)很難讓人接受)
特斯拉 AI 總監(jiān)Andrej Karpathy:推薦閱讀 Sutton 的這篇關(guān)于算法中的領(lǐng)域知識(shí)能否持久的文章。實(shí)際上如果你翻翻老的 AI 雜志也能很明顯地看到這點(diǎn)。
反對(duì)的聲音有:
牛津大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授 Shimon Whiteson發(fā)表長(zhǎng)推特:
Richard Sutton 發(fā)表了一篇新博客「苦澀的教訓(xùn)」,我表示強(qiáng)烈反對(duì)。他在文中說道,AI 領(lǐng)域的歷史告訴我們,對(duì)計(jì)算能力的應(yīng)用最后總是能夠勝過對(duì)人類知識(shí)的應(yīng)用。我覺得這是對(duì)歷史的故意曲解。
確實(shí)有很多嘗試把人類知識(shí)集成到 AI 中的嘗試最終失敗了,但同時(shí)隨著計(jì)算力(以及錢、存儲(chǔ)空間、能源、數(shù)據(jù))變得越來越充裕,很多其它的方法也被拋棄了。然而,如今我們得到的成功的方法僅僅歸功于有充足的資源是不對(duì)的,其中還有很多我們保留下來的人類知識(shí)。要是沒有卷積、LSTM、ReLU、批歸一化等等人類開發(fā)出的技術(shù),我們還怎么做深度學(xué)習(xí)?即便是圍棋,也需要有“這是一個(gè)靜態(tài)、零和、完全可觀察博弈”的先驗(yàn)知識(shí)。
所以 AI 的歷史并不是一部集成人類知識(shí)的失敗史,恰恰相反,如今 AI 的成功正是因?yàn)榱粝铝擞杏玫娜祟愔R(shí),而且這個(gè)過程也是完全正常的科研策略體現(xiàn):我們嘗試了各種各樣的東西,我們丟棄了其中不成功的 99%;但正是最后剩下的那 1% 對(duì)現(xiàn)代 AI 來說無(wú)比關(guān)鍵,我們能充分利用大規(guī)模計(jì)算能力也正是依靠它們。
Sutton 說,因?yàn)槭澜缡潜菊鲝?fù)雜的,所以我們不應(yīng)該嘗試在系統(tǒng)里集成先驗(yàn)知識(shí)。但我得出的是相反的結(jié)論,對(duì)于 Sutton 提出的我們所依賴的搜索和學(xué)習(xí)方法來說,如此高的復(fù)雜性是難以處理的,只有通過適當(dāng)?shù)南闰?yàn)知識(shí)、正確的歸納偏倚,我們才能更好地對(duì)付這樣的復(fù)雜性。
他還說「現(xiàn)代深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)只需要一個(gè)卷積的概念和某幾種變種,然后就可以獲得好得多的表現(xiàn)」。他句子里的「只需要」就已經(jīng)表明了他這句話說得有多么不負(fù)責(zé)任。沒有這些卷積和變體的深度學(xué)習(xí)確實(shí)無(wú)法成功,但這些已經(jīng)是最基礎(chǔ)的東西,也足夠通用了。這樣說起來,他的文章討論的「要不要集成人類知識(shí)」(因?yàn)轱@然大家的答案是要),但其實(shí)他避開了那個(gè)真正的問題,那就是「什么樣的知識(shí)是值得集成的,我們要在何時(shí)、如何運(yùn)用它」。
Sutton 說,「我們希望智能體可以像我們一樣探索發(fā)現(xiàn),而不是直接包括我們已經(jīng)探索發(fā)現(xiàn)好的」。這話沒錯(cuò),但我們?nèi)祟惿瞄L(zhǎng)探索發(fā)現(xiàn)的原因正是因?yàn)槲覀兩鷣砭陀羞m當(dāng)?shù)臍w納偏倚。回看 AI 歷史,我覺得我們獲得的是「甜蜜的教訓(xùn)」,雖然找到正確的歸納偏倚很難,但是這種做法讓我們有能力處理其他方法束手無(wú)策的問題。
也有中立的發(fā)聲:
康奈爾大學(xué)博士、MIT 博士后、機(jī)器學(xué)習(xí)量化分析師 Seth Stafford轉(zhuǎn)推評(píng)論 Shimon Whiteson 的長(zhǎng)推特:Richard Sutton 和 Shimon Whiteson 觀點(diǎn)的區(qū)別是,把人類的知識(shí)集成到模型里所增加的價(jià)值是否符合我們希望的「原則性」的方法。Sutton 的苦澀的教訓(xùn)是,針對(duì)單個(gè)任務(wù)的技巧是不行的;但 Whiteson 認(rèn)為更深入的(原則性更強(qiáng)的)方法是可以的。
高通 AI 研究院 深度學(xué)習(xí)研究員 Taco Cohen轉(zhuǎn)推評(píng)論:大家仔細(xì)看看這個(gè)。不要再浪費(fèi)時(shí)間考慮那些領(lǐng)域?qū)S玫募记闪恕:煤米鲆蛔銎交取㈥P(guān)系模型、成分性、等方差不等方差、局部性、穩(wěn)定性、層次性、因果性等等抽象和通用的歸納偏倚。仔細(xì)考慮考慮如今的 AI 里到底缺的是什么。
-
AI
+關(guān)注
關(guān)注
87文章
31040瀏覽量
269388
原文標(biāo)題:AI 發(fā)展的理想路線是什么?學(xué)者們?yōu)榱诉@個(gè)爭(zhēng)起來了
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論