人工智能快速發(fā)展,在許多領(lǐng)域取得重大影響,使得不少人擔(dān)心可能會出現(xiàn)超級智能。DeepMind的聯(lián)合創(chuàng)始人Demis Hassabis和加拿大多倫多大學(xué)教授Geoffrey Hinton兩位國際泰斗在談到強(qiáng)人工智能(AGI)時表示,強(qiáng)人工智能還有很長的路要走,目前談之為時尚早。
預(yù)測音樂品味、檢測轉(zhuǎn)移性腫瘤、生成腦癌的合成掃描、根據(jù)真實世界的視頻創(chuàng)建虛擬環(huán)境、識別被販賣的受害者、擊敗國際象棋大師和專家級的Dota 2電子競技隊、取代司機(jī)成為出租車駕駛員,以上這些只是2018年人工智能(AI)系統(tǒng)取得的一些成功案例,也是該領(lǐng)域迅速發(fā)展的證據(jù)。據(jù)麥肯錫全球研究院的分析師預(yù)測:按照目前的發(fā)展速度,僅在美國,人工智能將在未來12年內(nèi)幫助增加20%到25%的凈經(jīng)濟(jì)效益(放在全球范圍內(nèi),相當(dāng)于13萬億美元)。
最令人印象深刻的一部分工作來自于對深度神經(jīng)網(wǎng)絡(luò)(DNN)的研究,這是一種基于數(shù)據(jù)表示的機(jī)器學(xué)習(xí)架構(gòu)。它們是對大腦的松散建模:DNN包含一些由突觸連接到一起的人工神經(jīng)元(即數(shù)學(xué)函數(shù)),其中突觸負(fù)責(zé)神經(jīng)元之間的信號傳輸。這些神經(jīng)元以層的形式排列,信號(饋送到DNN中的數(shù)據(jù)或輸入)在層與層之間傳輸,可以通過調(diào)整每個神經(jīng)連接的突觸強(qiáng)度(權(quán)重)來緩慢地“調(diào)整”DNN。隨著時間的推移,經(jīng)過數(shù)百次甚至數(shù)百萬次循環(huán)后,神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)集中提取出特征并找到樣本的變化趨勢,最終學(xué)會做出新的預(yù)測。
僅僅在三十年前,David Rumelhart、Geoffrey Hinton和Ronald Williams在一篇經(jīng)典論文(“反向傳播錯誤的學(xué)習(xí)表征”:Learning Representations by Back-propagatingErrors)中詳細(xì)介紹了一種基本的權(quán)重計算技術(shù)——反向傳播。在越來越便宜,越來越強(qiáng)大的計算機(jī)硬件的幫助下,反向傳播已經(jīng)在計算機(jī)視覺、自然語言處理、機(jī)器翻譯、藥物設(shè)計和材料檢查等方面取得了巨大飛躍,其中一些DNN給出的結(jié)果優(yōu)于人類專家。
那么DNN會導(dǎo)致超級智能機(jī)器人的出現(xiàn)嗎?DeepMind的聯(lián)合創(chuàng)始人Demis Hassabis不相信——如果答案是肯定的,他會知道的。DeepMind是一家總部位于倫敦的機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司,其使命是將神經(jīng)科學(xué)和計算機(jī)科學(xué)的知識應(yīng)用于創(chuàng)建強(qiáng)人工智能——換句話說,就是使機(jī)器系統(tǒng)可以成功執(zhí)行人類能夠勝任的任何智能任務(wù)。
在2018年12月初于蒙特利爾舉行的NeurIPS 2018年會議上,Demis Hassabis表示:“還有很長的路要走。從某些角度來講,游戲或棋盤游戲是非常簡單的,因為不同狀態(tài)之間的過渡模式非常明確且易于學(xué)習(xí)。要弄清楚現(xiàn)實世界的3D環(huán)境和現(xiàn)實世界本身則要復(fù)雜得多,但如果你要制定某項計劃,這是很重要的。”
Hassabis是國際象棋神童和劍橋大學(xué)畢業(yè)生,在其職業(yè)生涯早期擔(dān)任了電子游戲《主題公園》和《黑與白》的首席程序員——在倫敦大學(xué)學(xué)院、麻省理工學(xué)院和哈佛大學(xué)學(xué)習(xí)過神經(jīng)科學(xué),并對自傳記憶和情景記憶系統(tǒng)進(jìn)行了協(xié)作研究。他在2010年與人聯(lián)合創(chuàng)立了DeepMind,僅僅三年后就推出了一個開創(chuàng)性的人工智能系統(tǒng)。該系統(tǒng)僅使用原始像素作為輸入,能夠快速通關(guān)Atari游戲。
自從谷歌以4億英鎊收購DeepMind以來,該機(jī)構(gòu)和其醫(yī)學(xué)研究部門DeepMind Health已經(jīng)因為AlphaGo和與倫敦大學(xué)學(xué)院醫(yī)院的合作而長期占據(jù)新聞頭條。AlphaGo是一個人工智能系統(tǒng),曾在中國圍棋游戲中擊敗世界冠軍Lee Sedol,而倫敦大學(xué)學(xué)院醫(yī)院制作的模型在CT掃描分割上表現(xiàn)出“接近人的表現(xiàn)”。最近,DeepMind的研究人員推出了蛋白質(zhì)折疊算法——AlphaFold。由于成功地從43種蛋白質(zhì)中找到了其中25種蛋白質(zhì)的最準(zhǔn)確結(jié)構(gòu),該算法在第13次蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)評估(CASP)中獲得一等獎。2018年12月,DeepMind在《科學(xué)》雜志上發(fā)表了一篇論文,介紹了作為AlphaGo精神延續(xù)的AlphaZero系統(tǒng)。它可以玩三種不同的游戲——國際象棋、一種被稱為shogi的日本象棋,以及圍棋—其表現(xiàn)好到足以擊敗著名的人類玩家。
盡管DeepMind取得了令人矚目的成就,但Hassabis警告說,他們并不認(rèn)為強(qiáng)人工智能即將來臨——遠(yuǎn)非如此。他說,人們是利用內(nèi)在認(rèn)識來對世界進(jìn)行預(yù)測和規(guī)劃的,這種方式與今天的人工智能系統(tǒng)不同。與圍棋、國際象棋和shogi棋的新手相比,AlphaGo和AlphaZero在信息方面處于劣勢。Hassabis說:“這些AI系統(tǒng)首先要學(xué)習(xí)觀察,然后才能學(xué)會玩游戲。與算法相比,人類玩家可以更快地學(xué)習(xí),可以快速地將根據(jù)像素得出主題,以確定是他們需要逃離目標(biāo)還是靠近它。”
為了讓AlphaZero這樣的模型打敗人類,需要對它進(jìn)行70萬個步驟的訓(xùn)練—每個步驟代表4096個棋盤位置—所使用的系統(tǒng)配備了數(shù)千個由谷歌設(shè)計的應(yīng)用程序?qū)S?a target="_blank">芯片,這些芯片針對機(jī)器學(xué)習(xí)進(jìn)行了優(yōu)化。這大約相當(dāng)于針對國際象棋進(jìn)行9小時的訓(xùn)練,針對shogi棋進(jìn)行12小時的訓(xùn)練,針對圍棋進(jìn)行13天的訓(xùn)練。
DeepMind并不是唯一一個致力于解決當(dāng)前人工智能設(shè)計局限性的公司。在今年早些時候的一篇博文中,一個總部位于舊金山的非盈利性人工智能研究公司OpenAI宣布他們已經(jīng)開發(fā)出了OpenAI 5。在今年夏天的一次Dota 2游戲中,該軟件成功擊敗了一個包含四名專業(yè)游戲玩家的五人游戲小組。OpenAI得到了Elon Musk、Reid Hoffman和Peter Thiel及其他一些科技界杰出人士的支持。該組織表示,借助運行于谷歌云平臺的256個Nvidia Tesla P100顯卡和12.8萬個處理器核心,該系統(tǒng)每天可以玩相當(dāng)于180年的游戲(80%的游戲與自己對抗,20%對抗舊算法)。但即使在完成所有訓(xùn)練之后,它仍然難以將獲得的技能應(yīng)用于特定游戲之外的任務(wù)。
Hassabis說:“我們沒有能夠?qū)⒅R從一個領(lǐng)域轉(zhuǎn)移到下一個領(lǐng)域的有效系統(tǒng)。我認(rèn)為我們需要一些新的概念或提取方法來做到這一點。針對游戲建立模型相對容易,因為從一個步驟到另一個步驟很容易,但我們希望創(chuàng)造具有模型生成功能的系統(tǒng),這將使得在這些環(huán)境中做規(guī)劃變得更容易。”
當(dāng)前的大多數(shù)人工智能系統(tǒng)也沒有很好的擴(kuò)展性。Alphazero、Alphago和OpenAI 5利用了一種被稱為強(qiáng)化學(xué)習(xí)的編程方式。在這種方式中,由人工智能控制的軟件代理能夠?qū)W會在某個環(huán)境中采取行動,例如棋盤游戲或多人在線對戰(zhàn)游戲(MOBA),以獲得最大獎勵。
Hinton在接受采訪時說:“想象一個Skinner盒子系統(tǒng)是很有幫助的。”Skinner盒子的名字來源于哈佛大學(xué)的先驅(qū)心理學(xué)家B.F. Skinner。他利用操作性條件作用來訓(xùn)練受試動物,使其執(zhí)行某種動作,如按下杠桿,以響應(yīng)光或聲音等刺激。如果受試者正確完成任務(wù),它們會得到某種形式的獎勵,通常是以食物或水的形式。
在人工智能的研究中,強(qiáng)化學(xué)習(xí)方法的問題在于獎勵信號往往是“懦弱的”,Hinton說。在某些環(huán)境中,在從隨機(jī)數(shù)據(jù)中尋找模式時,代理可能會卡住——即出現(xiàn)所謂的“電視噪音問題”。
Hinton表示:“每隔一段時間你就會得到一個標(biāo)量信號,告訴你你做得很好。但信號的頻率不高,信息量也不大,而你需要做的是在這個非常懦弱的信號的基礎(chǔ)上,用數(shù)百萬個參數(shù)或數(shù)萬億個參數(shù)訓(xùn)練系統(tǒng)。你能做的是使用大量的計算——許多令人印象深刻的演示都依賴于大量的計算。這是一個方向,但它并不真正吸引我。我認(rèn)為研究人員需要的是更好的見解。”
與Hassabis一樣,Hinton在過去30年里一直在應(yīng)對人工智能的一些最大挑戰(zhàn),現(xiàn)在他正在與谷歌的谷歌大腦深度學(xué)習(xí)研究團(tuán)隊和多倫多大學(xué)進(jìn)行合作,而他很清楚自己工作的意義—有人把他稱為“深度學(xué)習(xí)之父”。除了DNN中的開創(chuàng)性工作之外,Hinton還在機(jī)器學(xué)習(xí)、感知、記憶和符號處理等方面撰寫或合作撰寫了200多篇同行評審的文章。最近他正在將注意力轉(zhuǎn)向膠囊神經(jīng)學(xué)(capsule neural networks)。這是一種機(jī)器學(xué)習(xí)系統(tǒng),其結(jié)構(gòu)能夠幫助構(gòu)建更穩(wěn)定的表示方式。他說,數(shù)十年來的集體研究讓他相信,解決強(qiáng)化學(xué)習(xí)的可伸縮性問題的方法是利用層次結(jié)構(gòu)加強(qiáng)信號。
“假設(shè)你有一個很大的組織,強(qiáng)化信號最先到達(dá),而首席執(zhí)行官被告知公司今年獲得了大量利潤——這就是對他的強(qiáng)化信號,”Hinton解釋道:“我們假設(shè)它每隔15分鐘出現(xiàn)一次。沒有太多的信號來培養(yǎng)一大堆人來完成幾項任務(wù),但如果首席執(zhí)行官手下有一些副總裁,并給每位副總裁制定了一個目標(biāo),以獲得最大獎勵,這會帶來更多的利潤,而他將得到回報。”
在這種安排中,即使獎勵沒有兌現(xiàn)——也許是因為模擬的首席執(zhí)行官給副總裁制定了一個錯誤的目標(biāo)——這個周期也會繼續(xù),Hinton表示。副總裁總是能夠?qū)W到一些東西,這些東西最終可能在未來變得有用。“通過制造子目標(biāo),并分派人來實現(xiàn)這些子目標(biāo),你就可以通過創(chuàng)造更的多懦弱信號來放大這些懦弱信號,”他補(bǔ)充說。
這是一個復(fù)雜的思維實驗。這些副總裁需要一個溝通目標(biāo)、子目標(biāo)和相關(guān)獎勵條件的渠道,即中低層經(jīng)理。系統(tǒng)中的每個“員工”都需要能夠決定他們是否做了正確的事情,這樣他們就會知道為什么要獎勵他們。所以他們需要一個語言系統(tǒng)。
“問題在于創(chuàng)造一個系統(tǒng),允許某些模塊為其他模塊創(chuàng)建子目標(biāo),”Hinton說:“你可以想象一個擁有一只有牧羊犬的牧羊人。他們需要創(chuàng)造一種不依賴于英語的語言,使得訓(xùn)練有素的牧羊犬和牧羊人可以很好地交流。但想象一下,如果牧羊犬有自己的隨從犬會出現(xiàn)什么情況。它必須從這些手勢和其他信息中獲取來自牧羊人的命令,并需要創(chuàng)造與其他牧羊犬交談的方式。”
幸運的是,最近一個名為“變形金剛”的AI可能朝著正確的方向邁出了一步。谷歌的研究人員推出了一種新型的神經(jīng)結(jié)(即上述的變形金剛),能夠在語言翻譯任務(wù)中超越最先進(jìn)的模型,同時只需要較少的計算來完成訓(xùn)練。”
基于其在變形金剛中的工作,谷歌于2018年11月開源了基于變形金剛的雙向編碼器表示(Bidirectional Encoder Representations fromTransformers),即BERT。通過預(yù)先訓(xùn)練,BERT可以根據(jù)任意語料庫生成的任務(wù)來學(xué)習(xí)構(gòu)建句子之間的關(guān)系,并使開發(fā)人員能夠基于一個云TPU(張量處理單元,谷歌的云托管加速器硬件)在30分鐘內(nèi)訓(xùn)練出一個最先進(jìn)的NLP模型,或使用單個圖形處理單元耗費幾個小時來完成。
“變形金剛是擁有路由功能的神經(jīng)網(wǎng)絡(luò),”Hinton解釋道:“目前在神經(jīng)網(wǎng)絡(luò)中,活動變化很快,但權(quán)重變化緩慢,這就是現(xiàn)狀。生物學(xué)告訴你,你想要做的是擁有快速變化的活動,然后你想在許多不同的時間尺度上修改突觸,這樣你就可以記住最近發(fā)生的事情,而且很容易回憶。使用變形金剛,一群神經(jīng)元會創(chuàng)造出一些信息,而且它不僅僅將這些信息發(fā)送給它所連接的每個神經(jīng)元——它會試圖把它們發(fā)送給那些知道如何處理的神經(jīng)元,而不會發(fā)送給那些不知道如何處理的神經(jīng)元。”
這不是個新的主意。Hinton指出,在20世紀(jì)70年代,神經(jīng)網(wǎng)絡(luò)的大部分工作都聚焦于記憶,其目標(biāo)是通過修改權(quán)重來存儲信息,以便重新創(chuàng)建信息,而不是簡單地從某種形式的存儲中提取信息。他說:“實際上,你不會像在文件柜里保存文件那樣把這些信息存儲起來——你會修改參數(shù),導(dǎo)致如果我給你一點東西,你就可以把其余的內(nèi)容填充起來,就像利用一些碎片制作恐龍一樣。我要說的是,我們應(yīng)該把這個想法用于短期記憶,而不僅僅是長期記憶,它將解決各種各樣的問題。”
評論
查看更多