讀者應(yīng)該對(duì)人工智能并不陌生,但要了解它的歷史,我們得先回到1995年。
彼時(shí),一名年輕的法國(guó)人Yann Lecun花了10多年時(shí)間做一件事:模仿大腦的某些功能來打造人工智能機(jī)器。這件事在許多計(jì)算機(jī)科學(xué)家看來是一個(gè)壞主意,但Lecun的研究已經(jīng)表明,這種做法可以造出智能而且真正有用的產(chǎn)品。
在貝爾實(shí)驗(yàn)室工作期間,他開發(fā)出了一些模擬神經(jīng)元的軟件,通過讀取不同的例子來辨識(shí)手寫文本。而貝爾實(shí)驗(yàn)室的母公司 AT&T,也利用這門技術(shù),開發(fā)出了第一臺(tái)可以讀取支票和書寫筆跡的機(jī)器。對(duì)于Lecun和人工神經(jīng)網(wǎng)絡(luò)的信徒們來說,這似乎是一個(gè)新時(shí)代的開始,標(biāo)志著機(jī)器可以學(xué)習(xí)以前僅屬于人類的技能。
只是對(duì)于Lecun而言,這項(xiàng)成果取得成功之時(shí)也是這個(gè)項(xiàng)目走向盡頭的時(shí)候。為了開拓不同的市場(chǎng),AT&T宣布分拆成三家不同的公司。他們打算讓Lecun做一些其他的研究,于是他離職去了紐約大學(xué)任教職。與此同時(shí),其他地方的研究人員也發(fā)現(xiàn),他們無法把Lecun的突破應(yīng)用于計(jì)算問題,隨后人們對(duì)于將大腦模擬的方法應(yīng)用于AI研究的熱情也逐漸開始減退。
雖然對(duì)于現(xiàn)在已經(jīng)55歲的Lecun而言,他從來沒有停止探索人工智能的步伐。在被無情拒絕了20年有余后,Lecun等人終于在人臉和語音識(shí)別等領(lǐng)域取得了驚人的成就。如今在科技領(lǐng)域人盡皆知的深度學(xué)習(xí),已經(jīng)成為Google等科技公司新的戰(zhàn)場(chǎng),他們急不可耐地想將其應(yīng)用于商業(yè)服務(wù)。Facebook在2013年聘用了Lecun,讓其管理由50多人組成的人工智能研究團(tuán)隊(duì) FAIR。對(duì)于Facebook而言,Lecun的團(tuán)隊(duì)是其第一筆基礎(chǔ)研究投資,可能讓公司從社交網(wǎng)絡(luò)的定位中走出來,并且很可能會(huì)讓我們對(duì)機(jī)器能做的事情有重新的認(rèn)識(shí)。
媒體多次報(bào)道,F(xiàn)acebook等公司在近幾年急不可耐地投身于這一領(lǐng)域,主要是因?yàn)樵谟?jì)算機(jī)識(shí)圖等領(lǐng)域,深度學(xué)習(xí)技術(shù)比之前的AI技術(shù)要先進(jìn)得多。在以前,研究人員需要編寫大量的程序來賦予機(jī)器能力,例如偵測(cè)出圖片中的線條和直角。但深度學(xué)習(xí)軟件則能自己理解和利用數(shù)據(jù),不需要借助這種程序?;谶@一理論開發(fā)出的一些程序,精確度已經(jīng)可以和人類相媲美。
現(xiàn)在Lecun在研究更加有力的東西,他打算賦予軟件完成基礎(chǔ)對(duì)話的語言能力和常識(shí)。在進(jìn)行搜索時(shí),我們可以直接告訴機(jī)器我們想要的是什么,就像和人交流一樣,而不用小心思考要輸入檢索的內(nèi)容。深度學(xué)習(xí)讓機(jī)器擁有了理解和交流的能力,能辨明和回答問題并且給予我們建議。其應(yīng)用之一就是可以理解我們的要求并代替我們預(yù)定餐館,并且很有可能對(duì)游戲行業(yè)產(chǎn)生變革。
在Lecun看來,這些系統(tǒng)不僅要能幫人類完成任務(wù),還需要知道為什么?,F(xiàn)今的搜索引擎、反垃圾系統(tǒng)以及虛擬助手還做不到這一點(diǎn),他們大多數(shù)只是通過關(guān)鍵詞匹配等技術(shù)來完成任務(wù),而忽略了詞語出現(xiàn)的順序。以Siri為例,它只是在幾類應(yīng)答庫中搜索符合你所提要求的內(nèi)容,但實(shí)際上它并不能理解你說的到底是什么意思。而像此前在Jeopardy游戲中戰(zhàn)勝了人類的IBM大型機(jī)Watson,則是通過高度程序化的規(guī)則來掌握語言能力,但其無法應(yīng)用于其他情境。
相反地,深度學(xué)習(xí)的軟件可以像人類一樣掌握理解語言的能力。研究人員試圖讓機(jī)器擁有理解詞匯的能力,Lecun等人開發(fā)出的系統(tǒng),可以在閱讀一些簡(jiǎn)單的故事后回答問題,進(jìn)行邏輯推理等。
但是Lecun等人深知,人工智能領(lǐng)域總是雷聲大雨點(diǎn)小,人們起初認(rèn)為可能取得巨大的突破,到最后可能只是小小的一步。要想讓機(jī)器處理復(fù)雜的語言問題可比圖像識(shí)別要復(fù)雜得多,毫無疑問,深度學(xué)習(xí)在這一領(lǐng)域大有作為,但它們是否能真正掌握語言并改變我們的生活,還是一個(gè)未知數(shù)。
?
深度的歷史
如果要追溯起來,深度學(xué)習(xí)的歷史遠(yuǎn)早于Lecun在貝爾實(shí)驗(yàn)室的工作的年代,他和其他人實(shí)際上只是復(fù)活了一個(gè)長(zhǎng)眠已久的想法。
時(shí)間回到20世紀(jì)50年代,為了探討智力和學(xué)習(xí)是如何產(chǎn)生,以及信號(hào)在大腦的神經(jīng)元之間是怎樣傳遞的,生物學(xué)家們提出了一些簡(jiǎn)單的理論。其中核心的觀點(diǎn)就是,如果細(xì)胞間總是頻繁地交流,那么神經(jīng)元間的聯(lián)系會(huì)加強(qiáng)。在有新的經(jīng)驗(yàn)產(chǎn)生時(shí),這種傳遞會(huì)調(diào)整大腦的結(jié)構(gòu),以便在下一次經(jīng)歷相似的事情時(shí)讓人產(chǎn)生更好地理解。
心理學(xué)家Frank Rosenblatt 在1956年使用這一理論,結(jié)合軟件和硬件對(duì)神經(jīng)元進(jìn)行了模擬,他開發(fā)出的一套 感知器 可以對(duì)圖片進(jìn)行簡(jiǎn)單的分類。雖然他是在笨拙的大型機(jī)上實(shí)現(xiàn)的這一想法,但他奠定了如今人工神經(jīng)網(wǎng)絡(luò)的基石。
他造的這臺(tái)計(jì)算機(jī)由大量的馬達(dá)和光學(xué)監(jiān)測(cè)器相連,一共擁有8個(gè)虛擬的神經(jīng)元。首先,監(jiān)測(cè)器會(huì)偵測(cè)圖片的光學(xué)信號(hào),并將信號(hào)傳遞給神經(jīng)元。這些神經(jīng)元在獲取到監(jiān)測(cè)器傳遞的信號(hào)后,會(huì)對(duì)其進(jìn)行加工并返回出一個(gè)值。借由這些值,機(jī)器能 描繪 出其 看到 的東西。一開始的測(cè)試結(jié)果很糟糕,但是Rosenblatt 使用了一種高級(jí)學(xué)習(xí)的方法,使得及其可以正確區(qū)分出不同的形狀。他在向機(jī)器展示圖片的同時(shí),也會(huì)告訴其正確答案,之后機(jī)器會(huì)對(duì)輸入的信號(hào)進(jìn)行判別,計(jì)算出如果要得到正確答案,各個(gè)神經(jīng)元的信號(hào)權(quán)重是多少,并進(jìn)行再分配和糾正。在重復(fù)了大量例子之后,機(jī)器可以識(shí)別出從來沒有見過的圖片。現(xiàn)今的深度學(xué)習(xí)網(wǎng)絡(luò)使用了更加高級(jí)的算法,并且擁有數(shù)百萬個(gè)模擬神經(jīng)元,但訓(xùn)練方式和之前是一樣的。
Rosenblatt 預(yù)言,他的感知器將有廣泛的應(yīng)用,比如可以讓機(jī)器用名字和人問候。如果人們能實(shí)現(xiàn)在神經(jīng)網(wǎng)絡(luò)的多個(gè)層間傳遞圖片和信號(hào),則可以讓感知器解決更加復(fù)雜的問題。不幸的是,他的學(xué)習(xí)算法在多層領(lǐng)域并不奏效。1969年,AI領(lǐng)域的先驅(qū)Marvin Minsky更是出版了一本書,把人們對(duì)神經(jīng)網(wǎng)絡(luò)的興趣扼殺在了搖籃里。Minsky聲稱多層面并不會(huì)讓感知器更加有用。于是AI研究人員拋棄了這一想法,取而代之的是使用邏輯操作開發(fā)人工智能產(chǎn)品,而神經(jīng)網(wǎng)絡(luò)則被推到了計(jì)算機(jī)科學(xué)的邊緣地帶。
當(dāng)1980年Lecun在巴黎念書時(shí),他發(fā)現(xiàn)了之前人們的這些工作,并驚訝于為什么會(huì)拋棄了這一想法。他在圖書館尋找相關(guān)的論文,最后發(fā)現(xiàn)在美國(guó)有一個(gè)小組在研究神經(jīng)網(wǎng)絡(luò)。他們研究的內(nèi)容是Rosenblatt遇到的老問題,即如何訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓其堅(jiān)決多層問題。這份研究有些 地下工作 的意味,為了不被審稿人拒稿,研究人員盡量避免使用 神經(jīng) 、 學(xué)習(xí) 等字樣。
在讀到這些之后,Lecun加入了這個(gè)團(tuán)隊(duì)。在那里他認(rèn)識(shí)了現(xiàn)在任職于Google的Geoff Hinton,他們一致認(rèn)為,只有人工神經(jīng)網(wǎng)絡(luò)才是構(gòu)建人工智能的唯一途徑。此后,他們成功開發(fā)出了應(yīng)用于多層面的神經(jīng)網(wǎng)絡(luò),但是其適用性非常有限。而貝爾實(shí)驗(yàn)室的研究人員則開發(fā)出了另一套更加實(shí)用的算法,并很快被Google和Amazon等公司應(yīng)用于反垃圾和商品推薦。
在Lecun離開貝爾實(shí)驗(yàn)室去了紐約大學(xué)以后,他和其他研究人員組成了一個(gè)研究小組。為了證明神經(jīng)網(wǎng)絡(luò)的作用,他們不動(dòng)聲色地讓性能強(qiáng)大的機(jī)器學(xué)習(xí)和處理更多的數(shù)據(jù)。此前Lecun的手寫識(shí)別系統(tǒng)由5個(gè)神經(jīng)元層構(gòu)成,現(xiàn)在則加到了10多個(gè)。到了2010年后,神經(jīng)網(wǎng)絡(luò)在圖片分類等領(lǐng)域打敗了現(xiàn)有的技術(shù),并且微軟等大公司開始將其應(yīng)用于語音識(shí)別。但對(duì)于科研人員來說,神經(jīng)網(wǎng)絡(luò)還是很邊緣化的一門技術(shù)。2012年的時(shí)候,Lecun還寫過一封匿名信對(duì)此痛斥一番,因?yàn)樗麄兊囊黄榻B神經(jīng)網(wǎng)絡(luò)新記錄的文章投稿被一場(chǎng)頂尖會(huì)議給拒絕了。
6個(gè)月以后的一件事情,讓一切都發(fā)生了變化。
Hinton帶著兩個(gè)學(xué)生,參加了一場(chǎng)機(jī)器圖像識(shí)別比賽,并在大賽中取得了傲人的成績(jī)。他們?cè)诒荣愔兴玫木W(wǎng)絡(luò)就和之前Lecun開發(fā)的支票閱讀網(wǎng)絡(luò)類似,在這場(chǎng)比賽中,軟件要辨識(shí)超過1000種各種各樣的物品,而他們的這套系統(tǒng)辨識(shí)率高達(dá)85%,超過第二名10個(gè)百分點(diǎn)。深度學(xué)習(xí)軟件的第一層對(duì)神經(jīng)元進(jìn)行優(yōu)化,找到邊角等簡(jiǎn)單的特點(diǎn),而其他層則連續(xù)尋找形狀等特點(diǎn)。Lecun現(xiàn)在還能回想起當(dāng)時(shí)的情景,作為勝出者的他們拿出論文,仿佛對(duì)著屋子里那些曾經(jīng)無視他們研究的人臉上狠狠打了一巴掌,而他們只能說: OK,我們承認(rèn),你們贏了。
經(jīng)此一役,計(jì)算機(jī)視覺領(lǐng)域的風(fēng)向很快就變了,人們迅速拋棄舊的方法,而深度學(xué)習(xí)很快變成了人工智能領(lǐng)域的主流。Google買下了Hinton成立的公司,開發(fā)Google Brain。微軟也開始立項(xiàng)研究這一技術(shù),F(xiàn)acebook的CEO 扎克伯格甚至也出現(xiàn)在神經(jīng)網(wǎng)絡(luò)的研究會(huì)議上,宣布Lecun在紐約大學(xué)擔(dān)任教職的同時(shí),加入到他們的FAIR團(tuán)隊(duì)中。
1993年Lecun在貝爾實(shí)驗(yàn)室,它旁邊的電腦能識(shí)別支票上的手寫數(shù)字
語言學(xué)習(xí)
Facebook的新辦公地離Lecun教書的地方只有3分鐘車程,在這里他和研究人員一道,嘗試讓神經(jīng)網(wǎng)絡(luò)能更好地理解語言。具體做法就是,神經(jīng)網(wǎng)絡(luò)來回檢索文檔,當(dāng)遇到一個(gè)詞時(shí),預(yù)言該詞前后的內(nèi)容,再和實(shí)際情況進(jìn)行判別。通過這樣,軟件把每一個(gè)詞解構(gòu)成了一組和其他詞的關(guān)系向量。
例如,在神經(jīng)網(wǎng)絡(luò)看來, 國(guó)王 和 女王 這組詞的向量關(guān)系,就和 丈夫 和 妻子 一樣。對(duì)于一整句話來說,這種方法也可以奏效。一些研究成果表明,使用向量技術(shù)的機(jī)器在同義、反義詞等理解測(cè)試上,甚至超過了人類。
而Lecun的團(tuán)隊(duì)還走得更遠(yuǎn),他們認(rèn)為,語言本身其實(shí)并不復(fù)雜,真正復(fù)雜的是對(duì)語言要有一個(gè)深入的理解,并對(duì)其擁有常識(shí)般的認(rèn)知。舉個(gè)例子, 小明拿著瓶子走出了房間 ,這句話隱含的意思就是,瓶子在小明身上。鑒于此,在他們開發(fā)的神經(jīng)網(wǎng)絡(luò)上搭載有一個(gè)記憶網(wǎng)絡(luò),用來存儲(chǔ)一些它已經(jīng)學(xué)會(huì)的事實(shí),每次有新的數(shù)據(jù)輸入時(shí),它也不會(huì)被清除。
Facebook的AI研究人員開發(fā)出了一套可以回答簡(jiǎn)單問題的系統(tǒng),哪怕其中有些內(nèi)容是它之前沒有遇到過的。例如,研究人員給記憶網(wǎng)絡(luò)一篇魔戒的梗概,讓它回答一些簡(jiǎn)單的問題,如 魔戒在哪? ,雖然它可能在之前并沒有遇到過 魔戒 這個(gè)詞,但還是能夠回答上來。如果它能夠理解一些更加復(fù)雜的句子的話,那么將會(huì)有很大的應(yīng)用。
然而,打造一套能夠完成有限對(duì)話的系統(tǒng)已經(jīng)耗費(fèi)巨大的精力,更何況神經(jīng)網(wǎng)絡(luò)的推理能力很差,更不論制定計(jì)劃。盡管研究人員還沒有找到更高效的解決方法,但Lecun等研究人員對(duì)此仍充滿了信心。
不過并不是每個(gè)人都如此樂觀,西雅圖一家研究機(jī)構(gòu)的CEO Oren Etzioni就認(rèn)為,深度學(xué)習(xí)軟件現(xiàn)在只是展現(xiàn)出了語言識(shí)別最簡(jiǎn)單的那部分能力,他們?nèi)匀狈壿嬐评砟芰?,這和現(xiàn)在神經(jīng)網(wǎng)絡(luò)做的圖形分類以及聲波解析都有著天壤之別。此外,掌握語言也不是那么簡(jiǎn)單的事,因?yàn)樵谖谋局芯渥拥囊馑伎赡軙?huì)發(fā)生改變。要讓軟件擁有語言能力,則需要它們像嬰兒那樣,沒有明確的指示也能掌握句子的意思。
深度的信仰
在Facebook的CTO Mike Schroepfer 看來,未來他們希望能看到Facebook的系統(tǒng)與你進(jìn)行交流,就像和一個(gè)人類管家一樣。這套系統(tǒng)能夠在更高的層面上理解語言和概念:比如你可以要求它展示一張朋友的照片,而不是他的動(dòng)態(tài)。隨著Lecun的系統(tǒng)掌握更高的推理和規(guī)劃能力,這在短期內(nèi)還是很可能實(shí)現(xiàn)的。此外,F(xiàn)acebook可能還會(huì)提供一些他們覺得你會(huì)感興趣的東西,并且詢問你的看法,最終讓這個(gè)超級(jí)管家沉浸于信息的海洋之中。
不僅如此,這種交流算法的改進(jìn)也可以提高Facebook過濾信息和廣告的能力,這對(duì)Facebook想要超越社交網(wǎng)絡(luò)的定位至關(guān)重要。隨著Faebook開始以媒體的身份發(fā)布信息,人們就需要更好的信息管理方式,這套虛擬助手可以幫助Facebook實(shí)現(xiàn)這一野心。
如果深度學(xué)習(xí)再重蹈以前人工智能的覆轍,那這些可能永遠(yuǎn)都不會(huì)發(fā)生了。但是Lecun對(duì)此充滿了信心,他認(rèn)為有足夠多的證據(jù)站在他這邊,表明深度學(xué)習(xí)終將會(huì)帶來巨大的匯報(bào)。讓機(jī)器處理語言需要新的想法,但是隨著越來越多的公司和大學(xué)加入到這個(gè)領(lǐng)域,原來小小的一片天開始擁有無限可能,這將大大加快整個(gè)進(jìn)程。
究竟深度學(xué)習(xí)能不能實(shí)現(xiàn)Facebook預(yù)想的管家還不得而知,就算是真正能實(shí)現(xiàn),人們能獲益多少現(xiàn)在也還難以想象。但可能我們并不需要等太久了,他堅(jiān)信那些懷疑機(jī)器深度學(xué)習(xí)語言能力的人們終會(huì)后悔。這和2012年以前一樣,雖然事情出現(xiàn)了一些改變,但用老方法的人仍然頑固不化。也許再過個(gè)幾年,人們就不會(huì)這么看了。
評(píng)論
查看更多