2. 技術:從無法工作到神經網絡
人工智能的繁榮基于傳統與現代想法的結合。
人工智能如何從剛開始的傲慢與失望,突然成為科技界最熱門的領域呢?人工智能(artificial intelligence)這個術語最早被寫在 1956 年的一份研究計劃中,該計劃聲稱「如果一個精心挑選的科學家小組花一個夏天一起研究,就能使機器解決各種人類無法解決的問題……」,從而實現重大的進步。那被證明只是瘋狂過度地樂觀,人工智能雖然偶有突破,但其承諾的遠比其所能提供的多得多。最終,大多研究者都避免使用這個術語,而更喜歡用「專家系統」或「神經網絡」。現在「人工智能」的名譽恢復和重新興起要追溯到 2012 年被稱為 ImageNet 挑戰賽的在線競賽。
ImageNet 是一個擁有數百萬張圖片的在線數據庫,所有圖片都有人工做的標簽。對于任何給定詞,例如「氣球」或「草莓」,ImageNet 里都能找到上百張對應的圖片。每年的 ImageNet 競賽鼓勵該領域的人在計算機識別和自動標記圖片上進行比賽,并衡量他們的進展。這些系統首先使用被正確標記的圖片集進行訓練,然后挑戰標記之前沒見過的測試圖片。在后續的研討會上,優勝者會分享并討論他們的技術。2010 年獲勝的系統可以正確標記 72% 的圖片(人類平均有 95% 的準確率)。2012 年,多倫多大學的 Geoff Hinton 帶領的團隊實現了 85% 的準確率,這要歸功于一項叫「深度學習」的新技術。這帶來了一種長遠快速的改進,在2015 年的 ImageNet 競賽上,一個深度學習系統以 96% 的準確率第一次超過了人類。
2012 年的成果被認為是一項突破,但 Yoshua Bengio 說,他們依靠的是「結合以前已經有了的東西?!筜oshua Bengio 是蒙特利爾大學的計算機科學家,他與 Hinto 以及另外幾個人被稱為深度學習的先驅。大體上,這項技術使用了大量的計算和訓練數據,對來自人工智能發展初期的一個舊思路進行改進,這個舊思路也就是人工神經網絡(ANN)——這是生物學啟發的人工神經元(腦細胞)網絡。
在生物大腦中,每個神經元都能被其它神經元觸發,將輸出的信號饋送給另一個神經元,而且此神經元的輸出也能繼續觸發其它神經元。一個簡單的 ANN 網絡有一個輸入神經元層,在這里數據被饋送進網絡中;還有一個輸出層輸出結果,中間可能還會有三兩個隱藏層對信息進行處理。(實際中,ANN 網絡全部在軟件中模擬。)網絡中的每一個神經元都有一系列的「權重」和一個「激活函數」控制著輸出的信號發射。訓練一個神經網絡涉及到對神經元權重的調整,以便一個給定的輸入產生期望的輸出。ANN 在 20 世紀 90 年代早些時候就已經實現了一些有用的結果,例如識別手寫數字。但在完成更為復雜的任務上,ANN 陷入了困境。
在過去的十幾年中,新技術的出現和對激活函數的一種簡單調整使得訓練深度網絡變得可行。同時,互聯網的興起產生了數十億可用于目標訓練的文檔、圖片、視頻數據。這所有的一切都需要大量的數字操作能力,而 2009 年左右當幾個人工智能研究團體意識到個人計算機和視頻游戲機上用于生成精致畫面的 GPU 也同樣適用于運行深度學習算法之后,計算能力也不再是個問題了。斯坦福大學由吳恩達帶領的一個人工智能團隊發現 GPU 能夠幾百倍地加速深度學習系統。然后,訓練一個四層的神經網絡突然就變得很快了,由之前需要花費幾周的時間變成了不到一天時間。GPU 生產商 NVIDIA 的老總黃仁勛說這是一個令人高興的對稱:GPU 這一游戲工作者用于為游戲玩家構建幻想世界的芯片也能用于幫助計算機通過深度學習理解真實世界。
ImageNet 的結果顯示了深度學習的能力。突然間,深度學習就獲得了關注——不只是在人工智能界,而是在整個科技產業界內!深度學習系統因此變得更加的強大:20 或 30層的網絡變得很常見,微軟的研究人員曾建立過 152 層的網絡。更深層的網絡能進行更高水平的抽象并產生更好的結果,事實證明這些網絡擅長解決眾多領域的難題。
「讓人們激動的是這一領域的一種學習方法:深度學習,能夠應用于眾多不同的領域,」谷歌機器智能研究部門負責人、如今負責搜索引擎的 John Giannandrea 表示,谷歌正在使用深度學習提升其網頁搜索結果的質量、理解智能手機端的口語指令、幫助人們在他們的照片中搜索特定的圖片、推薦電子郵件的自動回復、改善網頁的翻譯服務,并且幫助它們的自動駕駛汽車理解周圍環境。
學習如何學習
深度學習有很多不同的方式。最普遍使用的是「監督學習(supervised learning)」,這項技術能使用標記樣本集訓練系統。例如,過濾垃圾郵件:收集出郵件信息樣本的大數據集,每一個都標上「垃圾郵件」或者「非垃圾郵件」。一個深度學習系統能夠使用這些數據集進行訓練,重復的進行樣本訓練進而調整神經網絡內的權重,提高評定垃圾郵件的準確率。這一方法的巨大優點是不需要人類專家寫出規則列表,也不需要程序員用代碼編寫這些規則,系統能直接從有標簽的數據中進行學習。
使用有標簽數據訓練系統也被用于圖片分類、語音識別、信用卡交易欺詐偵測、垃圾和惡意軟件識別以及廣告定位,所有這些應用領域中的正確答案都可通過之前的大量案例獲得。Facebook 能在你上傳一張照片后識別、標記照片里你的朋友和家人,它們近期還發布了一個能夠為盲人描述照片中的內容(比如兩個人、微笑、太陽眼鏡、戶外、水等)的系統。有大量的數據可用于監督學習,吳恩達先生說,這一科技的應用已經使現在的金融服務領域、計算安全領域和銷售領域的公司將自己重新標記為了人工智能公司。
另一項技術是無監督學習(unsupervised learning),其通過將網絡暴露在大量樣本中來對網絡進行訓練,但不會告訴它要尋求什么模式。相反,該網絡學習識別相似樣本的特征和聚類,從而揭示數據中的隱藏分組、連接和模式。
無監督學習能在你不知道會是什么樣的情況下被用于事物搜索:例如,監控網絡中反常的通信模式,那可能代表著網絡攻擊;或檢查大量的保險聲明以檢測新類型的詐騙方式。一個經典的案例:2011 年當吳恩達在谷歌工作時,他領導的一個名為谷歌大腦(Google Brain)項目中的一個大型的無監督學習系統本是用于在千部無標記 YouTube 視頻中發現共同模式。一天,吳恩達的一個博士生給了他一個驚喜。吳恩達回憶說「我記得他把我叫道他的電腦前說,『看這個』」,電腦屏幕上是一個毛茸茸的面孔,從數千的樣本中發現的模式。系統發現了貓。
強化學習位于監督學習和無監督學習之間,它涉及到訓練一個神經網絡與只以獎勵作為偶然的反饋的環境進行交互。本質上,訓練涉及到調整網絡的權重,從而獲得能帶來更高獎勵的搜索策略。DeepMind 是這個領域的專家。2015 年 2 月,它們在 Nature 上發表的一篇論文描述了一個能夠學習玩 49 種經典的 Atari 視頻游戲的強化學習系統,它只使用屏幕上的像素和游戲分數作為輸入,輸出則連接到一個虛擬的控制器上。這個系統從頭學起玩游戲,最終在其中 29 種游戲中達到或超過了人類水平。
把系統游戲化
電子游戲是人工智能研究的理想訓練場,DeepMind 的 Demis Hassabis 說,因為「它們是真實世界的縮影,但更純凈和約束化?!?游戲引擎也可以輕松生成大量訓練數據。Hassabis 先生以前從事過電子游戲行業的工作,后來取得了認知神經學的博士學位并創立了 DeepMind。這家公司現位于倫敦國王十字車站附近,相當于谷歌的人工智能研究分部。
今年三月,AlphaGo 于首爾的五輪比賽中打敗了世界頂尖圍棋選手李世石,作為開發公司的 DeepMind 因此登上頭條。AlphaGo 是一個有著獨特特性的強化學習系統。它由幾個相互連通的模塊組成,包括兩個深度神經網絡,它們各有所長——像人腦中模塊一樣。其中一個通過大量的棋局分析訓練提出一些可能的走法,另一個網絡則負責根據隨機采樣技術來評估這些走法。這個系統把生物啟發的技術與純機器化的技術結合了起來。人工智能研究者們就哪種技術更優越這個問題已經爭論了幾十年,而 AlphaGo 卻另辟蹊徑兩者都用。「這是一個復合型系統,因為我們認為解決智能問題只有深度學習是不夠的」,Hassabis說。
他和其他研究者們已經開始探尋一種叫做遷移學習(transfer learning)的新技術了。這種技術能讓強化學習系統把基礎建立在已習得的知識上,而不用每一次都從頭開始訓練。Hassabis 先生解釋道,人類可以毫不費力地做到這一點。Giannandrea 先生回憶起他四歲的女兒已經能辨別出 penny-farthing(一種前輪大后輪小的腳踏車)就是一種自行車,即使她之前從沒見過這樣的東西。「但計算機無法做到,」他說。
一家最近被 Salesforce 收購的初創公司 MetaMind 也在研發一種相關的技術——多任務學習(multitask learning),這種系統用同樣的神經網絡架構解決多種不同的問題,在一件事情上獲得的經驗能用來更好地解決其它事情。跟 DeepMind 類似,它也在探尋模塊化的架構;其中一個被稱為「動態記憶網絡(dynamic memory network)」的系統能消化一系列陳述,然后回答相關問題,并且推斷出其中的邏輯聯系(Kermit 是一只青蛙;青蛙是綠色的;所以 Kermit 是綠色的)。MetaMind 還把自然語言網絡和圖像識別網絡融合到一個系統中,它可以回答有關圖像的問題(「這里面的汽車是什么顏色的?」)。這種技術可以用到智能客服聊天機器人中,或者用于 Salesforce 的客戶呼叫中心。
過去,很多有前景的人工智能技術發展都會逐漸疲軟。但深度學習卻不同?!高@東西真的能起作用,」 MetaMind 的 Richard Socher 說。人們每天都會用到它,雖然他們并未意識到。Hassabis、Socher和其他人的長遠目標是開發出「通用人工智能(AGI )」—一種能完成各種各樣任務的系統,有了它就不必再為每個特定問題都專門開發出一個系統了。人工智能多年來的研究方向都集中在解決專業化的特定問題上,Socher先生說,但現在研究人員們「正努力用更先進的樂高積木塊拼出不一樣的東西」。即使他們中最樂觀的人也認為還需至少十年才能做出人類智力水平的 AGI 。但 Hassabis 說,「我們認為我們已經知道實現接近 AGI 的系統所需的幾十種關鍵元素了」。
同時人工智能已經在發揮作用了,而且很快會更有用。例如谷歌的智能回復系統,它通過兩個神經網絡推薦郵件回復,從研究項目到產品上線只用了四個月(雖然剛開始它因為對每條信息建議回復的有「我愛你」而令人失望)?!冈诳蒲衅诳习l表文章剛一個月,就有某個公司正確使用你的系統了,」Socher 說。人工智能公司,不論規模大小都能都能定期發表學術文章;人工智能研究者即使在轉行進入公司后也能繼續在同行評議期刊上發表研究成果。很多人都是邊為公司工作邊發表科研文章?!溉绻悴辉试S他們發表,他們就不會為你工作了,」Andreessen Horowitz 的 Chris Dixon 解釋說。
谷歌,Facebook,微軟,IBM,亞馬遜,百度以及其他公司都開源了某些深度學習軟件。部分原因是這些公司中的研究人員想要發表自己的成果,因為這有利于公司招募更多人才。從更現實的角度來看,這也是因為大型互聯網公司不在乎把自己的人工智能軟件公之于眾,因為他們真正的優勢在于能獲取大量用于訓練的用戶數據。一家投資基金公司 Bloomberg Beta的Shivon Zilis說,這使得他們能在某些方面占盡優勢,但初創公司也在尋求打入市場的獨特途徑。比如無人機初創公司能在人群密集的地方通過模擬數據進行飛行訓練。而且很多訓練數據都能從網上找到,孵化器公司 Y Combinator 的董事長 Sam Altman 說道。他注意到人類可以用有限的數據進行學習,「這意味著大量訓練數據并不是實現智能的必要條件」。像 Numenta 和 Geometric Intelligence 這樣的初創公司正在探索低數據依賴性的新智能系統。
在這股人工智能淘金熱中,公司們排著隊為參與者提供鐵鍬。出現最為頻繁的名字是英偉達,Dixon 先生說;似乎每一家人工智能創業公司都在使用它的 GPU 芯片來訓練神經網絡。GPU 能力也可從亞馬遜和微軟的云中租用。與此同時,IBM 和谷歌則正為更快更高效地運行人工智能軟件而設計專門的新芯片。谷歌、微軟和 IBM 也正使其語音識別、句子解析和圖像分析等人工智能服務免費在線提供,讓創業公司可以結合這些開發模塊來構建新的人工智能產品和服務。IBM 的 Guru Banavar 說:來自多個行業的 300 多家公司已經使用 IBM 的 Watson 平臺開發出了人工智能驅動的應用,其中包括篩選應聘者和挑選葡萄酒。
對大多數人而言,所有這些人工智能領域的進步都將體現為他們每天都在使用的互聯網服務的不斷進步。搜索引擎將得到更相關的結果;推薦將會更加準確。Hassabis 預測說:幾年之內,所有東西都將會嵌入某種程度上的智能。人工智能技術將讓計算機接口變成對話式和有預測力的,而不只是簡單的菜單和按鈕。而且對話式的交互讓不能閱讀書寫和目前不能使用互聯網的人也能使用計算機,Bengio 說。
厚積多年,一朝薄發;機器將能夠執行之前只有人類才能完成的任務。自動駕駛汽車正快速變得越來越好,到某個點時它們也許能夠取代出租車司機,至少在市中心等受控環境中可以做到。送貨無人機,不管是地上跑的還是天上飛的,類似地可以與人類送貨員競爭。改進后的視覺系統和機器人技術讓機器人可以碼放超市貨架和在倉庫中移動物體。而且還給意想不到的突破留下了很多余地,Dixon 說。
其他人卻很擔心,擔憂人工智能技術會增壓特定任務中現有的計算機化和自動化;就像 200 年前的蒸汽動力一樣,讓很多工人成了多余。英國詩人 Robert Southey 宣稱 :「蒸汽可怕地加劇著已經正在進行的過程,但太快了。」他擔心「這強大之力的發現」已經在「我們知道如何正確使用它」之前到來。許多人對今天的人工智能也這么想。
評論
查看更多