這不是武俠世界——她已經做到了。26歲的Holgate得到了第二條跆拳道黑帶。這次是算法的黑帶。Holgate花費數個星期沉浸于一個程序中,這次比肉搏更強大的訓練是機器學習。作為谷歌Android部門的工程師,Holgate是今年機器學習忍者項目的18名程序員之一,項目的成員中由團隊中有天賦的程序員組成,成員們按照《安德的游戲》中的模式進行訓練,為的是教給他們人工智能技術開發出更好的產品。即使這會讓他們寫的軟件更難以理解。
Christine Robson是谷歌公司內部機器學習項目的產品經理,他負責管理這一項目,他說道:“我們的口號是,你想成為機器學習忍者嗎?我們邀請谷歌的員工加入機器學習團隊,花6個月時間研究機器學習,同時做一些項目,并從項目實踐中學習經驗,在此期間會有導師手把手提供指導。”
Holgate四年前來到谷歌工作,那時她取得了計算機科學和數學的學位,這次培訓機會對Holgate而言是一次掌握軟件領域最熱門的分支的機會:借助于學習算法和大量數據,讓軟件完成相關任務。多年來,機器學習被視為是一種只屬于少數精英的學科。但現在這個時代結束了,機器學習由神經網絡驅動,這一方式模仿生物大腦運作方式,最新研究結果表明機器學習能賦予計算機以人類力量,甚至在某些領域能夠超越人類力量。谷歌致力于在內部擴張精英團隊,并期望將其變成一種常態。對于像 Holgate這樣的工程師,忍者項目是助其躋身于技術前沿的機會,在這一項目中他們可以從最優秀的工程師那里學習最先進的技術。
Holgate說道:“這些人正在構建的是一個荒唐的模型,并且他們都擁有博士學位。起初,我感到非常害怕,不過我學會了接受它。”
谷歌的6萬名員工近乎一半是工程師,所以這是個小項目。不過該項目象征著谷歌的認知轉換。盡管機器學習長久以來都是谷歌技術的一部分,并且谷歌已經雇傭了不少該領域頂級專家,不過谷歌在今年貌似對這一技術更加感興趣了。在去年年底的一次電話會議上,谷歌總裁Sundar Pichai提出了提出了新的公司理念:“機器學習是核心,是我們重新思考我們所做事情的變革方式。我們正想盡辦法將它應用到我們所有產品中:搜索引擎、廣告、YouTube或應用商店。我們仍處于初期階段,但你可以發現,我們正在以系統化的方式將機器學習應用到所有的地方。”
顯然,如果谷歌想在所有的產品中應用機器學習,它需要工程師們掌握這項與傳統編程方式完全不同的技術。正如 Peter Domingos在機器學習領域非常受歡迎的《The Master Algorithm》一書中所寫的:“機器學習是一項朝陽技術,是一種自我構建的技術。”編寫出這樣一個系統你需要做如下工作:識別正確的數據,選擇正確的算法,確保你構建了成功運行的正確條件,最后相信這個系統的工作能力。
初識機器學習與神經網絡
谷歌的機器學習團隊領導者Jeff Dean說道:“用這種方式思考如何解決問題的人越多,我們就會做得越好。如果每個工程師都具備一些機器學習的知識就好了。”
多年來,John Giannandrea一直都是谷歌機器學習領域的關鍵人物,最近他還成了谷歌搜索引擎部門的負責人。不過他在2010年剛來谷歌時,他對于機器學習或神經網絡并沒有太多了解。2011年左右,一些來自神經信息處理系統峰會(NIPS)的新聞讓他感到非常震撼。似乎在每年的NIPS上,總有一些團隊會宣布使用機器學習顛覆此前一直難以突破的問題,比如翻譯、語言識別或視覺問題等。
他說:“我第一次聽說這個NIPS峰會時,它并不出名,但是在過去的三年里,參會者數量激增。去年大約有6000人參加。”
Jeff Dean : 谷歌權威計算機科學家
這不僅促進了神經網絡算法的發展,也帶來了來自摩爾定律效應的更強大的計算能力,還有從谷歌、Facebook等企業的海量用戶行為中獲取的數據也出現了指數級增長 ,機器學習不斷提高的新時代開始了。Giannandrea與一些人一樣,相信機器學習是公司的核心。
谷歌對于機器學習的熱情不僅僅意味著編程技術的轉變,更是對科技做出的鄭重承諾,承諾將賦予計算機以前所未有的超能力。這項技術從大腦結構得到啟發,其最前沿是圍繞復雜的神經網絡構建深度學習算法。谷歌大腦是谷歌在深度學習領域的嘗試,而谷歌2014年1月以5億美元買下的人工智能企業DeepMind同樣把重點放在深度學習研究上。打敗圍棋世界冠軍的AlphaGo系統就是DeepMind公司設計的,這引發了人們對于智能機器人和殺人機器人的擔憂。
對于那些持有“人工智能將會殺死我們”態度的人們,Giannandrea認為他們不了解情況。Giannandrea認為機器學習系統無論是在醫療領域還是在汽車駕駛領域都將會是顛覆性的。雖然機器學習不會取代人類,但它會改變人類。
Giannandrea舉例說明了機器學習的力量,Google Photos這款產品能將用戶指出的圖像予以定位。Giannandrea說道:“當人們第一次體驗這款產品時,他們會認為正發生著一些不同的事情,因為計算機不再只是通過計算為你生成推薦內容,或者建議你看什么視頻了。事實上計算機正在理解圖片中的內容。這是個真正新的領域。在某些狹窄領域內,你可以看到一些人認為這些學習系統已經超越了人類。”
讓不可想象的產品成為可能
不可否認的是,谷歌一直都很理解機器學習的理念,谷歌的創始人更是畢生追隨人工智能的信徒。谷歌產品中已經融入了機器學習,不過最近谷歌對神經網絡的關注度更高一些。
事實上,谷歌給工程師教授機器學習的內部課程已經超過十年時間了。2005年初,當時負責搜索業務的Peter Norvig向研究科學家David Pablo Cohn提出建議,他指出應該調查谷歌是否可以采用卡耐基梅隆大學組織的項目中的在線課堂。Cohn的結論是,只有谷歌自己才能教授這樣的內部課堂,因為谷歌的運營規模遠遠超過其他機構。因此,Norvig在43號樓預訂了一個大房間,每周三舉行一次兩小時的會議,就連Jeff Dean也參加了幾次。Cohn說道:“那是全世界最好的課堂。他們都是比我更優秀的工程師!”這個課程火了,局面甚至有些失控,印度班加羅爾辦公室的人直熬到下半夜才能打進預訂電話。幾年以后,一些谷歌人一起將這些課程做成了短視頻,不再進行現場會議。Cohn認為這或許就是MOOC的前身。接下來的幾年里,谷歌還進行了其它幾次機器學習訓練的嘗試,但這些嘗試缺乏條理和連續性。2010年Cohn離開谷歌之前曾說,機器學習突然就變成了谷歌的第一要務。
漸漸地,這些工程師在機器學習方面做出的努力越來越多的體現于谷歌的流行產品中。由于機器學習主要涵蓋的領域包括視覺、語音、聲音識別和翻譯,因而機器學習毫無疑問的成為了語音搜索、翻譯、照片等的關鍵部分。Jeff Dean是Big Table和MapReduce等顛覆性系統的共同創建者,他說:“之前,我們可能會在一個系統中的幾個子組件中采用機器學習。現在,我們其實在用機器學習取代整套系統,而不是為每個部分構建更好的機器學習模型。”
同時,機器學習還讓之前不可想象的產品功能成為了可能。比如,去年11月新發布了 Gmail的智能回復功能。這始于谷歌大腦項目的聯合創始人Greg Corrado與Gmail工程師Bálint Miklós的一次對話。Corrado之前曾與Gmail團隊合作過,一起研究在垃圾郵件檢測和郵件分類中機器學習算法的使用,但Miklós提出了一個更激進的方法。如果團隊能夠發明出通過機器學習自動為郵件生成回復的方法,就額可以使移動用戶免于在小鍵盤上敲下回復的麻煩。
谷歌讓Corrado和他自己的的團隊以及Gmail團隊保持緊密合作,這更增加了實現的可能性。Corrado說道:“機器學習既是一門科學,也是一門藝術,就像做飯一樣,雖然涉及到化學原理,但是要做一些真正有趣的事情,你必須要知道如何將面前的配料結合起來。”
用于語言理解的傳統人工智能方法取決于系統中嵌入的語言規則,但在這個項目中,系統采用自學的數據。
不過,使得智能回復真正可行的關鍵在于成功可以很容易界定,即實現像真實生活中郵件一樣的合理回復。
然而,該團隊開始測試智能回復的時候,用戶注意到一件奇怪的事:系統經常會做出一些不合時宜的浪漫回復。Corrado說道:“它在不知如何回復的任何時候,傾向于回復‘我愛你’。這不是軟件漏洞,而是我們錯誤地讓它做了這件事。該程序某種程度上學會了人類行為微妙的一面。比如,你在走投無路的時候,說‘我愛你’就會是一個很好的防御策略。”
去年11月發布的智能回復取得了成功,現在Gmail Inbox應用的用戶通常不用自己打一個字,僅需從三封推薦的郵件選擇一封就可以完成回復。這些推薦郵件的內容經常合乎情理到不可思議。手機Inbox用戶發送的回復中十分之一都是機器學習系統創建的。
機器學習的轉折
在谷歌證明機器學習高效性的一系列實例中,智能回復只是其中之一而已。但是或許當機器學習成為搜索業務的重要部分時,或許轉折點才最終到來。搜索業務是谷歌的旗艦產品,是占據谷歌近乎所有收入的金庫。某種程度上,搜索一直都基于人工智能。但很多年來,谷歌最珍貴的算法曾為我們帶來‘ten blue links’(回復谷歌搜索請求的十條藍色鏈接),這注定是機器學習算法的重中之重。
某種程度上,這是一種文化抵制。久負盛名的搜索大師Amit Singhal曾是傳奇計算機科學家Gerald Salton的助手。Salton在文檔檢索方面的開創性工作啟發了Singhal,Singhal幫助修改了Brin和Page的研究生代碼,將其變為可以擴展用于當今網絡時代的程序。他從這些20世紀方法中梳理出了驚人的結果,并且有人懷疑是他將一些學習者帶入了這個相當于谷歌命脈的復雜系統。
2014年初,谷歌的機器學習大師認為需要有所改變。Dean團隊設想的實驗后來證明對搜索能力至關重要:排序中的一個文件和查詢請求的匹配程度會有多好。
結果是有用的,該系統現在是搜索的一部分,名為Rank Brain,于2015年4月上線。谷歌還是秉持它以往的特色,在該系統究竟如何提升搜索性能上含糊不清,但Dean說道:“Rank Brain已融入大量查詢中”,并影響了實際的排名。另外,該系統效果顯著。谷歌搜索在計算排名時使用的幾百個信號中,Rank Brain的實用性排名第三。
谷歌的新挑戰是轉換其工程團隊以使大家都熟悉機器學習。這是現在其它許多公司也在追求的目標,尤其是Facebook,該公司和谷歌一樣是機器學習和深度學習領域的巨鱷。這一領域內應屆畢業生的招聘競爭是很激烈的,谷歌力圖維持其早期的領導地位;多年來,學術界都有一個笑話:即便不需要,谷歌也在聘用最頂級的學生,而這只是為了避免他們去競爭對手那里。Domingos說道:“我的學生,不管是誰,總是會收到谷歌的offer。”現在,競爭變得更為激烈了。就在上周,谷歌宣布其將會在蘇黎世開設一個全新的機器學習研究實驗室,那會有一大堆工作崗位需要填補。
為未來人工智能訓練更多工程師
機器學習需要不同的思維方式。人們變成編程大師通常是因為他們是從通過實現對編程系統的完全控制中成長起來的。機器學習還需要掌握一定的數學和統計學,而這是很多編程者,甚至是那些能將程序壓縮到讓人吃驚的長度的瘋狂黑客們都從來不屑于學習的東西。
這也需要相當程度的耐心。Robson說道:“機器學習模型并不是一段靜態的代碼,你要不斷給它填喂數據。我們不斷更新模型和學習、增加更多數據,還有比如像是調整對我們未來做出預測的方式。它讓人感覺就是一個活生生的、有呼吸的東西。這是不同類型的工程開發。”
Giannandrea還說:“實際上這是一個使用不同算法進行實驗的學科,或關于研究哪個訓練數據能在你的使用案例上產生更好工作效果的學科。計算機科學的部分不會走遠。但對數學和統計學的關注會更多,而對編寫五十萬行代碼的關注則會減少。”
Dean說:“在訓練的一天結束時,這些模型中所使用的數學就不再那么復雜了。對于我們在谷歌雇傭的大部分工程師而言,這都是可以實現的。”
為了進一步幫助日益增長的機器學習專家團隊,谷歌打造了一套強大的工具幫助工程師在訓練算法時選擇正確的模型,并加速訓練和提煉的過程。這些工具中最強大的是TensorFlow,這是一個能加速神經網絡構建過程的系統。TensorFLow由谷歌大腦團隊開發,Dean與他的同事Rajat Monga共同參與了其研發;它能通過規范系統開發中通常很乏味和深奧的細節來使得機器學習變得大眾化。
盡管對人工智能社區散播的這種利他主義行為讓谷歌深受其苦,但它也承認熟悉其內部機器學習工具的新一代程序員對谷歌的招聘來說是相當好的。盡管如此,TensorFlow的特點加上谷歌的認可,使其很快就成為了機器學習編程圈子里的一個最愛。Giannandrea說,當谷歌提供其第一個在線TensorFlow課程時,有75,000萬人報名。
谷歌仍然為它自己的程序員保留了很多好東西。在內部,該公司有一個可能無可比擬的補充機器學習的工具箱,Tensor Processing Unit(張量處理單元,TPU)。TPU 是一種專為運行機器學習語言程序而優化過的微處理器芯片,就像圖形處理單元(GPU)是專門為加速屏幕上像素的計算這一單一目而設計的一樣。該公司的巨型數據中心的服務器里恐怕已有成千上萬個TPU了。通過賦予其神經網絡運算以超能力,TPU已經給谷歌帶來了巨大的優勢。
但由于谷歌最大的需求是設計和完善這些系統的人,就像谷歌正在緊鑼密鼓地完善其軟件訓練工具一樣,公司也在瘋狂地打磨其訓練機器學習工程師的實驗。
還有一些其它較小的工作也在將外部人士吸引到谷歌的機器學習中。今春早些時候,谷歌啟動了Brain Residency項目,該項的目的是為了將有前途的外部人士帶進谷歌大腦團隊內部進行為期一年的密集訓練。盡管初始項目中來自不同學科的27位機器學習學員中可能會有一些最終會留在谷歌,但其該訓練的目的是將他們放歸到野外,使用他們的超能力在整個數據地球上傳播谷歌的機器學習版本。
所以從某種意義上說,在一個機器學習正在占據舞臺中心的世界里,以人工智能為中心的谷歌有維持自己主導地位的計劃,而 Carson Holgate 在她的忍者課程中學到內容正是以這個計劃為中心的。
評論
查看更多