歷史的穹隆上,總是閃爍著孤星。 孩子坐在田埂旁,一顆星一顆星地數著,也就看到了銀河。
(一)歷史的星河 1942年夏,煙波浩渺的太平洋上,在目睹了四艘日軍航母沉沒后,約克城號背靠它的母港中途島,緩緩傾覆在晨曦中。 與此同時,倫敦遠郊的布萊切利園正值黃昏,日后被尊為計算機之父的阿蘭·圖靈正站在一群數學家、填字游戲高手和密碼大師中間,眉頭緊鎖。一排排“***機”正在他們身后全速破解德軍密碼,發出織布機般鏗鏘的鳴響。 而在萬里之外的佛羅里達,空氣里正彌漫著香甜。 神經科學家唐納德·赫布帶著妻兒來到世外桃源般的橙子公園(Orange Park)。為了幫助耶魯大學探究大腦的秘密,他開始了與黑猩猩、海豚為伍的生活,還親手養了一群會走迷宮的老鼠。
赫布和妻子孩子在林間小屋 他的筆尖在暗啞的紙面上沙沙響動,一個驚天發現正噴薄而出:特定的刺激,會加強兩個神經元之間的聯系,而億萬個神經元之間聯系實時而微妙的改變,難道就是人類智慧的究極奧義?
隔著厚厚的鏡片,赫布雙眼望穿,恨自己尚不能了然大腦的全部秘密。但是這張草圖卻像一枚定時***,十多年后,在千里之外的“人工智能”領域陡然掀起巨浪。 1958年的一天,康奈爾大學心理學教授羅森布拉特原地跳起來。他和同事們用400個光電單元模擬人類的神經元運作,用50組“左”“右”箭頭的圖片,竟然教會了計算機自己判斷方向。
羅森布拉特(右)和他的感知機 羅森布拉特把這個寶貝稱為“感知機”。感知機也在日后被人們追認為“人工神經網絡”的 1.0 形態。
紐約時報上,巨幅評論熱情洋溢:“這是一個能夠行走、擁有視覺、能夠寫作、能自我復制,且有自我意識的電子計算機的雛形?!?美國記者們豪情萬丈,睥睨群山。他們也許猜不到,當時意氣風發的人工神經網絡,即將在未來經歷兩度低谷,在人們心中與煉金術和騙子為伍;他們更猜不到,就在他們視野之外,一個強大的玩家正在悄然登場,六十多年后,無數繁星將在大洋彼岸閃耀。 1956年,五十三歲的陳光熙教授受哈爾濱工業大學校長李昌的邀請,揮別首都,千里赴冰城,創建了哈工大計算機系。 就在羅森布拉特發明感知機的那一年,哈工大依靠自己的力量研制出了中俄互譯的機器翻譯系統。雖然現在看起來這套系統很幼稚,但在當時它翻譯的外文資料,卻化成火箭的尾焰,把衛星托舉上天;化成潛艇的螺旋槳,把堤岸守衛在身后。
陳光熙 在隨后的幾十年,中國第一臺并行數據庫機、第一臺并行推理機、第一臺會下棋的數字計算機、第一臺容錯計算機,都誕生在這片校園。 在101大樓的報告廳里,系主任李仲榮深情地對每批新生回憶他那一輩計算機學者為了打破帝國主義封鎖青絲白發的光榮故事,成了同學們畢業幾十年都難以磨滅的共同記憶。 1994年,搖搖晃晃北上的綠皮列車上,“花生瓜子礦泉水”的吆喝聲里,一個年輕人看著遠處,腦海里如數家珍地回憶著那些面孔,熱血難涼。 他就是哈工大計算機系學生王海峰。 在他身邊放著一個幾十斤重的背包,里面都是寶貝——受他的老師李生囑托從北京圖書館、清華大學、北京語言大學花了上千塊錢復印的最新外文期刊資料。 資料都是“食糧”,他和同學們要靠這些把機房里那些“帶屏幕的鐵皮兒盒子”喂得更聰明一些,讓它們把人類的語言翻譯得更明白一些。 這一階段,人工智能翻譯技術恰好遇到了瓶頸。靠著背包里這幾十斤的資料,未來究竟能把翻譯做到什么程度,研究生王海峰當然不敢下結論。但是和很多哈工大人一樣,他至少可以確信一點:只要堅持往前走,自己總有一天可以找到突破點。 他去車廂接縫處洗了把臉,轉頭望向窗外,沃野千里,稻麥縱橫,這片土地似有萬語千言。火車就這樣不疾不徐地搖向遠方,把昔日的景色也一并帶進泛黃的照片。 多年后,王海峰也經歷了屬于自己的故事。
1995年,王海峰在哈工大機器翻譯實驗室。
(二)等風來 人工智能的演化史,像極了生物大腦的演化史。 從羅森布拉特連接了400個節點開始,幾十年間隨著計算機芯片的進步,神經網絡中的“節點”增加到幾萬個,到后來增加到數億個。這才有了今天你所用到的各種人工智能應用。
卡斯帕羅夫輸給“深藍” 如果說人工智能科學是一座城堡,那么每個應用方向都是一個房間。這些房間有:語音識別、圖像識別、自然語言處理、知識圖譜等等等等。。。
王海峰當年心心念念做的“翻譯”,其實屬于“自然語言處理”這個房間,它的英文簡稱叫做 NLP(Natural Language Processing)。 用通俗的語言說,NLP 干的事情就是兩樣:1、讓機器聽懂人話;2、讓機器用人話表達。 說到這,你腦海里肯定會出現那些科幻電影中的機器人,例如《2001漫游太空》里的 HAL 9000,或者《終結者》里的 T-800,或者《星球大戰》里的 3PO 和 R2D2。沒錯,這些鋼鐵和硅片拼成的機器人之所以能夠跟人類對答如流,甚至擁有情感,就是因為背后有 NLP 技術加持。
你看,在科幻電影里都堪稱“扛把子技術”,NLP 的難度有多大,可想而知。實際上,自然語言處理被公認為人工智能最難的分支沒有之一,也被稱為人工智能皇冠上的明珠。 隨便抓來一個 NLP 領域的科學家,Ta 一定會告訴你,自己擁有兩個終極夢想:
第一,讓不同語言的人無障礙地交流,也就是“機器翻譯”; 第二,讓人和機器能夠無障礙地交流,也就是“人機對話”。
站在2020年的世界,看上去這兩個夢想也沒那么遙不可及??墒窃谏鲜兰o末,NLP 可謂是有一顆藏獒的心,卻配了一個泰迪的身:
大規模的神經網絡需要搭配大量的計算力和數據才能擁有智能??墒悄阆胂耄菚r候“486”、“586”的電腦才剛剛問世,什么云計算根本就是天方夜譚。 結果就是:很多學術算法看上去很有潛力,可是如果放在當時的計算機上就得跑幾十億年,就算好使也得搭配長生不老藥使用。。。
這里不妨插播一個故事。1980年代,國力扶搖直上的日本不信邪,嘗試獨立開發出性能爆棚的“第五代計算機”用以支持人工智能,進而可以對美國說“不”。
結果,由于目標設定得太猛,超越人類科技能力,第五代計算機最終宣告失敗,日本繼續對美國說“爸爸”。 有了這些前車之鑒,90年代中國人工智能研究也轉入低潮。如果那時計算機專業的人跟別人說我的理想是“人機對話”,對方看你的關愛眼神就跟看一個誤入傳銷組織的無知青年別無二致。技術突破希望渺茫,科研機構的經費也被迫削減。那時節,很多學校里研究了十幾年人工智能的老教授,有的轉崗,有的下海經商,有的甚至被派去看機房。。。 王海峰并不準備轉行。他的直覺告訴自己:“這東西對國家有用。既然是對國家有用的東西,總要有人繼續堅持?!?/p>
正如六百年前生在繁華港口熱那亞,從小就浸染在對馬可波羅筆下“華貴天城”杭州的憧憬里的哥倫布,滔天巨浪也不能讓他放棄航海夢;一個畢業于校歌中唱著“民主和科學是我們的追求,忠誠和報效是我們的選擇”的哈工大,目睹了前輩們為了祖國科學付出韶華的王海峰,字典里恐怕也難尋“退卻”二字。 哥倫布用漫長的青春游說各國國王支持他的遠航,每天在海岸邊研習水文星象,等待有一天浪潮來了自己要第一個沖進大海;畢業后王海峰輾轉十年在微軟研究院、東芝研究院這樣的研究機構中,如達摩面壁一般每日精進著研究,向學術組織一篇一篇地投遞論文。
時光的河流映照著斗轉星移,2009年,王海峰已經成為了 NLP 學界鼎鼎大名的大牛。那時節,哪怕是最謹慎的人,也會判斷王海峰的余生是板上釘釘的衣食無憂、眾星捧月,可以坐享人生了。但王海峰并不這樣想,眼前的一切成績都只是他夢想的前奏:“十年面壁圖破壁,實業報國方英雄?!?上天眷顧,在港口張望多年的船長終于等來了浪潮。 這個浪潮名叫互聯網。 嚴格來說,互聯網浪潮在2000年左右就已經在中國掀起,可那時大多數互聯網企業為了跑馬圈地,關心的是“流量”、“轉化”這些詞匯,別說和人工智能,甚至和“技術”都沒那么貼邊。 2009年8月18日的百度世界大會上,王海峰聽到百度創始人李彥宏說出了一個驚艷的詞:“框計算”。 他被吸引了。 根據李彥宏的介紹,未來你不用在搜索框里輸入準確的關鍵詞,而是輸入一句話,一個短語,或者隨便什么要求,百度都可以經過理解,努力給出你想要的結果或者服務,這就是“框計算”的涵義。
當時有關“框計算”的報道 王海峰的腦海里瞬間閃過三件事:
第一件:原來搜索引擎還能做成這樣! 第二件:如果真想把框計算做深,沒有 NLP 的加持是不可能的。 第三件:NLP 這件事兒我做了十幾年,我有信心做好。
這件小事,讓王海峰和百度即將超越普通用戶的關系,發生事業上的“親密接觸”。 故事講到這里,我們不妨先讓王海峰的故事定格,調轉鏡頭,看看在北京西北角的百度大廈里發生著什么。 我們把時間倒卷幾年。2006年,一位叫做吳甜的浙大畢業生提著行李來到北京。讓一個女生放棄咖啡江景落地窗的外企,下定決心俯沖進這座浩瀚的北方城市的理由,居然只是一張招聘海報。 海報上有一句話:是做一條舒服的蟲,還是驕傲的龍?
百度2006年的招聘海報
她堅信,自己讀懂了百度傳達的“暗號”。 如果回到那個歷史現場,百度其實正處在“戰爭狀態”。 就在一年前,李開復就任谷歌大中華區總裁,鼓足風帆,殺氣側漏,直奔百度而來。李彥宏發起“閃電戰”全力反擊。 當時,百度采取的策略是一艘航母加無數艘驅逐艦的戰法:
“航母”就是搜索產品,內部稱為 PS 業務; “驅逐艦”就是百度知道、百度貼吧、百度百科、百度MP3、百度地圖這些產品,內部稱為 NS 業務。
當時百度同學肩扛手提,一夜之間在機房里上線了幾十臺服務器,百度搜索的索引量逐漸超過 Google,而有了“知道”“百科”這些產品護航,中文信息質量一下子變得更高更豐富,當時就連 Google 搜出來的結果都是百度知道的內容。 在這樣一支艦隊上,所有的技術人都如同戰士,扛著代碼的鋼槍,享受著他人發自內心的尊敬。吳甜分明感覺到自己的每一行代碼都閃著光,無數像她一樣的人,正在把這個艦隊裝點得雄姿勃發。 她愛這種感覺。
2007年的百度之星程序設計大賽 哦忘記介紹了,吳甜的研究生專業正是人工智能。在當時的百度,有人工智能專業背景的人鳳毛麟角。 一日,人們一大早過來,發現坐在角落里的吳甜正在嘿嘿傻笑。 原來,她“擅自”在百度知道里加入了一個“NLP 模塊”。這個模塊的工作原理是醬的:
1)先為所有的問題回答者打上標簽——例如有的人善于股票問題,有的人善于美食問題; 2)然后再為提問者的問題打上標簽——有的是在問股票,有的是在問做飯; 3)最后把這些問題和答案智能匹配,把適合的問題推薦給適合的答者。
那天早晨,吳甜打開后臺日志,發現在這個推薦模塊的加持下,人們使用百度知道的記錄像瀑布一樣奔涌而出,飛流直下,銀河九天。
自己的技術通過一根根網線,同時觸摸到了幾千萬活生生的人,那種感覺真的太開心了。
吳甜對我回憶。
那一刻的感覺像打開窗迎面而來的沁人花香,直到今天還讓吳甜沉醉其中。幾年間,吳甜輾轉了幾個崗位,都試著把人工智能的技術像奶油一樣裝點在各個產品的”蛋糕“上,效果奇佳。 當然,吳甜不是孤例。當時在搜索、地圖、MP3等等部門,其他幾位有人工智能專業背景的同學也在各自的崗位上進行著探索。 每一次微小的技術改進,都像一枚重炮,呼嘯著奔向敵軍的甲板。 27歲的吳甜沉浸在一場場戰斗中,暫未認真思考終局。她并不知道,自己的職業生涯將會像一顆行星,即將遇到巨大的“技術引力場”而改變軌道。
(三)新大陸上的據點 2009年,百度在中文搜索領域完成絕殺,市場份額暴漲至谷歌的三倍多,股價從100塊飆到了將近400塊,李開復宣布辭任谷歌大中華區總裁,在歷史的刻度盤上,此時距離谷歌退出中國僅剩幾個月的時間了。 百度宜將剩勇追窮寇,形勢好得不能再好。李彥宏也像明星一般,所到之處是鮮花、粉絲、尖叫、熒光牌。
可是他心里卻隱約覺得不安穩。 這種感覺總結成一句話就是:百度的技術護城河還不夠高。 就像越強壯的人越會去健身,越仰仗技術的公司越覺得技術還有提升的空間。在百度的理想中,自家的搜索引擎必須能夠讓用戶“哇”地一聲叫出來——這樣才能讓黑暗中蟄伏的對手知難而退。 于是,百度開始鼓勵各個業務部門——也就是吳甜他們——加大力度在人工智能技術上投入。 不過問題很快出現了:人工智能如果作為蛋糕上的裱花奶油,大家都能玩轉,但要真刀真槍成為生產力時,各個部門立刻顯出了疲軟,由于缺乏理論指導,東一榔頭西一棒槌,收效不好。
領導層意識到,為了迎接“框計算”的時代到來,百度需要找到一位能在人工智能領域統領全局的將領。 2009年的百度世界大會不久,王海峰與百度人相見了。簡短溝通,他就確定了加入百度的意向。 “當時你有沒有其他選擇?”我問王海峰。 “那時的產業界,能有人提出來人工智能就很好啦!百度提出來,我第一個就來了。”王海峰說。 “你有沒有擔心過,人工智能這件事兒,百度可能只是說說而已?”我問王海峰。 “這其實不重要。只要我用行動把它做出來,就不是說說而已了嘛。”王海峰笑。 1492年,西班牙女王贈送給哥倫布三條船,哥倫布還給了西班牙一個美洲;2010年,李彥宏把信任給了王海峰,在未來,他將還給百度比這份信任更超值的回報。 早晨七點半,一個筆直的背影坐在電腦前,襯衣系到第一個扣。 一些未曾謀面的同事經過,都上來搭訕:“你就是新來的王海峰老師吧?”“你怎么知道?”王海峰詫異地問?!耙徊戮椭?,我們一般。。。不這樣穿衣服。。。”對方說罷,趿拉著拖鞋走了。
說實話,最開始我們確實看上去不太一樣,但是和同事合作之后我就確信,我們都是尊重技術,信仰技術的人,本質上是相同的。至于衣著,很快我們就一樣了,你看我現在,跟別人有區別嗎?
王海峰笑著對我說。
按照之前的計劃,王海峰會組建一個 NLP 部門,把散落在各個業務中的人工智能人才都攏在一起,兵合一處,統一為百度所有的業務提供彈藥(當然,主要是為“航母”搜索提供彈藥)。 那年春節后上班的第一天,吳甜的主管找到她:“百度新組建了NLP部門,你要不要轉過去?” “我思考了兩點。第一點:當時我特意看了海峰老師的履歷,他的專業背景很強,而且有無數成就。那時候我才畢業三年,懵懵懂懂,我覺得需要一個能帶領我向前走的導師。第二點:那時候公司經常組織一些技術交流活動,我都會參加,我明顯感覺到人工智能會是公司未來發展的重要方向。” 即使是回憶往昔,吳甜也用這種“小標題”模式,滿滿的工程師風格。但不得不承認,畢業三年就能看清這兩點,她的遠見已經是碾壓式的了。 就這樣,吳甜幾乎沒有猶豫就加入了王海峰的隊伍。彼時散落在各個業務的田浩等一批技術信徒也選擇加入。 就在前后腳,還有另一個重磅人物加入了百度 NLP 團隊,她就是吳華。吳華和王海峰是老相識了,在東芝(中國)研發中心的時候,吳華就是王海峰團隊的一員。 要我說,吳華是一個有著少女心的學霸,科學就是她最大的浪漫。年少上學的時候,她只喜歡一件事兒——躲在角落里推理數學題,看著那些線段拼成的幾何圖案,心里就能感覺到寧靜和美麗。。。 別笑,這世界上真有這樣的人。
學院派的吳華加入百度,當然有一半原因是王海峰。另一半原因,是李彥宏。
來之前,我看過李彥宏的采訪,也看過他跳舞,跳得還挺好。他說話很客觀,很冷靜,不煽動,既不熱情,也不冷漠,帶有一種技術人的單純。。。不過這在我看來都是靠譜的特征。
吳華笑。 有了三五桿槍,隊伍算是基本成型了。這時,王海峰又想起了學術界的朋友們。 他先給各個大學教授挨個打電話,鼓勵他們推薦學生來百度,再給自己十年來一起共事過覺得不錯的年輕人打電話。在黑暗里舉起火把,自然有同路人循光而來。王海峰并沒有費很大的力氣,就組建起了一支精悍的 NLP 團隊。 “你邀請他們的時候,用不用請他們吃個飯?”我問。 “印象中還真沒有?!蓖鹾7逭f。 “就打個電話?”我問。 “就打電話?!彼_定。 根據吳甜的回憶,比自己大十歲的王海峰剛剛帶隊的時候,有一種大叔的萌氣,連最基礎的網絡用語,像“蘿莉”、“正太”、“盧瑟”這些都不知道。 不過,這完全不影響團隊被王海峰的引力場所折服。在團隊組建早期的一次全體會議上,王海峰講了一套 PPT,里面滿是他對團隊未來的想象和周密的計劃。
我截了兩張圖,你感受一下。 而吳甜的印象中,有一次王海峰給他們開季度會,標題就是:仰望星空與腳踏實地。回到當時,團隊恐怕并沒人深究這句話的意涵。而如今,當這群人回望來路,發現自己竟然用了十年時間踐行了句話,才愈發感覺到這幾個字的炙熱和濃烈。
這張幻燈片也被找到了。 吳華記得,當時最難的就是給別人介紹自己的工作。 “我說我們是搞人工智能的,人家問什么是人工智能?我就說我們是搞 NLP 的,人家問什么是 NLP?我就說我們是搜索團隊的創新小組。人家才似懂非懂地走了?!眳侨A笑。 不過,這種格格不入反而成為了一種兇猛。像星火燎原。 沒過很久,人們就意識到百度搜索發生了變化。 2010年,百度上線了“即搜即用”。在搜索框里搜索一些應用或者游戲的名字,不用下載到電腦就可以直接在網頁版上運行。例如搜索“植物大戰僵尸”,就可以在網站上玩這個游戲。 2011年,百度上線了新首頁。就是每個人在百度上搜索,看到的信息是給這個人量身定制的。后來通俗的說法把這種技術叫做“千人千面”。
一片“人工智能”的新大陸,隱隱然出現在這些水手面前。 但是,“新大陸”上僅有“NLP”這一個據點,王海峰還覺得遠遠不夠。他專門跑到李彥宏辦公室去做匯報,講的不是 NLP,而是人工智能的另一個方向:語音識別。他的理由是:這些年語音識別的準確率一直在攀升,馬上就要到產業化的臨界點,一旦突破很快就會大規模商用,此時布局,才能占盡先機。 李彥宏憑借自己對技術的信仰和判斷,決定再次支持王海峰。 依靠這樣的邏輯,王海峰陸續建立了與“NLP 部門”平行的“語音識別部門”和“圖像識別部門”(當時叫多媒體部)、“知識圖譜部門”(當時叫互聯網數據研發部)。
講真,當時王海峰的這波操作,把很多百度同學看得一愣一愣的:“這些技術和百度現在的產品也沒關系啊,一股腦創建這么多部門,是攢著過年嗎?” 不過,當幾年以后百度陸續進入“自動駕駛”,推出“小度機器人”,進軍“產業智能化”的時候,這些答案也就順次揭曉了。此乃后話,略去不表。 我們還是回到 NLP 部門。 除了用 NLP 技術改善搜索體驗,王海峰和團隊同學心里還有一個亟待實現的小夢想,那就是心心念念了十幾年,NLP 學者的終極理想之一——“機器翻譯”。 不得不承認,在機器翻譯這件事兒上,百度的老對手谷歌可是占了先機的,早在2006年就推出了谷歌翻譯,并支持中文。當時正準備畢業的吳甜還饒有興趣地體驗了一把,輸入了“蚍蜉撼大樹”這種“送命題”來難為谷歌翻譯。當然,受限于數據和技術,當時的翻譯結果并不好。 不過,有吳華、王海峰這樣做了幾十年機器翻譯的國際大咖坐鎮,后期直追并不難。
十年前的翻譯結果沒有圖了,我找來2020年谷歌翻譯的結果。 2010年底,這群中國人終于要做屬于自己的“百度翻譯”了。 王海峰發現,在百度做翻譯和之前做翻譯,有兩點很大的不同。
第一,百度翻譯可依靠的數據空前廣闊,凡是搜索引擎能抓到的中外文對照頁面,都可以成為驅動翻譯引擎的石油。 第二,因為這些網頁都不是為了你做翻譯引擎而準備的,所以這些“石油”的質量其實參差不一,需要先用技術“精煉”一下才可以使用。
在石油產業中,石油精煉的技術含量遠比開采原油要大;同理,把海量的數據進行“精煉”的技術才是最有挑戰的地方。講真,當時的中國還沒有人踏足過這個技術領域,原因也很簡單——除了百度,別人沒有這么多數據。這就等于 NLP 團隊擁有了對這片處女地的“獨家開采權”,這更讓他們心潮澎湃。 在研發的過程中,王海峰不斷親手測試百度翻譯的效果,越測越激動。說到當時的感受,他的原話是:“可以用驚艷來形容?!?“2011年6月30日,百度翻譯上線?!?王海峰坐在我對面,這個時間幾乎是脫口而出。對于普通用戶來說,這只是百度的一個產品。對于王海峰來說,這是他的一個夢。 在百度翻譯剛上線的階段,王海峰一遍遍地刷著后臺的使用數據,無數用戶涌進來,翻譯著五花八門的句子——那些用戶無比真實的細節堆疊躍遷為浪潮涌動,如遷徙的角馬群一樣掀起隱天蔽日的塵土。 一貫冷靜的王海峰此時卻抑制不住興奮,高興得像個手握嶄新的變形金剛的孩子。 而吳甜也輸入了“蚍蜉撼大樹”來難為百度翻譯。得到的結果讓她很滿意。用更廣闊的中文語料訓練出來的翻譯系統,果然可以更準確地翻譯出這個民族的文化內涵。
這是我在2020年截的百度翻譯的結果。 在團隊慶祝的宴席上,已經在機器翻譯領域摸爬滾打了十八年的王海峰舉起酒杯:“過去一個禮拜,用到我們翻譯技術的人比過去十八年的總和都多!” 短短一句話,卻讓十八年的歲月如狂風掃過曠野。在這六千多個日夜里默默雕刻一個夢想,其間會遭遇多少內心的困境,一次次把自己從荊棘里拽出來繼續向前,身上會留下多少傷疤,這些恐怕王海峰永遠不會與人訴說。 2015年,王海峰牽頭的“基于互聯網大數據的機器翻譯核心技術及產業化”獲得了國家科技進步二等獎,和京滬高鐵、油田勘探技術同臺領獎。這個榮譽,被王海峰小心地放在記憶里。在他講述的時候,我依然能感覺到滿滿的虔誠。
短短三四年間,NLP 團隊為百度貢獻了很多果實。但是,百度這條“大船”也教會了 NLP 團隊很多東西。 為了讓百度翻譯能吸引更多用戶使用,NLP 團隊不斷向其他老百度團隊學習——什么是用戶需求;什么是迭代升級;什么是龐大的人口之下復雜而真實的中國;什么是在互聯網這個叢林里躬身入局所要承擔的風險和代價。 在百度的積累和成長,在那個深夜,幫王海峰做出了一個重大的決定。
(四)上前線 2012年8月15日,360 低調上線綜合搜索。百度心里清楚,懷揣十年搜索夢的“顛覆者”周鴻祎很可能比當年溫文爾雅的“外來和尚”李開復更難對付。 果然,360 來勢洶洶,一周就砍下全中國搜索份額的10%。8月28日雙方短兵相接,上演了“3百大戰”,而后雙方轉入拉鋸戰。 沒想到,在持久戰中360依然表現頑強,在未來的一年半,人們將會見證它的股票狂飆近十倍。雖然彼時市場份額還相差懸殊,但已經有一群賭徒在球場邊瘋狂地押注落后一方逆風翻盤的可能性。 2014年1月,春節將至。李彥宏邀請公司管理層到家里聚餐,日常每天七點半出現在辦公室里的王海峰,那天也發揮穩定——是第一個到的。
等待其他人的過程中,李彥宏把當時百度搜索遇到的具體問題都和王海峰講了。說者也許無意,但聽者卻走了心。 當天回家的路上,王海峰心緒難平,他意識到百度搜索可能面臨的危機,而與這個危機相關的無數種可能性在他心里反復推演,暗潮涌動。 那天晚上,他決定“主動請纓”。 在王海峰建立的幾個團隊中,只有和搜索貼合最緊的“NLP 團隊”和“知識圖譜團隊”跟隨他一起進入了搜索業務部,吳甜和吳華她們均在此列。 春節回來,NLP 核心團隊就集體上陣,他們對搜索的全面改造主要從兩個方面下手: 1、搜索的結果 當時各家的網頁搜索,都會有一個右側邊欄,會根據你的搜索關鍵詞聯想一些相關的問題。但是在這方面,百度做得優勢并不明顯。
這個右側的“相關電影”就是基于人工智能的推薦。 技術上,根據已有的信息做聯想,其實非常考驗“知識圖譜”的能力。 通俗來說,知識圖譜是知識的集合,包括常識——打雷要下雨,天冷穿棉襖,劉德華的老婆叫朱麗倩,成龍的兒子叫房祖名。從天文地理到娛樂八卦,都是知識圖譜的范疇。 由于之前知識圖譜團隊和搜索團隊分屬兩個不同的部門,所以搜索對于知識圖譜的利用并不好,這下,知識圖譜終于有了施展的舞臺。 知識圖譜當時的負責人是現任百度CIO李瑩,吳華也作為成員參與和見證了知識圖譜的研發攻堅。 這里科普一下,知識圖譜的生成,不是你想的那樣要靠人來一條條寫,而仍然是需要從全世界五花八門的網頁集合里提取的。只要是從互聯網的內容里提取,就難免會收錄奇葩的錯誤。就好像當年微軟用 Twitter 上的數據訓練的機器人 Tay 一樣,上線一天就學會了罵人,甚至滿嘴陰謀論。
于是,吳華他們絞盡腦汁改進算法,剔除錯誤的圖譜。 后來他們還想到了一個好辦法,用用戶的請求來做“交叉驗證”。舉個例子,假如自動生成的知識圖譜認為巴西的首都是里約熱內盧,但是用戶經常會把“巴西首都”和“巴西利亞”放在一起搜索,這時就會觸發機制,第一時間修正知識圖譜。
2、搜索的速度。 很少有人意識到搜索速度的重要性。但從指標上看,搜索結果每快0.1秒,都會大幅增加人們對于搜索引擎的好感度。 而為了增加搜索速度,需要對搜索引擎底層架構進行重寫。這套架構的重寫,雖然不是 NLP 團隊的任務,但是新架構卻給了 NLP 技術更大的舞臺。 例如,后來百度上線了一個“搜索預測”的功能,就是你還沒輸完關鍵詞,它就預測出你想搜什么,你就可以直接點選,不用費事輸完,這同樣提高了搜索速度。而要做到這一點,就必須依靠新的架構。
搜索預測大概就是這樣
那時候搜索團隊像打仗一樣,每兩周就要開一次全體會議校正航向,每周都會根據指標來改進搜索技術,而王海峰更是每天盯著搜索結果,站在一線指揮戰斗。
搜索的體驗其實是很細節的。例如,某個新詞剛開始流行的時候,會有大量的人開始搜索。這時,百度就必須第一時間感知到這是個新詞,并且為這個詞專門優化搜索結果。這個過程越快,識別得越準確,用戶的體驗就會越好。
吳華說。 而讓吳甜驚訝的是,那段時間,王海峰莫名學會了很多最新的網絡流行詞?!坝泻芏嘈略~我沒聽過,他卻能順口說出來。后來我知道,他是天天研究搜索后臺的 Badcase,學會了?!眳翘鹦?。 一頓操作,成績究竟如何? 到2014年3月6日,在王海峰出征一個多月的時間里,百度搜索右側推薦的體驗和覆蓋率已大幅提升,反超競品。有趣而巧合的是,這一天,不偏不倚正好是360在美股的市值巔峰,之后便一路下滑,它對于百度搜索地位的挑戰,就此畫上了長長的休止符。 經此一役,百度在搜索領域又擊退了一波進攻。王海峰鎮守搜索技術邊疆,和平維持了相當長的時間。 然而,在技術護城河的加持下,廣告收入像黃金河流一樣流入百度的城池。正如五百年前美洲的黃金流入西班牙一樣。 也許金錢是詛咒。眾所周知的問題,正在前方等待著百度的每一個人。
(五)荒野求生 后來百度的一系列危機,坊間各路傳聞和評價歷歷在目。不過,這個世界上,逃離戰火永遠是最簡單的選擇。而站在此地,讓腳下的土地鮮花重新盛開,才是勇敢者的游戲。 正如哥倫布的那次探險,在所有船員都干渴無助“逼宮”要求返航的時候,他仍然鼓足風帆,在看不到希望的情況下星夜兼程,才終于在最后一個清晨抵達美洲。人工智能的征程,才剛剛上路,星辰大海在前,返航不可能成為選項。 那幾年,百度有人走了。但王海峰沒有走,吳華沒有走,吳甜沒有走,NLP 團隊沒有走。還有千千萬萬的老百度人沒有走。 于是,在凌亂和迷茫的秩序下,涌動著一場盛大的“荒野求生”。 在 NLP 團隊的視野里,這場荒野求生有兩個重大的節點。一個是小度助手的出生,一個是信息流業務的創建。 先說小度助手。 不知你還記不記得,前面我們說過,NLP 研究者有兩個夙愿:1)機器翻譯;2)通用對話機器人。 早在2011年,在這群 NLP 瘋子的努力下,百度翻譯已經面世??蓪υ挋C器人卻遲遲沒能降生人間。
這里面至少有兩個原因:
1)技術不到家,做出來的通用對話機器人智障得厲害,拿不出手。 2)場景不明確,不知道做出來給誰用,怎么用。
當然,不僅是中國,全世界都面臨同樣的問題。這兩個問題必須一個個解。 先說技術不到家的問題。 其實,今天之所以人工智能這么火熱,街邊隨便一個大爺都能上來點評兩句,是因為在2014-2016年間,人工智能技術領域“天降猛男”,這位猛男就是“深度學習技術”。記住這個名字,今天我們用到的絕大多數人工智能,都要拜深度學習的成熟所賜。 你還記得羅森布拉特的“感知機”嗎?感知機的神經網絡,就可以稱為淺層神經網絡。通俗理解,把淺層神經網絡用特定的形式堆疊起來,就是更像人類大腦的“深度神經網絡”,用深度神經網絡做人工智能的方法就叫做“深度學習”。 在數據充足的情況下,深度學習相比傳統神經網絡的優勢,就像是坦克碾壓戰馬。
其實深度學習模型早在1980年代就被提出來了,但由于之前反復說到的“計算力不足”和“數據量不夠”這兩個鋼鐵天花板,深度學習技術一直像丑小鴨一樣備受排擠,沒看出來多厲害。 但是到了百度,突然轉角遇到愛。取之不盡的數據,用之不竭的計算力,讓王海峰長期技術積累鍛煉出來的直覺一下子被觸動,很快就看出來深度學習的優勢巨大,于是在2013年他就力薦李彥宏建立了百度深度學習研究院(IDL)。在深度學習的研究上,百度并不比公認的人工智能巨頭谷歌晚。 當然,深度學習也并沒有神到“讓機器人瞬間就能出口成章”的那種程度。NLP 團隊決定,先把自己的夢想縮小——之前他們一直“妄圖”要做一個上知天文下知地理對答如流的“通用對話機器人”,后來他們現實了一些,主要讓機器人從做“任務執行”和“資訊檢索”這類簡單事情開始。
深度神經網絡示意圖,通過一系列神經卷積,識別這個圖像是數字“7”。 再說場景不明確的問題。 其實早在王海峰負責搜索之前,就已經帶領語音和NLP的創新團隊做出了這個機器人的雛形,分別是“音箱”和“藍牙耳機”的形態??梢灾苯訂栠@個音箱:“中國有多大?”云端的人工智能就會通過語音回答你:“960萬平方公里?!?只不過,那時候王海峰主動請纓進入搜索,沒辦法把這個部門也帶進搜索,于是慢慢擱置了。 直到2014年9月16日的江蘇衛視《芝麻開門》節目上,百度冷不丁帶來了一個很厲害的機器人,在知識問答上碾壓一眾選手。沒錯,這個機器人就是王海峰在搜索團隊內部重新孵化的,采用深度學習技術做出的“小度機器人”。 當時各大媒體爭相追捧,把背后的百度技術人當成明星一樣崇拜。
可是亮相之后怎么辦呢?小度到底能干什么? 當時百度搜索的產品總架構師景鯤,絞盡腦汁要把小度派出去“打工”,先是把小度放在PC搜索框旁邊,鼓勵人們通過語音搜索;后來又放到手機百度里,讓人們通過它訂餐訂服務;后來又放到合作伙伴生產的冰箱、電視里;直到最后,才輾轉做回了智能音箱的形態——“小度音箱”。 那小度音箱是用在什么場景的呢?它被百度認為是每個人的“秘書”,坐鎮每個人的客廳和臥室,主要工作恰恰就是剛剛所說的“任務執行”和“資訊檢索”。 這里還有一個有趣的插曲。 2014年王海峰帶著景鯤他們去黑龍江雪鄉開會,探討未來搜索應該朝哪個方向發展。大家一致認為未來搜索的下一個形態就是“秘書”。景鯤開玩笑說:“未來的搜索就是姬然。”姬然就是當時王海峰的秘書。 既然“秘書”是搜索的下一代產品,那小度音箱可就是百度搜索的繼承人啊,分量不言自明。
我們從來沒有這么多人壓上去做一個技術。在做小度助手的時候,NLP團隊的一半人都去了,知識圖譜也有一半人去了。
吳華回憶。 那之后,小度經歷了悠長的暗夜,直到2018年才異軍突起,此乃后話。(小度的故事,我寫在了另一個萬字長文里,感興趣的淺友可以去看看:《吾兒,小度》) 在小度獨自探索的日子里,另一場荒野求生也在緊鑼密鼓地進行。
景鯤和蔡康永,在小度音箱的發布會上。 接下來就說“信息流”。 2016年,李彥宏親自掛帥,秘密研發了百度的新產品——信息流。 現在你打開手機百度 App,可以看到搜索框下面像瀑布一樣向下排列的文章,這就是信息流。在外界看來,這個產品既是百度對標今日頭條的產品,又是百度在搜索之外開辟的第二個盈利戰場。 吳甜告訴我,信息流產品的核心技術正是 NLP,主要包括兩大方面:
第一,是對文章的理解。通過 NLP 技術,好像做一次“閱讀理解”,把這篇文章的領域、主旨、關鍵詞、觀點、情緒分別提取出來。 第二,是對人的理解。通過 NLP 技術對人的搜索關鍵詞、對于文章的觀看和滑動行為來判斷ta的品味、性格、觀點和關注領域。
有了對文章的理解和對人的理解,只要把特定的文章推薦給特定的人,就完成了。(當然推薦的時候,不會使用“你喜歡什么就只給你推什么”這么傻的策略,百度和今日頭條都不會。這里面涉及更復雜的知識,此處就不詳細說了。)
其實,當時百度高層“要做信息流產品”這個決定一下來,推進執行非???。整個信息流產品從研發到上線,只用了25天。 項目組第一時間找到 NLP 團隊做技術支持時,沒想到,NLP直接把信息流所需要的核心技術“對人的理解”和“對文章的理解”拿了出來。原來,NLP 團隊早就在內部把這些技術做了預研,沒什么原因,就是覺得將來肯定有產品能用到。 站在今天回望,在搖搖欲墜的艱難時刻,真正幫百度穩住陣腳的,恰恰是“小度音箱”和“信息流”這兩款產品——小度音箱貢獻了搜索之后人們對于百度產品的想象空間;而信息流業務則幫助搜索業務撐住了營收。 而在這兩個產品背后,NLP 團隊的兇猛和遠見功不可沒。 然而,僅僅穩住陣腳還遠遠不夠。 在絕大多數人眼中,BAT 是一個存于底層記憶的詞匯,在人們的腦海里,BAT 這三家互聯網“開國先賢”應該而且必須永遠是那個沒有道德瑕疵的,遇事冷靜游刃有余的,能夠把互聯網以及中國科技帶向公平和開放的神。 每一句嬉笑怒罵,每一次冷嘲熱諷,從本質上都是億萬國民對百度的鞭策,百度不僅無權爭辯,而且需百倍努力。 荒野尚在,求生未止。
(六)實業報國 幾千年的榮辱浮沉,讓中國士人總結出了真言:窮則獨善其身,達則兼濟天下。 2018年后,百度是否走出了泥潭,每個人都有自己的判斷,但百度對自己的的判斷是:他們必須刻不容緩地離開獨善其身的自救思維,強行走上兼濟天下的道路,用人工智能為全社會服務。 這就是百度的人工智能產業化戰略。 這是救贖,也是新生。 雖然從歷史的星河俯瞰,人工智能技術尚處在襁褓中,但不管了:進一步,有進一步的歡喜。 2017年,百度邁出兼濟天下的第一步:宣布整合包括NLP、KG、IDL、Speech、Big Data 等在內的百度核心技術,組成百度人工智能技術平臺體系——AIG。
王海峰也終于告別了搜索這個給了他們三年濃重記憶的榮耀與紛爭之地,出任 AIG 負責人。 而后的2018年,百度的基礎體系 TG 歸于王海峰統領,一年之后的2019年,百度智能云事業群 ACG 也歸于王海峰統領。同年,王海峰出任百度 CTO。 這意味著,從人工智能所需要的基礎計算力,到人工智能技術本身,到人工智能對這個國家服務的出口云計算,形成了統一的集團軍。 從1994年的綠皮火車,到2010年“仰望星空,腳踏實地”的演講,到2015年人民大會堂的獎狀,到2018年的小度音箱,到2019年的人工智能產業化,王海峰的夢想始終沒變,變的是他手中越來越強大的武器。 據此,百度開始馬不停蹄地把人工智能送進各行各業,而在這個過程中,NLP 技術仍然占據著重要的地位。 在人民日報,百度的 NLP 閱讀理解能力幫助記者整理熱點信息,尋找錯別字,把記者寶貴的時間用來集中在純粹的創作上。 在北京平谷馬坊社區,NLP 可以學習經驗豐富醫生填寫的病例,成為一套診療系統,為基層衛生站的醫生提供最專業的診療輔助。
在中國聯通,百度 NLP 技術支持的客服機器人為用戶提供服務,把用戶等待的時間節省了70%以上,人員成本也降低了10%。 在浦發銀行,在百度的幫助下推出了“數字人”客服機器人,這個客服機器人以一個人類形象示人,可以幫助用戶來辦理業務,答疑解惑。
到了2020年,新冠疫情突然襲擊全世界。在這個緊急的場景中,NLP 技術也發揮了巨大的作用。 由于疫情,百度地圖上顯示的很多商戶采取了臨時關門的措施,很多顧客都吃了閉門羹。百度地圖緊急調用 NLP 技術支持的客服機器人,用語音電話的方式向所有商戶查詢最新的營業時間調整情況,更新到了地圖上。 而在中國疫情最嚴重的時候,國家疾控中心火速上線了疫情問答系統,全國很多人都會登錄這個官方咨詢系統去咨詢防護知識,人工客服回答不過來。這時百度就用 NLP 技術做了一個疫情問答機器人,不僅分擔了很多人類客服的工作,還讓無數焦急的人得到了科學的答案。 而在疫情防控中,中國醫生的表現驚艷全世界。很多國外官方機構都在向中國尋求標準的治療流程手冊。而這些如果純粹依靠人類翻譯,會需要幾個星期時間,患者的救治就會被耽誤,百度翻譯提供了醫學領域的翻譯模型,免費提供給翻譯志愿者,讓翻譯的進程大大加快,只用了不到一周就翻譯成世界各國語言。
現在在百度翻譯上,還有生物醫藥的專用詞庫。 這樣的例子還有很多。人工智能和 NLP 正在走出孕育他們的互聯網大公司,化成涓涓細流進入各個傳統產業的海洋。 在時光的河流岸邊,王海峰心心念念將近30年的實業報國,仿佛初見端倪。 而作為一群理想主義者科學家,百度 NLP 團隊也會用另一種方式報國——把自己的發現和全球學術界共享。 2015年,國際計算語言學協會 ACL(The Association for Computational Linguistics)年會上,百度發表了探討用NMT技術(基于神經網絡的翻譯方法)解決多語言翻譯及語料稀疏的問題的論文《Multi-Task Learning for Multiple Language Translation》,受到業內的極大關注。Google 和 Bengio 的研究團隊都在此論文的基礎上進一步擴展了研究。
而這些只是百度在國際頂級學術會議上的高光時刻之一。早在2013年,王海峰就出任了國際計算語言學協會 ACL的主席,這是 ACL 歷史上首任華人主席。2014年,吳華出任ACL 2014程序委員會主席。
2013年,保加利亞首都索菲亞,ACL 的年會上,王海峰出任ACL主席。
這些榮譽和名頭似乎對普通人來說有點陌生,但是它們卻是一支科技隊伍需要十年如一日的默默前行才能得來的,它們代表了中國在 NLP 領域已經開始領導世界。 在王海峰之前,有一任 ACL 主席曾經半開玩笑地說過:“再過50年,也許所有 NLP 領域的論文都會是用中文寫的?!?無論是 CTO 王海峰,還是百度研究院科學家 Ken Church、技術委員會主席吳華、集團副總裁吳甜、人工智能技術委員會主席何中軍……他們如今都在學術界、產業界獲得了很高的認可,但他們身上卻散發著一種謙卑而淡定的氣息。 我猜,也許正是這些氣質護佑著他們穿越時光。 他們身處一個巨大的戰局,卻更關心每一場微小的戰役,甚至關心每一個據點的建立,每一片高地的奪取,每一顆子彈的方向。
他們在漫長的戰爭中時刻警醒,靠著專業自信預判技術的走向,讓每一次機會來臨時,做出的選擇都足以讓天平傾向自己一點點,讓微小的勝利成為歡喜,再讓歡喜帶來更多的勝利。 今天,NLP 團隊都只有一兩百人,可謂精兵強將。而遙想當年,做出百度翻譯的,只有王海峰、吳華等四個人,做出知識圖譜的,也只有幾個人。 他們在順風的時候,并未賭上全部糧草殺伐四方;他們在逆風的歲月安住自己,但并未停止腳步。他們用盡全力影響著百度的一個個真實的人,使他們安住在合適的位置,讓百度的技術火種在風雨飄搖中依然如心臟跳動。 他們終于等來了春天。
每個人都有不同的信條,每個人都要走好自己的路。我們這代人,從小接受的教育就是要當科學家,我們相信的哲學是“科技是第一生產力”。我的家國情懷也許就是這樣慢慢生長的。我希望我不只是做了一件事兒,而是這件事兒能夠對國家有貢獻。這一直沒有變,也不會變。
王海峰說。 從1956年達特茅斯會議至今,人工智能從科幻電影里一點點降落凡塵。 如今它可以讓老人也可以通過語音控制播放相聲、戲曲,扔掉那些用了幾十年的磁帶。 如今它可以讓英語不好的普通人也能無障礙閱讀世界的消息,讓知識不再是少數人的特權。 如今它可以清楚地辨別每個人臉的輪廓,只要一秒鐘,就可以證明“我是我”。 如今它可以穿梭于氣候惡劣的荒原、沙漠、無人區,用火眼金睛輔助人類巡檢輸電塔的工作狀態。 而它前面的路,還有億萬年。
人工智能是第四次工業革命的核心驅動力量,你如果要把它放到歷史長河里,上升到一次工業革命的高度,它的發展至少是幾十年、上百年的,現在只能說還處在早期。每個人都會有危機感,但我通常不會去思考自己走到了那個階段。這么多年的困難教會了我,遇到問題,解決問題,也就是了。
王海峰說。 告別王海峰和 NLP 團隊,我腦海里突然冒出一個有趣的問題: 如果沒有哥倫布和那艘圣瑪利亞號,歐洲人還能否發現新大陸?如果沒有這群堅定的科學家,百度又是不是今天的百度?我沒有得出答案。但我知道的是,在風起云涌的歷史中,總要有人第一個踏上美洲,用血肉之軀去獨自面對未知、艱險和隨之到來的一切結局。 我腦海里浮現出哥倫布的一句話:
發現只孕育在勇往直前的堅持之中。我想,它大概與懦夫永遠無緣。
道路是漫長的,但前途是美好的,我們需要一些耐心。
原文標題:Siri 太年輕,這些人為了做 ai,正在改變世界!
文章出處:【微信公眾號:哎咆科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
31039瀏覽量
269388 -
人工智能
+關注
關注
1792文章
47376瀏覽量
238877 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13579
原文標題:Siri 太年輕,這些人為了做 ai,正在改變世界!
文章出處:【微信號:guofen1225,微信公眾號:哎咆科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論