2017年5月2日,騰訊宣布任命語音識別技術頂級專家俞棟博士為AI Lab(人工智能實驗室)副主任,并成立美國西雅圖AI實驗室。
俞棟博士將負責西雅圖AI實驗室的運營及管理,推動騰訊在語音識別及自然語言理解等AI領域的基礎研究。
這是近段時間以來,騰訊在人工智能領域的第三個大動作。
一個多月前的3月19日,由騰訊AI Lab研發的圍棋AI絕藝,在日本UEC杯圍棋大賽中奪得冠軍。這是低調運行近一年后,騰訊AI Lab首次對外展示研究成果。
就在絕藝奪冠后不久,3月23日,騰訊宣布任命人工智能領域頂尖科學家張潼博士擔任騰訊AI Lab(騰訊人工智能實驗室)主任。
而今天,又一位大將加入了騰訊人工智能的陣營。
對于俞棟的加入,騰訊AI Lab主任張潼博士表示,“俞棟博士是語音識別與深度學習領域的專家。我們很高興能邀請到俞博士加入騰訊AI Lab,相信他的到來將極大提升騰訊AI的技術實力。我們希望騰訊AI Lab不僅是一個實驗室,還是一個連接器,通過將全球的優秀人才連接在一起,不斷推動AI的基礎研究及在更多場景的應用落地,讓AI無處不在。”
俞棟博士
騰訊AI Lab副主任俞棟博士表示:“我很高興能加入騰訊AI Lab。在過去十多年里,騰訊積累了豐富的應用場景、海量數據、強大的計算能力和一流的科技人才,這些都是開展AI深度研究與應用的重要基礎,也是吸引全球人才的重要原因。我相信,隨著西雅圖AI實驗室的成立,未來將會有更多的一流人才加入騰訊AI Lab,共同推動全球AI技術的發展。”
在國際語音識別研究界,俞棟是一個無法忽視的名字。
加入騰訊前,俞棟擔任美國微軟研究院語音和對話組(Speech and Dialog Group)首席研究員,并兼任浙江大學兼職教授、中科大客座教授、及上海交通大學客座研究員。
俞棟博士與George Dahl 博士、鄧力博士等共同研發的上下文相關深層神經網絡-隱馬爾科夫模型(CD-DNN-HMM)是深度學習技術在大詞匯量語音識別任務上的首次成功應用,他們的這項突破性工作,曾獲 2013年IEEE信號處理協會(IEEE SPS)最佳論文獎,引起了大詞匯量語音識別研究方向的轉變,極大地推動了語音識別技術的發展。
同時,近年來騰訊也在不斷加大對人工智能領域的投入。2016年4月,騰訊AI Lab成立,總部位于深圳。作為騰訊公司級AI實驗室,AI Lab專注于基礎研究和應用探索的結合,致力于提升AI決策、理解及創造能力,并為騰訊各個產品及業務提供AI技術支持。
騰訊AI Lab由機器學習和大數據領域專家張潼博士領導,現有50多位世界知名院校的AI科學家(90%為博士)與200多位應用工程師。作為語音識別技術方向的頂級專家,俞棟的加入意味著騰訊在人工智能上的布局將進一步向基礎研究方向延伸。
在俞棟加入騰訊之際,我們對他進行了專訪,在了解這位騰訊美國西雅圖AI實驗負責人的同時,也期一窺騰訊在人工智能布局上的更多拼圖。
一把名叫AI的鑰匙
當下人工智能熱潮席卷全球工業界,語音識別是其中最有可能成為第一個誕生大眾級應用的技術,這離不開語音識別在基礎研究上取得的進步,而俞棟是相關研究能夠獲得突破性進展的關鍵人物。
2011年夏末秋初的8月28號,來自世界各地的專家學者齊聚意大利佛羅倫薩,接下來三天,由國際語音通信協會(ISCA)組織的第12次年會(Interspeech 2011)將在這個文藝復興發祥地舉行。
作為語音領域最重要的兩個國際會議之一(另一個為ICASSP),每年的Interspeech都會吸引來自學術界和工業界的從業人員參加,在大會上圍繞語音領域的最新技術和研究方向進行交流。
大會進行到第二天,一篇名為《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks》(使用上下文相關深層神經網絡進行交談語音轉寫)的論文發表,并迅速引起了科研界的高度重視。
論文提出了基于人工神經網絡的語音識別新方法,實驗結果顯示,新方法大幅降低了語音識別的錯誤率。這意味著,曾于20世紀80年代末掀起熱潮并最終沉寂下去的人工神經網絡被再次引入語音識別研究領域,開啟了語音識別的深度學習時代。
俞棟正是這一成果的主要研究人員。
2011年距今日人工智能熱潮第三次興起尚有六年,人工神經網絡在學術界幾經起落,彼時并不被看好。
俞棟對騰訊科技回想起當時的情景,仍頗有感慨:“這項工作(將深度學習的方法引入語音識別領域)一開始受到很多懷疑,很多同事或者朋友都經歷過80年代末90年代初,神經網絡從高潮跌落到低潮的過程,所以他們都對此有一定的懷疑。”
但俞棟及其團隊開辟的新方法用實際成果回應了質疑,“基本上兩年之內,很多公司重復了我們的工作,發現確實對識別率有很大幫助,很快變成行業標準。但在我們這項工作之前,這類論文發表其實有一定困難,但是兩年之后,變成沒用深度學習技術就很難發文章了,反過來了。”
深度學習的鑰匙打開了語音識別研究的新大門,進入深度學習時代后,語音識別也在不斷取得突破。
2016年9 月中旬,微軟報告了在語音識別方面取得的新里程碑:在Switchboard這一電話交談基準測試集上新系統的識別詞錯率降至 6.3%;一個月后,微軟又公布了在這一基準測試集上成功實現了歷史性突破:他們的語音識別系統詞錯率(WER)和專業轉錄員相當甚至更低,達到5.9%。
數據背后的意義是,語音識別的識別率在近場上已經可以做到超過實用的門檻,在很多應用場景里可以應用。比如微信里面的語音轉文字、語音輸入法以及各類APP的語音輸入框等。
在實際應用層面,語音輸入已經成為許多APP必備的一項功能;但在研究層面,語音識別仍有許多留待攻克的難點。
俞棟介紹,當下更困難環境下比如遠場、高噪音、或帶口音的語音識別是仍需解決的問題;自適應方法(adaptation)也是重要的研究方向。
身處語音領域最前沿,俞棟的研究重點在往更深的層次走。而在加入騰訊AI Lab之后,俞棟也將帶領團隊主攻遠場語音識別以及自然語言理解兩個方向。在騰訊AI Lab的人工智能布局中,由俞棟帶領的AI Lab西雅圖實驗室,將是另一個主場。
來自騰訊的邀約
作為最早把深度學習技術應用于語音識別領域的研究者之一,俞棟已經是語音識別和深度學習方向的頂級專家,出版了兩本專著,發表了160多篇論文,是60項專利的發明人及深度學習開源軟件CNTK的發起人和主要作者之一。曾獲2013年和2016年IEEE信號處理協會最佳論文獎。現擔任IEEE語音語言處理專業委員會委員,曾擔任IEEE/ACM音頻、語音及語言處理匯刊、IEEE信號處理雜志等期刊的編委。
2016年,俞棟與微軟研究院同事鄧力合著的《解析深度學習——語音識別實踐》在國內出版,首次專門講述了如何將深度學習方法,特別是深層神經網絡(DNN)技術應用于語音識別(ASR)領域。
1998年即加入微軟公司的俞棟,見證了翡翠之城如何在硅谷之外崛起成為美國人工智能研究集聚地的過程。
總部位于西雅圖的老牌IT巨頭微軟從早期就開始對人工智能有比較大的投入,培養了眾多在人工智能方面比較有經驗的人才,如今微軟旗下的人工智能及研究院事業群已經擁有五六千人,這是一個巨大的人才庫。
微軟的投入在幾年前逐漸吸引了包括谷歌、Facebook、蘋果在內的科技巨頭到西雅圖設立大規模的研發中心。如今,總部同樣位于西雅圖的亞馬遜也建立了超過一千人的人工智能團隊。
眾多科技巨頭扎堆下,西雅圖對人才的吸引力越來越強,人才集聚效應使得很多專業人才都從硅谷或其他的地方轉到西雅圖,如今西雅圖每年的流入人口非常大。
身為國際頂級語音研究專家,向俞棟伸去的橄欖枝為數眾多,選擇加入騰訊之前已經有很多公司找過來,卻并未打動他。
俞棟最終選擇騰訊,是因為騰訊具備開展語音識別研究的有利條件。俞棟對騰訊科技介紹,選擇加入騰訊有幾個原因,第一,語音識別必須有大數據來源,必須有大運算能力,必須有出口形成反饋機制進而優化產品,即一定要有落地的場景。第二自己偏好研究,喜歡解決一些有挑戰性的問題,其他的一些公司各有利弊,比如有產品但是缺研究。而俞棟看重的這些條件,“騰訊都能夠滿足。”
不設KPI的西雅圖實驗室
騰訊打造一流AI實驗室的決心,西雅圖在人工智能上的人才儲備,及俞棟的最終加入,讓西雅圖AI實驗室的建立變得水到渠成,而這個實驗室沒有KPI。
沒有KPI的原因與西雅圖實驗室的定位有關。
2016年4月,騰訊成立AI Lab(騰訊人工智能實驗室),致力于人工智能基礎科學的開放研究,以及應用領域的深入探索,做到“學術有影響,工業有產出”。
目前實驗室有50余位世界知名學院的AI科學家(90%為博士)、及200多位經驗豐富的工程師進行基礎研究與應用探索。
AI Lab聚焦四大領域的基礎研究,包括:計算機視覺、語音識別、自然語言處理與機器學習,力求全面覆蓋,并深層次拓展AI的前沿技術能力。同時發展AI在具有騰訊特色的四大業務場景中的應用能力:內容 AI、社交AI、游戲AI和平臺工具AI。
俞棟介紹,在騰訊AI Lab的研究體系中,美國西雅圖AI實驗室將承擔一些語音識別和NLP的基礎和前沿研究工作,并試圖解決這些領域更困難的問題,位于深圳的AI Lab則將繼續基礎研究+快速應用的結合,把在四大領域的研究和技術比較快的應用到實際場景中。
簡單來說可以概括為,西雅圖實驗室專注于基礎研究,深圳總部的團隊還需兼顧應用研究。但實際上在基礎研究和應用研究之間沒有非常嚴格的界限,有時很難說清楚一個東西是屬于基礎還是應用,比如基礎研究團隊如果把某一項技術里的關鍵問題直接解決,那么它就可以立刻應用到產品里面,但這些問題一般來說會比較難,因此很難預測它什么時候能解決。
由此,西雅圖實驗室進展的確定性沒有那么強,這意味著需要投入更多耐心,需要激發更多新穎的想法和算法。
在語音識別做了二十多年研究的俞棟深刻了解做基礎研究需要的耐心和投入,而在與騰訊方面進行了多次溝通后,在長期耐心投入研究上內部也形成了共識。
“如果要在技術研究上取得突破,確實需要有一定耐心,相對來說長期穩定的投入,西雅圖這邊基本上秉持這樣的理念。我們希望長遠來講,能夠創新性地攻克關鍵的、主要的技術難題,在真實應用場景里有很大的性能提升。但是因為我們沒有辦法預測到底哪天能成功,我們希望在每一個階段都會有一些進步,這是我們唯一可以定義的一些進步,但是這個進步會有多大,也是沒有辦法比較明確說出來的。”
多年的研究生涯讓俞棟養成了縝密的說話風格,采訪中,對于人工智能相關技術的問題,俞棟的回答都非常嚴謹,在給出結論前,會將原因及各類影響因素闡述清楚。
但在語音識別研究與騰訊業務可能的結合點上,俞棟的判斷非常樂觀:物聯網、游戲、微信、QQ等,都有很多業務場景用到語音識別,而語義理解與騰訊社交應用的關系會更大。
如今西雅圖實驗室剛剛成立,作為實驗室負責人,俞棟當前的主要工作是招攬人才搭建團隊。
俞棟希望能建立一個20人左右的團隊,招徠有一定研究能力的人才,“研究人員能力和潛力兩個部分我們都會注意,現在在通過各種渠道去發現合適的人才來加入。”
接下來,俞棟就要帶領更偏向于研究、更接近于美國大公司研究院性質的西雅圖實驗室在語音識別和語義理解研究上繼續探索了。這是一項需要長期堅定投入的工作,但已經做了二十多年研究的俞棟以及騰訊已經有了充分準備。
“我們有耐心。”
?
評論
查看更多