黃學東:大家好!今天我主要想和大家分享一下微軟的故事,相信一定會很激動人心。但在正式分享之前,我想介紹一下人類進化的歷程當中語音起到了多大的作用。
達爾文的進化論已經說明,最新的科學驗證也再次證明,我們人和大猩猩DNA的相似度接近99%,就那1%的區別造就了我們是這個地球的主宰。為什么呢?因為我們更聰明嗎?還是漫長的進化過程當中有什么其他因素?計算機視覺非常重要,但動物的視力其實比人還厲害,晚上的夜貓子看得比人更厲害,但我們仍然是這個地球的主宰。最重要的原因之一是我們的語音和語言,所以大家可以在今天準時地來到這個地方和我們一起討論人工智能激動人心的進展。語音和語言對人類的進化是起到決定性作用的,當然對人工智能的進化也有同等的重要性。
微軟在過去的幾年當中多次創造了接近人類水平的人工智能進展。以今天的ImageNet作為圖像識別的標準,微軟兩年前就第一次在圖像識別斯坦福大學的ImageNet達到了超越人的水平。去年微軟又宣布公開測試級對話系統Switchboard的最新成果最新成果。這是語音領域大家都很熟悉的一個很重要的任務,就是識別兩個人在電話上的交談,微軟第一次在業界達到了超過普通人的專業水平。今年在斯坦福大學的SQuAD閱讀理解挑戰賽,微軟再次達到了媲美人類的水平。上個月微軟再次創造了在中文和英文翻譯上達到了超過專業人員翻譯質量的水平,這是前所未有的。所以這確實是一個激動人心的時刻,人類進化的長河當中語音起了決定性的作用,今天在人工智能的進化當中語音和語言會起到同樣的作用。
去年《經濟學人》有一篇封面文章,總結了過去的四十年語音和語言的重要進展,早在五十年代IBM就開始了機器翻譯的工作,那個時候我還沒有出生。過去的幾年當中有三個很重大的歷史事件:蘋果第一次推出Siri,也就是手機上的個人助理。Google推出了基于神經翻譯的產品,大大推動了機器翻譯的進步。微軟第一次在業界歷史性地創造了超越人的自然對話系統——語音識別系統。
這張圖顯示了過去的二十年當中語音識別的同行們通過不懈的努力,創造出了很多輝煌的成果,但有一條紅線,就是Switchboard錯誤率一直在10%以上,直到最近幾年因為深度學習的進展,微軟和IBM的公開評測當中一直起到了領頭羊的作用。
去年微軟是第一次達到了5.1%的水平,超過了普通轉錄人員的標準,也是非常激動人心的進展。采用的方法是組合了多種不同的深度神經網絡,包括ResNet、LACE和BLSTM,通過并行的處理組合成了一個工程上完美的語音識別系統,其實在云上是不費吹灰之力的,只是計算機的資源會比較多。
微軟在語音合成領域也有很多進展。我們支持將近包括50種語言的語音合成系統,而且它的質量也達到了4.3 MOS, 這是非常振奮人心的。
這是微軟和哈曼音箱聯合推出的聯想語音識別系統,喚醒智能音箱的時候不是非常自然,微軟最近和小米聯合推出了全雙工的語音對話系統,就是喚醒以后可以連續講,不需要每次都說喚醒詞“小娜”再說語音指令。這是微軟核心的語音技術在中國落地的一個非常好的案例,它的基本思想非常簡單,就是我跟你講話,比如我見到鄧院士每次都說“鄧院士,今天你好嗎?”“鄧院士,你今天吃飯了沒有?”所以大家會覺得很煩,全雙工的系統只要喚醒一次,接下來就可以很自然地跟它交互。
大家可以看出,全雙工的語音交互在中國已經落地,和小米的合作產品今天可以很便宜地買到一臺,讓它幫你掃地、開燈、看股票,這些都沒問題,如果實在閑得慌的話可以和小冰聊天斗嘴,這是已經落地的產品。
和大家介紹一下最近微軟在機器翻譯上的重大突破。就像《經濟學人》說過的,1954年開始IBM Wason就開始了機器翻譯的研發工作,那個時候是傳統的機器翻譯,根據自然語言的處理方法。后來IBM再次引導了新潮流,將語音識別的核心技術統計方法使用在機器翻譯上,Peter Brown這些人把語音翻譯的質量推向了新高度。過去的幾年因為神經網絡學習的進步,我們再次把機器翻譯推向了新的高度,但還沒有達到人的水平。
非常振奮人心的是,今年微軟公司首次在公開測試當中中英新聞翻譯當中第一次達到了類人的水平,這是非常了不起的歷史性里程碑,這樣對幫助中國的聲音走向世界是毫無疑問的,因為翻譯的水平和專業人員是同等可比的。
微軟不僅是在研發上進行推廣,實際上很多產品已經落地。比如PPT,你們只要下載一個Presentation Translator的插件,所有的講話可以同聲翻譯、同聲傳錄,而且是免費的。下載以后可以支持60種語言、100個人在課堂上同步交流。演講之前可以讓大家掃描二維碼,通過微軟翻譯的手機應用可以加入對話。大家知道,字幕當中只能顯示一種語言,如果是60種語言怎么辦?沒關系,也可以顯示在你的手機上面。
分享一下我個人的經歷,我在八十年代離開清華,當時在清華學的都是美式英語,然后到蘇格蘭愛丁堡大學留學,當時我就懵了,因為蘇格蘭教授的口音非常嚴重,當時我就想要是有一個字幕機多好?那是三十年前的痛點,今天可以很驕傲地告訴大家,這個痛點早就可以由微軟Office免費為大家提供同聲翻譯服務。大家可以讓教授在臺上講蘇格蘭英語,臺下可以在你的手機上看到從希臘文到廣東話的近60種語言的實時字幕翻譯。這是非常振奮人心的時刻,如果今天還有哪位同學要去蘇格蘭留學,我想大家不會再為蘇格蘭英語而苦惱了。
所謂的中英翻譯達到人的水平是怎么回事?這是一個標準的新聞翻譯任務,也是在業界廣泛使用的。在這之前,中國的搜狗在這個測試集上做到了最優秀,可以看出如果要人來評估,第三行的搜狗基本上是62分,就像老師打分一樣,把這個東西翻譯過來以后如果是十全十美的學生可以拿100分,如果出了很多錯誤的話這個老師非常嚴厲,可能會給零分。在微軟技術突破之前,業界在這個測試任務上最先進的機器翻譯系統是中國搜狗,達到了62.3分,現有的產品我也不說是誰的產品了,以免大家覺得我們對同行有不誠之意,只有54分左右。如果今天用微軟的Microsoft Translator也只有56分,勉強及格。微軟最新的機器翻譯突破分數達到69分,拿到中英翻譯執照的專業翻譯人員得出的結果是68.5分,所以如果大家是翻譯人員水平是67.3分。這是最新的機器中英翻譯第一次取得歷史性突破,對中國走向世界是非常有積極意義的。
下面簡單介紹一下這個突破是怎么回事,它的主要核心技術用的是Transformer的機器翻譯模型。
微軟亞洲研究院自主研發的Dual Translation Learning,就是大家在中英翻譯的時候,翻譯成英文后再用一下反向翻譯,就是英翻中,保證這兩種翻譯的一致性比較好,可以得到一個最高、最優的聯合優化目標函數。通過這樣一個正向和反向的翻譯,我們可以大大提高現有機器翻譯的質量,這是和人進行翻譯的過程類似的機器學習的新算法,機器翻譯上取得了長足的進步。
大家在做翻譯作業的時候翻完了一遍是不是想再翻一遍把它優化?所以我們還有一個Deliberation,就是可以在第一次翻譯的基礎上同步優化,這樣也更進一步提高了機器翻譯的質量。
我們還有從左到右、從右到左的聯合優化函數,再一次提高了機器翻譯的質量,就是因為這些聯合系統的組合造就了我們歷史性地第一次達到了中翻英超人的水平。要做其它語言同樣是沒有問題的,我們希望其他語言和中英翻譯的落地很快就會產業化,再再過一些時候你們再用Microsoft Translator的時候會享受到與真人相似的機器翻譯質量。
這是微軟公司在斯坦福大學對話文本理解上的進步,過去的幾年當中斯坦福大學建立了圖像認識的標準,現在自然語言處理方面也有一個華人教授和他的團隊建立了閱讀理解系統,微軟亞洲研究院和微軟的同事們又一次達到了超人的水平。
特定的認識對話方面的水平確實是相當高的,用的方法也像機器學習、機器翻譯的系統一樣有一個Embedding,通過不斷的深度優化達到最優的結果,就像現在的機器翻譯一樣。
剛才我講的過程是從認知到感知的循環系統,大家在對話的時候閉著眼睛也能聽懂,但聽懂的效果不是很好,睜開眼睛的話一定會幫助你理解語義,所以在人的交互過程當中一定是Congnitive Intelligence和Perceptive Intelligience的共同進展,現在自主學習、知識積累和長遠規劃方面沒有多大進展,所以大家不要聽人工智能的忽悠,現在我們基本上還早得很。機器翻譯現在是基于這兩種智能過渡的一個小成果。我們非常高興,也非常激動人心,因為從感知到認知的過程當中人工智能深度學習終于有了一個長足的進步。
微軟AI的平臺把所有的認知服務都打包到了Azure這個云上,從最底層的核心架構到最高層的算法都有,大家可以去微軟的平臺選用、享受、分享微軟的最新人工智能研發進展和工程化的結果。
這是第三方對微軟、Google和亞馬遜在語音和語言API方面的評估,可以看出微軟中間綠顏色的比較多,這當然是符合大家預期的。另外想介紹一下幾個簡單的例子:極易中文學校是在西雅圖的一個創新。海外的很多華人學習中文非常困難,他們用微軟的語音認知服務,小孩學中文的興趣大大進步了,不僅是興趣進步,而且做家庭作業和掌握中文的速度也有一個長足的進步。所以用人工智能服務于教育,幫助小孩擴展中文文化,這在西雅圖極易中文學校已經得到了非常高度的認可。我們知道中國的華為公司包括Mate10都預裝了微軟認知服務的機器翻譯系統。我們最近跟小米生態系統中要推出的魔芋翻譯機,更是人工智能翻譯的一大杰出代表。
-
AI
+關注
關注
87文章
31092瀏覽量
269415 -
人工智能
+關注
關注
1792文章
47409瀏覽量
238915
原文標題:AI 翻譯能夠取代人類?微軟黃學東:我們仍在感知智能和認知智能的過渡期
文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論