首次正式亮相國際級會議的AI同傳,騰訊翻譯君不僅僅代表了自己,還代表了整個AI智能翻譯業界。近幾天AI同傳遭遇社會嘲笑,對此,騰訊翻譯君負責人李學朝,訊飛胡郁有話說。
這幾天又有一個AI火了。
沒錯,我們說的是在2018年博鰲論壇擔任同聲傳譯的騰訊同傳。
這個事件讓人想起了2017年“3·15晚會”打假人臉識別,讓人臉識別技術一夜走紅,也讓眾多人臉識別公司躺槍。一年后的今天,公眾對人臉識別的接受度已經明顯提升,技術在不斷發展,人臉識別的商業化應用在不斷產生。
當時,人臉識別公司云從科技用了題為“大勢所趨,豈會因噎廢食”的評論文章來表態,315晚會上的討論,從一定程度上折射出公眾對以人臉識別為代表的新興人工智能技術的擔憂。不過,任何新技術在剛剛萌芽時,都難免存在不完善的地方。而這,也將是AI同傳技術將會延續的歷程。
AI同傳,首次登上國際級會議的舞臺
2018年4月9日,博鰲亞洲論壇開幕,騰訊CEO馬化騰靜靜地發了一條朋友圈。
“新嘗試,多包涵。”
2018是博鰲論壇舉辦的第17年,這屆會議在技術上最大的不同,就是正式啟用AI作為同傳。承擔這個任務的,就是騰訊同傳,它代表了所有的AI同傳產品,首次站在了國際級會議的舞臺上供世人檢驗。
這次騰訊翻譯君將聯合微信智聆(“騰訊同傳”),為博鰲論壇的開幕式及部分核心論壇提供同聲傳譯支持,包括同傳雙語內容會議現場投屏、同傳內容手機小程序查看、翻譯結果語音收聽、同傳記錄回放等,服務的論壇主題涵蓋亞洲經濟預測、未來的生產,全球化的“下半場”、新一輪技術革命等領域。
這次任務重要性高(首次在開幕式及部分主論壇現場使用機器同傳,一般都是人工和機器都有,以免在這些重要的場合機器出問題沒辦法救場)、難度高(首次公開支持討論型會議,事先拿不到講稿,全靠臨場應對),開放程度也很高(支持多渠道查看和回放,包括小程序)。如果這顯示不了騰訊的技術實力,那么至少,充分展示了騰訊的技術自信。
“這次AI同傳的會議難度與可能出現壞的翻譯例子,我們在會前都有預期。騰訊同傳這套方案在博鰲之前已經歷公司內外部近百場實戰,技術持續升級,而且我們為博鰲也做了充分的準備,并用往屆博鰲的視頻進行回放測試驗證,才拿出來呈現。“騰訊翻譯君負責人李學朝告訴新智元:“博鰲創新選擇AI同傳并篩選決定用我們,給了我們很大鼓勵,也體現出博鰲對創新的接受度。”
壞的翻譯例子確實出現了,而公眾和技術圈的反應,可能比騰訊自己預期的,稍稍猛烈一點。
掉鏈子和擺烏龍
根據公眾號AI前線報道,本屆博鰲亞洲論壇首次啟用AI為現場嘉賓提供同傳服務,僅僅一天,騰訊翻譯君“掉鏈子”的消息就在網上散播開來。
“一帶一路”被翻譯成“一條公路和一條腰帶”等不恰當表述。但是,關于這個翻譯問題,騰訊官方給出了回應,這里暫且不表,看看你能不能看出什么端倪。
反應最大的,當然是受AI同傳沖擊最大的翻譯界,有人慶幸,也不乏自嘲,“飯碗終于暫時保住了”。
從事翻譯的知乎用戶“翻一姐”道出了一部分翻譯人士的心聲。來源:AI前線
此外,還有消息傳出,騰訊翻譯團隊不得不現場請求人類譯員來救場。
對此,騰訊翻譯君團隊回應稱這是一個“烏龍”:一直忙不迭的精心備考,哪有時間去請外援。
騰訊翻譯君團隊官方回應,外界提及的邀請人工同傳是烏龍事件
騰訊官方回應:確實出現了錯誤,答錯了幾道題
騰訊翻譯君官方也就本次一些翻譯案例的技術問題進行了解讀,表示“面對博鰲亞洲論壇復雜的語言環境和高大上的專業內容”,騰訊同傳“確實出現了錯誤”,“答錯了幾道題”。
首先是以下流傳最廣的小程序截圖,騰訊方面將其稱之為“大面積單詞無意義重復、大小寫及字符混亂”現象。
出現這個問題,主要是中英雙語切換頻率的問題。當聲源在兩種語言之間不斷轉換時,后臺中、英文識別引擎就會同時開始工作,這會導致兩種識別引擎互相“掐架”,而翻譯結果卻只能選擇一種語言進行輸出,再加上對嘉賓每個語氣詞也做了精準的啊啊啊翻譯,導致引發錯誤。
另一個需要承認的錯誤是下圖中出現的“for for for × n”現象。
出現這種情況,主要是包括神經網絡機器翻譯在內的深度學習算法,在原理上或多或少都有一定不確定性,在特定的情況下有一定的概率引發翻譯偏差。
嘉賓演講內容中出現了口語中常見的重復內容,比如“for for for for”、 “that’s that’s that” ,相當于中文的“嗯嗯嗯嗯”“那個那個那個”,而翻譯引擎恰好放大了這個重復,導致了翻譯結果出現錯誤。
最后,對于上文提到的“一帶一路”翻譯,騰訊翻譯君的錯誤也情有可原。騰訊方面表示,從直播截屏可以看出,發言者說的是“the road and belt”,而“一帶一路”的正確說法應該是“the belt and road”,順序不同,這才導致機器翻譯按照字面意思進行解釋了。
“對固定的詞組,AI同傳可以準確翻譯發言者正確的表達,但是如果發言者的表達有偏差,機器翻譯的準確度就要大打折扣。”騰訊翻譯君團隊告訴新智元。
后期重新驗證,當提供正確表述時,騰訊翻譯君給出了正確的翻譯(右圖)
AI同傳:人工智能的圣杯
同聲傳譯被譽為人工智能的圣杯,因為這項任務需要極高的認知能力,就連人類也需要大量的訓練和學習,付出艱苦卓絕的努力才能掌握。
在口譯釋意派學者塞萊斯科維奇和勒代雷寫的書《釋意翻譯》中,他們將口譯描述一個涉及意義理解、詮釋和言語轉化的三角過程。在口譯過程當中,口譯員需要理解源語言的意思,找到目標語言中具有相同含義的解釋,并將其重新表達出來。而源語言的“意思”,是由說話者的聲音所產生的語言涵義(linguistic meaning)和口譯員自己對這一涵義進行的認知補充構成。
口譯三角模型。來源:譯聚網
塞萊斯科維奇提出了“口譯三角模型”的假設:口譯是一個三元過程:首先對源語言進行聆聽,然后感知理解話語的意義,之后是對目標語言中所獲意義進行重新表達,這也是口譯中最重要的階段。顯然,口譯的過程不是直截了當的,而是先“理解”后“重新表達”,是一個有不同階段的連續過程。
一般而言,人類口譯員是兩人一組工作,一個人口譯時,另一個人負責支援,比如查詢文件和專業術語,跟蹤前文提到的內容。口譯要求高度的專注力,極其耗費腦力,因此每30分鐘就會換人。良好的工作也取決于配合。
此次騰訊AI同傳解決方案由兩部分組成:騰訊翻譯君+微信智聆。
其中,微信智聆團隊成立于2011年,致力于開發語音人工智能技術,包括語音識別,語音合成,聲紋認證,語音喚醒,遠場陣列拾音等領域。目前公布的語音識別正確率可達到97%。
騰訊翻譯君在2016年成立,是由騰訊MIG內部孵化的一個項目。騰訊翻譯君與微信智聆結合成為騰訊同傳是在2017年。
李學朝介紹說,博鰲亞洲論壇上實際的同傳實現原理是,微信智聆把人聲識別為文字,騰訊翻譯君再把文本翻譯成目標語言,再通過語音合成進行播報。
語音識別、機器翻譯,單獨拆開看,都已經出現了超越人類的結果。
2016年9月14日,微軟語音團隊在產業標準 Switchboard 語音識別基準測試中,實現了對話語音識別詞錯率(word error rate, 簡稱WER)低至6.3%的突破 ,創造當時該領域內錯誤率最低紀錄。一個月后的10月18日,他們進一步將詞錯率降低至 5.9%,首次達成與專業速記員持平而優于絕大多數人的表現。這被認為是人工智能領域 2016年最大的突破性進展之一。
2017年,IBM和微軟團隊再次先后將語音識別的詞錯率降低至5.1%。如今,以智能音箱為代表,語音識別的商業化應用也迎來了一個爆發期。
機器翻譯的拐點則發生在2016年底。谷歌宣布推出商用的谷歌神經網絡機器翻譯系統(GNMT),采用神經網絡機器翻譯(NMT)技術,大幅提升機器翻譯的水平,最高將翻譯準確率提高到 87%。這件事情的意義在于“商業部署”,意味著神經機器翻譯技術投入大規模實用。
在剛剛過去的2018年3月,微軟在機器翻譯領域取得突破。他們研發的機器翻譯系統在通用新聞報道的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報道的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。微軟的這個系統也采用了神經機器翻譯技術。
至于語音合成,舉一個比較有代表性的例子。2016年,谷歌DeepMind提出了一個叫做WaveNet的模型,采用深度學習方法,能夠產生十分逼真的聲音語音,聽起來感覺與真人幾乎無異。在訓練過程中,神經網絡會提取語音的基本結構,輸入給定文本后,訓練好的WaveNet模型會生成相應的語音波形,一次一個樣本,從而實現比其他方法更高的精度。
2017年底,這項技術的改進版,被應用到了谷歌的智能助理Google Assistant(英語和日語)中。2018年3月,谷歌云平臺推出云端 TTS(Cloud Text-to-Speech)功能,用戶在文字轉語音過程中,可以選擇由 DeepMind 的 WaveNet 生成的高保真音頻。
WaveNet深度生成模型,從頭開始創建單個波形,每次生成一個樣本,每秒生成16000個樣本,各個聲音之間無縫轉換。
2018年3月,微軟語音語言團隊負責人、微軟全球技術院士黃學東在接受新智元采訪時表示,微軟最新機器翻譯系統“既是技術上的突破,也是工程上的突破,是技術和工程的完美結合,只有把過程中的每一件事情都做好,才能得到這樣的結果。”
“接下來我們要做的,就是把語音識別和機器翻譯結合到一起,在同聲傳譯上取得突破。”
訊飛胡郁有話說
2016年,在烏鎮舉行的第三屆世界互聯網大會上,搜狗公司的CEO王小川就搜索引擎的未來發表了演講。在演講過程中,他演示了顯示在屏幕上的實時機器翻譯(如圖所示),包括中文語音轉錄和英文翻譯。
王小川說:“未來,同聲傳譯員可能失業!”
然而諷刺的是,如上圖所示,根據中文轉錄翻譯成的英文似乎沒有意義,看起來像機械地逐字翻譯產生的亂碼。
王小川給出了一個在安靜的環境中搜狗語音識別技術可以達到的效果,也談到了目前的“短板”:安靜環境下可以實現 95%的準確度,甚至97%,但一旦出現噪音,例如當兩個人同時說話時,準確度會大大下降。
機器似乎不知道如何識別噪音,今天的學術界也還沒有找到解決辦法。畢竟,對于理解語氣的細微差別、諷刺、暗示、情感等等,人類的智能是不可或缺的,所有這些都超出了依賴大數據喂的、基于規則的算法。
科大訊飛執行總裁胡郁表示,這次騰訊AI同傳的翻譯結果,再次說明現在機器翻譯離最終的理想情況,從核心技術上來說確實是有一定距離的。
“這些差距,是要通過好的產品設計來規避的。”胡郁說:“同時,這也證明了語音翻譯絕對不是簡簡單單把語音識別文本、翻譯、語音合成這幾步簡單組合在一起,就能得出一個很好的方案。”
要從問題的本質出發,真正理解翻譯所面臨的情況,設計真正將語音識別、文本翻譯和語音合成融合在一起的、新的問題定義方式,才有可能解決這些對人類看來比較容易,是對機器來說很難的問題。
“其實我覺得這不僅僅是騰訊的問題,也是現在所有做翻譯,包括科大訊飛在內,面臨的最大的挑戰。”胡郁說。
他還表示,從另外一個觀點來看,當我們將很多技術應用在實際場景中時,不能再簡單的利用互聯網思維,用那些免費服務,用一開始效果比較差的產品來再逐步改進的方式來進行,因為很多時候在一開始,直接使用效果不好的人工智能,會導致大家對人工智能的懷疑,我們整個行業經不起這種錯誤的傷害。
“要把翻譯服務的體驗做好主要就是兩個方面的因素,一個方面的就是整體的算法和數據,也就是我說的源頭核心技術系統創新要是最好的。另外一個呢,就是在這樣的情況下,要用很多的產品創新、微創新和應用創新來解決。”
“但是,我覺得最重要的,是要重新定義人工智能翻譯的過程,絕對不能簡簡單單理解成,語音識別加文本翻譯加語音合成這樣功能的直接的疊加。”胡郁說:“我們正在嘗試重新定義這個問題,希望從根本上解決這樣的潛在的風險。只有加強機器對它所在,進行事情的理解能力,才有可能把這些問題徹底解決掉。”
“比如說機器要知道,那些口頭的,各種嗯嗯啊啊的東西,不是需要翻譯的內容,這樣自然而然就不會產生這樣的錯誤。”
小米旗下生態鏈企業香蕉出行的于亮表示,現場環境復雜,實驗室環境永遠無法模擬真正的現場環境。像口語、拾音、噪聲、回聲等問題,是實驗室很難真實模擬的。“這些問題和挑戰不是騰訊同傳的問題,而是整個行業要面臨和解決的問題,暴露出的問題越多,反而是好事。開拓、迭代、共享、包容也是互聯網的精神。”
任重道遠,繼續前行
2017年中旬,牛津大學面向機器學習研究人員做了一次大規模調查,調查的內容是他們對 AI 進展的看法。這些研究人員預測,未來10年,AI 將在許多活動中超過人類,具體預測見下表:
其中,紅框標出了在復雜環境中進行AI同傳的幾項。機器學習研究人員的預測,相關技術超越人類還有7年的時間(預測是2017年中旬進行的)。
李學朝表示,有許多網友拿騰訊同傳跟人工同傳比較,這是不準確的,將騰訊同傳與其他AI同傳方案相比才有可比性。
也有媒體發出AI同傳替代人工同傳的觀點,之前也看到同行有“同聲傳譯終結者”的理念,“我們并不認為AI同傳要消滅人工,而是認為兩者是共同存在的,適用不同場景。”李學朝說。
“我更贊同AI同傳與人工同傳可以更好的人機協同,發揮各自所長幫助參會者更好理解多語會議內容。”
技術不斷發展,AI同傳與人類口譯員并肩的那一天,終會到來。
-
AI
+關注
關注
87文章
31155瀏覽量
269500 -
人工智能
+關注
關注
1792文章
47443瀏覽量
239020 -
騰訊
+關注
關注
7文章
1659瀏覽量
49492
原文標題:博鰲AI同傳遭熱議!騰訊翻譯君負責人李學朝、訊飛胡郁有話說
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論