色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌發(fā)布Translatotron語音翻譯系統(tǒng)

DPVg_AI_era ? 來源:lq ? 2019-05-19 10:12 ? 次閱讀

今天,谷歌發(fā)布Translatotron語音翻譯系統(tǒng),這是第一個可以直接將一個人的聲音從一種語言轉(zhuǎn)換成另一種語言,同時保持說話人的聲音和節(jié)奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流,這是語音到語音的翻譯系統(tǒng)(Speech-to-speech translation)的目的,這樣的系統(tǒng)在過去幾十年里取得了不錯的進展。

今天,谷歌發(fā)布Translatotron語音翻譯系統(tǒng),這是第一個可以直接將一個人的聲音從一種語言轉(zhuǎn)換成另一種語言,同時保持說話人的聲音和節(jié)奏的翻譯模型。

傳統(tǒng)上,語音翻譯系統(tǒng)通常有3個獨立的部分:自動語音識別將源語音轉(zhuǎn)錄為文本,機器翻譯將轉(zhuǎn)錄的文本翻譯成目標語言,最后,文本到語音合成(TTS)系統(tǒng)將翻譯文本轉(zhuǎn)換成目標語言的語音。

許多商業(yè)語音到語音翻譯的產(chǎn)品都采用這樣的系統(tǒng),包括Google Translate。但是,這類系統(tǒng)依賴于中間文本,準確率不高,而且效率較低。

谷歌的新工具Translatotron舍棄了將語音翻譯為文本再返回語音的步驟,而是采用端到端的技術(shù),直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說話人的語調(diào)和節(jié)奏。

在論文《基于序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基于單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統(tǒng),該系統(tǒng)不依賴于中間文本表示。

這個系統(tǒng)被稱為Translatotron,避免了將任務(wù)劃分為獨立的階段,比級聯(lián)系統(tǒng)更有優(yōu)勢,包括推理速度快、自然地避免了識別和翻譯之間的復(fù)合錯誤,能夠在翻譯后保留原說話者的聲音,以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron:不依賴中間文本,直接翻譯語音

語音翻譯端到端模型的出現(xiàn)始于2016年,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。2017年,我們證明了這種端到端模型可以超越級聯(lián)模型(cascade models)。

最近有許多工作進一步改進了端到端語音到文本翻譯模型的方法,包括同樣來自谷歌的利用弱監(jiān)督數(shù)據(jù)的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進一步,證明了單個序列到序列模型可以直接將一種語言的語音翻譯成另一種語言的語音,而不需要像級聯(lián)系統(tǒng)那樣依賴于任何一種語言的中間文本表示。

Translatotron基于一個sequence-to-sequence網(wǎng)絡(luò),它將源聲譜圖(spectrograms)作為輸入,生成目標語言翻譯內(nèi)容的聲譜圖。

輸入和生成的聲譜圖

此外,Translatotron還使用了另外兩個單獨訓(xùn)練的組件:一個神經(jīng)聲音編碼器(neuralvocoder),可以將輸出聲譜圖轉(zhuǎn)換為時域波形;另外,還可以選擇使用一個speaker encoder,用于在合成翻譯語音時保持源speaker的語音特征。

在訓(xùn)練過程中,序列到序列模型使用一個多任務(wù)目標預(yù)測源和目標轉(zhuǎn)錄文本,同時生成目標聲譜圖。然而,推理過程中不需要使用轉(zhuǎn)錄文本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

谷歌通過測量BLEU分數(shù)來驗證Translatotron的翻譯質(zhì)量。該分數(shù)是通過語音識別系統(tǒng)轉(zhuǎn)錄的文本計算的。雖然結(jié)果落后于傳統(tǒng)的級聯(lián)系統(tǒng),但已經(jīng)證明了端到端直接語音到語音轉(zhuǎn)換的可行性。

對比Translatotron到基線級聯(lián)方法的直接語音到語音翻譯輸出,在這種情況下,兩個系統(tǒng)都提供合適的翻譯并使用相同的規(guī)范語音很自然的說話。

保持聲音特征

通過結(jié)合揚聲器編碼器網(wǎng)絡(luò),Translatotron還能夠在翻譯的語音中,保留原始說話者的聲音特征,這使得翻譯的語音聽起來更自然,不那么刺耳。

此功能利用了之前針對TTS的演講者驗證和演講者調(diào)整的Google研究。揚聲器編碼器在演講者驗證任務(wù)上進行預(yù)訓(xùn)練,學(xué)習從簡短的示例話語對揚聲器特性進行編碼。在該編碼上調(diào)節(jié)頻譜圖解碼器,即使內(nèi)容是在不同的語言中,也可以合成具有類似揚聲器特性的語音。

谷歌提供了諸多使用示例,如下面的例子,Translatotron將西班牙語對話轉(zhuǎn)換為英語,下面的音頻分別是西班牙語輸入、真人參考翻譯,以及Translatotron的翻譯。

(由于微信智能插入一個音頻,請點擊原文鏈接聽更多語音。)

Translatotron的翻譯:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個例子中,Translatotron提供比基線級聯(lián)模型更準確的平移,同時能夠保留原始說話者的聲音特征。保留原始說話者聲音的Translatotron輸出訓(xùn)練的數(shù)據(jù),少于使用規(guī)范聲音的數(shù)據(jù),因此它們產(chǎn)生的翻譯略有不同。

結(jié)論

谷歌聲稱,Translatotron是第一個可以直接將一種語言的語音,翻譯成另一種語言的語音的端到端模型。它還能夠在翻譯的語音中保留源說話者的聲音。谷歌希望這項工作可以作為未來端到端語音轉(zhuǎn)語音翻譯系統(tǒng)研究的起點。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3651

    瀏覽量

    134776
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6173

    瀏覽量

    105640
  • 語音
    +關(guān)注

    關(guān)注

    3

    文章

    385

    瀏覽量

    38070

原文標題:同聲傳譯被攻陷!谷歌發(fā)布Translatotron直接語音翻譯系統(tǒng)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標貝科技專注智能語音交互領(lǐng)域多年,在語音識別和語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標貝與多個智能會議系統(tǒng)廠商合作,成功將語音識別技術(shù)在智能
    的頭像 發(fā)表于 12-20 10:35 ?146次閱讀

    谷歌與三星聯(lián)合發(fā)布Android XR操作系統(tǒng)

    系統(tǒng)整合了谷歌在人工智能、增強現(xiàn)實(AR)以及虛擬現(xiàn)實(VR)領(lǐng)域的技術(shù)積累,充分展現(xiàn)了谷歌在技術(shù)創(chuàng)新方面的實力。通過這一系統(tǒng),用戶將能夠享受到更加逼真、生動的虛擬世界,以及更加智能、
    的頭像 發(fā)表于 12-16 10:08 ?202次閱讀

    谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

    在智能體時代,谷歌再次引領(lǐng)技術(shù)潮流,正式發(fā)布了其最新力作——Gemini 2.0。這款A(yù)I模型不僅在性能上實現(xiàn)了顯著提升,更是在多模態(tài)表現(xiàn)和原生工具應(yīng)用方面展現(xiàn)了前所未有的強大功能。 Gemini
    的頭像 發(fā)表于 12-12 14:22 ?325次閱讀

    谷歌計劃12月發(fā)布Gemini 2.0模型

    近日,有消息稱谷歌計劃在12月發(fā)布其下一代人工智能模型——Gemini 2.0。這一消息引發(fā)了業(yè)界的廣泛關(guān)注,因為谷歌在人工智能領(lǐng)域一直保持著領(lǐng)先地位,而Gemini系列模型更是其重要的產(chǎn)品之一。
    的頭像 發(fā)表于 10-29 11:02 ?633次閱讀

    阿里國際發(fā)布翻譯大模型Marco

    近日,阿里國際正式推出了其翻譯大模型——Marco。這款模型已在阿里國際AI官網(wǎng)Aidge上線,并向全球用戶開放使用。
    的頭像 發(fā)表于 10-17 16:07 ?299次閱讀

    谷歌推出Gemini Live,開啟AI語音聊天新紀元

    在萬眾矚目的Pixel 9系列手機發(fā)布會上,谷歌震撼宣布了一項創(chuàng)新服務(wù)——Gemini Live,該服務(wù)自今日起,率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標志著谷歌在人工智能
    的頭像 發(fā)表于 08-15 17:29 ?733次閱讀

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學(xué)習算法實現(xiàn)的一種自然語言處理技術(shù),載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:52 ?375次閱讀
    車載<b class='flag-5'>語音</b>識別<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>語音</b>數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學(xué)習算法實現(xiàn)的一種自然語言處理技術(shù),載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:49 ?525次閱讀

    開源項目!設(shè)計一款智能手語翻譯眼鏡

    這個項目是一款創(chuàng)新的智能手語翻譯眼鏡,它能夠?qū)崟r地將手語轉(zhuǎn)換為聽得見的語音。這款眼鏡采用了VIAM平臺和樹莓派Zero 2 W,能夠幫助聾人或聽力受損的人士更自由、獨立地與他人交流,減少對第三方
    發(fā)表于 05-20 15:59

    谷歌發(fā)布多模態(tài)AI新品,加劇AI巨頭競爭

    在全球AI競技場上,谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日,谷歌在I/O開發(fā)者大會上掀起了一股新的技術(shù)浪潮,發(fā)布了多款全新升級的多模態(tài)AI產(chǎn)品。
    的頭像 發(fā)表于 05-16 09:28 ?459次閱讀

    谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發(fā)布的輕量級開源大模型 Gemma,針對 Gemma 的兩個不同參數(shù)規(guī)模的版本 Gemm
    的頭像 發(fā)表于 04-17 16:07 ?719次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>發(fā)布</b>用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布全新AI模型Genie

    谷歌近日發(fā)布了其全新的AI模型Genie,這一模型徹底改變了我們與數(shù)字世界的互動方式。Genie不僅可以接收文本提示、草圖或想法,還能將這些創(chuàng)意迅速轉(zhuǎn)化為一個可互動和玩耍的虛擬世界。
    的頭像 發(fā)表于 02-28 18:25 ?1719次閱讀

    谷歌發(fā)布開源AI大模型Gemma

    近日,谷歌發(fā)布了全新AI大模型Gemma,這款模型為各種規(guī)模的組織提供了前所未有的機會,以負責任的方式在商業(yè)應(yīng)用中進行分發(fā)。
    的頭像 發(fā)表于 02-28 17:38 ?861次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎。本文將探討開發(fā)人員在嵌入式語音控制設(shè)計中面臨的挑戰(zhàn)、恩智浦新的Speech to Intent引擎,以及您如何在應(yīng)用中使用它。
    的頭像 發(fā)表于 01-26 09:15 ?784次閱讀
    恩智浦<b class='flag-5'>發(fā)布</b>新一代智能<b class='flag-5'>語音</b>技術(shù)組合的<b class='flag-5'>語音</b>識別引擎
    主站蜘蛛池模板: 俄罗斯爱爱| 中文字幕专区高清在线观看| 久久草这里全是精品香蕉频线观| 工口肉肉彩色不遮挡| NANANA在线观看高清影院| 中文字幕精品视频在线| 亚洲色综合狠狠综合区| 亚洲乱码中文字幕久久| 亚洲大码熟女在线| 亚洲免费视频网站| 亚洲欧洲日韩天堂无吗| 亚洲欧美中文日韩视频| 亚洲这里只有精品| 伊人影院蕉久| 799是什么意思网络用语| 2018三级网站免费观看| 97亚洲狠狠色综合久久位| 99热精品在线视频观看| 操中国老太太| 国产超碰人人爱被IOS解锁| 囯产愉拍亚洲精品一区| 国产成人久视频免费| 国产精品久久久久久久久无码| 国产精品成人自拍| 国内外成人免费在线视频| 精品国产自在自线官方| 久久午夜免费视频| 暖暖日本免费播放| 三级网站视频| 亚洲VA天堂VA欧美VA在线| 伊人久久大香线蕉电影院 | 公粗挺进了我的密道在线播放贝壳 | 99热最新网站| 99久久久久国产精品免费| fyeex性欧美人与曾| 大中国免费视频大全在线观看| 国产成人在线观看免费网站| 果冻传媒2021精品在线观看| 麻豆免费观看高清完整视频在线 | 亚洲欧洲一级| 97国产精品人妻无码免费|