色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

速度提升270倍!微軟和浙大聯合推出全新語音合成系統FastSpeech

WpOh_rgznai100 ? 來源:yxw ? 2019-06-06 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前,基于神經網絡的端到端文本到語音合成技術發展迅速,但仍面臨不少問題——合成速度慢、穩定性差、可控性缺乏等。為此,微軟亞洲研究院機器學習組和微軟(亞洲)互聯網工程院語音團隊聯合浙江大學提出了一種基于Transformer的新型前饋網絡FastSpeech,兼具快速、魯棒、可控等特點。與自回歸的Transformer TTS相比,FastSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了38倍,單GPU上的語音合成速度達到了實時語音速度的30倍。

近年來,基于神經網絡的端到端文本到語音合成(Text-to-Speech,TTS)技術取了快速發展。與傳統語音合成中的拼接法(concatenative synthesis)和參數法(statistical parametric synthesis)相比,端到端語音合成技術生成的聲音通常具有更好的聲音自然度。但是,這種技術依然面臨以下幾個問題:

合成語音的速度較慢:端到端模型通常以自回歸(Autoregressive)的方式生成梅爾譜(Mel-Spectrogram),再通過聲碼器(Vocoder)合成語音,而一段語音的梅爾譜通常能到幾百上千幀,導致合成速度較慢;

合成的語音穩定性較差:端到端模型通常采用編碼器-注意力-解碼器(Encoder-Attention-Decoder)機制進行自回歸生成,由于序列生成的錯誤傳播(Error Propagation)以及注意力對齊不準,導致出現重復吐詞或漏詞現象;

缺乏可控性:自回歸的神經網絡模型自動決定一條語音的生成長度,無法顯式地控制生成語音的語速或者韻律停頓等。

為了解決上述的一系列問題,微軟亞洲研究院機器學習組和微軟(亞洲)互聯網工程院語音團隊聯合浙江大學提出了一種基于Transformer的新型前饋網絡FastSpeech,可以并行、穩定、可控地生成高質量的梅爾譜,再借助聲碼器并行地合成聲音。

在LJSpeech數據集上的實驗表明,FastSpeech除了在語音質量方面可以與傳統端到端自回歸模型(如Tacotron2和Transformer TTS)相媲美,還具有以下幾點優勢:

快速:與自回歸的Transformer TTS相比,FastSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了近38倍,單GPU上的語音合成速度是實時語音速度的30倍;

魯棒:幾乎完全消除了合成語音中重復吐詞和漏詞問題;

可控:可以平滑地調整語音速度和控制停頓以部分提升韻律。

模型框架

圖1. FastSpeech網絡架構

前饋Transformer架構

FastSpeech采用一種新型的前饋Transformer網絡架構,拋棄掉傳統的編碼器-注意力-解碼器機制,如圖1(a)所示。其主要模塊采用Transformer的自注意力機制(Self-Attention)以及一維卷積網絡(1D Convolution),我們將其稱之為FFT塊(Feed-Forward Transformer Block, FFT Block),如圖1(b)所示。前饋Transformer堆疊多個FFT塊,用于音素(Phoneme)到梅爾譜變換,音素側和梅爾譜側各有N個FFT塊。特別注意的是,中間有一個長度調節器(Length Regulator),用來調節音素序列和梅爾譜序列之間的長度差異。

長度調節器

長度調節器如圖1(c)所示。由于音素序列的長度通常小于其梅爾譜序列的長度,即每個音素對應于幾個梅爾譜序列,我們將每個音素對齊的梅爾譜序列的長度稱為音素持續時間。長度調節器通過每個音素的持續時間將音素序列平鋪以匹配到梅爾譜序列的長度。我們可以等比例地延長或者縮短音素的持續時間,用于聲音速度的控制。此外,我們還可以通過調整句子中空格字符的持續時間來控制單詞之間的停頓,從而調整聲音的部分韻律。

音素持續時間預測器

音素持續時間預測對長度調節器來說非常重要。如圖1(d)所示,音素持續時間預測器包括一個2層一維卷積網絡,以及疊加一個線性層輸出標量用以預測音素的持續時間。這個模塊堆疊在音素側的FFT塊之上,使用均方誤差(MSE)作為損失函數,與FastSpeech模型協同訓練。我們的音素持續時間的真實標簽信息是從一個額外的基于自回歸的Transformer TTS模型中抽取encoder-decoder之間的注意力對齊信息得到的,詳細信息可查閱文末論文。

實驗評估

為了驗證FastSpeech模型的有效性,我們從聲音質量、生成速度、魯棒性和可控制性幾個方面來進行了評估。

聲音質量

我們選用LJSpeech數據集進行實驗,LJSpeech包含13100個英語音頻片段和相應的文本,音頻的總長度約為24小時。我們將數據集分成3組:300個樣本作為驗證集,300個樣本作為測試集,剩下的12500個樣本用來訓練。

我們對測試樣本作了MOS測試,每個樣本至少被20個英語母語評測者評測。MOS指標用來衡量聲音接近人聲的自然度和音質。我們將FastSpeech方法與以下方法進行對比:1) GT, 真實音頻數據;2) GT (Mel + WaveGlow), 用WaveGlow作為聲碼器將真實梅爾譜轉換得到的音頻;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一種常用的參數法語音合成系統,并且采用WORLD作為聲碼器。

從表1中可以看出,我們的音質幾乎可以與自回歸的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的聲音Demo:

文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我們比較FastSpeech與具有近似參數量的Transformer TTS的語音合成速度。從表2可以看出,在梅爾譜的生成速度上,FastSpeech比自回歸的Transformer TTS提速將近270倍;在端到端(合成語音)的生成速度上,FastSpeech比自回歸的Transformer TTS提速將近38倍。FastSpeech平均合成一條語音的時間為0.18s,由于我們的語音平均時長為6.2s,我們的模型在單GPU上的語音合成速度是實時語音速度的30倍(6.2/0.18)。

圖2展示了測試集上生成語音的耗時和生成的梅爾譜長度(梅爾譜長度與語音長度成正比)的可視化關系圖??梢钥闯?,隨著生成語音長度的增大,FastSpeech的生成耗時并沒有發生較大變化,而Transformer TTS的速度對長度非常敏感。這也表明我們的方法非常有效地利用了GPU的并行性實現了加速。

圖2. 生成語音的耗時與生成的梅爾譜長度的可視化關系圖

魯棒性

自回歸模型中的編碼器-解碼器注意力機制可能導致音素和梅爾譜之間的錯誤對齊,進而導致生成的語音出現重復吐詞或漏詞。為了評估FastSpeech的魯棒性,我們選擇微軟(亞洲)互聯網工程院語音團隊產品線上使用的50個較難的文本對FastSpeech和基準模型Transformer TTS魯棒性進行測試。從下表可以看出,Transformer TTS的句級錯誤率為34%,而FastSpeech幾乎可以完全消除重復吐詞和漏詞。

語速調節

FastSpeech可以通過長度調節器很方便地調節音頻的語速。通過實驗發現,從0.5x到1.5x變速,FastSpeech生成的語音清晰且不失真。

消融對比實驗

我們也比較了FastSpeech中一些重要模塊和訓練方法(包括FFT中的一維卷積、序列級別的知識蒸餾技術和參數初始化)對生成音質效果的影響,通過CMOS的結果來衡量影響程度。由下表可以看出,這些模塊和方法確實有助于我們模型效果的提升。

未來,我們將繼續提升FastSpeech模型在生成音質上的表現,并且將會把該模型應用到其它語言(例如中文)、多說話人和低資源場景中。我們還會嘗試將FastSpeech與并行神經聲碼器結合在一起訓練,形成一個完全端到端訓練的語音到文本并行架構。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6685

    瀏覽量

    105718
  • 互聯網
    +關注

    關注

    55

    文章

    11249

    瀏覽量

    106362
  • 語音合成系統

    關注

    0

    文章

    3

    瀏覽量

    6406

原文標題:速度提升270倍!微軟和浙大聯合推出全新語音合成系統FastSpeech

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DeepSeek最新論文:訓練速度提升9,推理速度快11

    是上一代Grok2的15左右。在Benchmarks中,Grok3毫無懸念成功地領先Deepseek R1、o3 mini等對手。 ? 不過用如此大規模的算力集群,花費上一代15的計算資源投入,業界認為
    的頭像 發表于 02-20 11:25 ?2057次閱讀
    DeepSeek最新論文:訓練<b class='flag-5'>速度</b><b class='flag-5'>提升</b>9<b class='flag-5'>倍</b>,推理<b class='flag-5'>速度</b>快11<b class='flag-5'>倍</b>!

    Arm 與微軟合作,為基于 Arm 架構的 PC 和移動設備應用提供超強 AI 體驗

    ArmKleidiAI與ONNXRuntime的集成,為Windows和安卓操作系統帶來了顯著的AI性能優化,實現高達2.6的AI推理速度提升,從而加速應用體驗。
    的頭像 發表于 06-03 16:47 ?419次閱讀
    Arm 與<b class='flag-5'>微軟</b>合作,為基于 Arm 架構的 PC 和移動設備應用提供超強 AI 體驗

    F1?與亞馬遜云科技聯合推出全新在線體驗 車迷可親手打造專屬賽道

    北京 ——2025 年 5 月 22 日 世界一級方程式錦標賽?(以下簡稱:F1?)在其成立75周年之際,與亞馬遜云科技聯合推出全新數字互動體驗,使其車迷可自主創建、定制并分享其專屬F1賽道
    發表于 05-22 11:40 ?1257次閱讀

    芯資訊|廣州唯創電子WT2003H語音芯片:靈活高效的語音文件更新方案

    在智能硬件設備中,語音功能的動態更新與維護是提升用戶體驗的重要環節。廣州唯創電子推出的WT2003H語音芯片,憑借其多模式語音更新功能和高度
    的頭像 發表于 05-21 09:06 ?181次閱讀
    芯資訊|廣州唯創電子WT2003H<b class='flag-5'>語音</b>芯片:靈活高效的<b class='flag-5'>語音</b>文件更新方案

    微軟推出兩款全新銷售智能體

    微軟推出銷售智能體和Sales Research智能體,助力企業AI技術驅動的銷售轉型。它們可無縫集成CRM系統,實現銷售線索的自動化管理和個性化客戶互動,顯著提升銷售效率。近70%財
    的頭像 發表于 05-09 16:09 ?566次閱讀

    微軟推出全新Surface Windows11 AI+ PC Surface Laptop 13 英寸和Surface Pro 12英寸

    ,旨在幫助人們完成更多的事務?,F在,微軟和 Surface 進一步擴展了 Windows 11 AI+ PC 的家族,推出了兼具性能和便攜的全新 Surface Laptop,13 英寸
    的頭像 發表于 05-08 15:52 ?597次閱讀

    MVG推出SpeedProbe DL解決方案:有源相控陣天線校準速度提升至5

    系統高達5的校準速度,顯著提升有源相控陣天線在防務領域的測試效率與性能。 MVG銷售總監 Per Noren 表示:“SpeedProbe DL解決方案 在IDEX展會上
    發表于 04-21 16:35 ?332次閱讀
    MVG<b class='flag-5'>推出</b>SpeedProbe DL解決方案:有源相控陣天線校準<b class='flag-5'>速度</b><b class='flag-5'>提升</b>至5<b class='flag-5'>倍</b>

    【CW32模塊使用】語音合成播報模塊

    SYN6288E 中文語音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價比更高的 SYN6288 芯片的基礎上更改封裝方式的,效果更自然的一款中高端語音
    的頭像 發表于 03-29 17:25 ?634次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b><b class='flag-5'>合成</b>播報模塊

    芯資訊|WT3000T8語音合成芯片:高性價比語音交互解決方案

    在智能終端設備快速普及的當下,語音交互已成為提升用戶體驗的關鍵功能。廣州唯創電子推出的WT3000T8語音合成芯片,憑借其卓越的
    的頭像 發表于 03-24 09:05 ?424次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:高性價比<b class='flag-5'>語音</b>交互解決方案

    貿澤電子與Amphenol聯合推出全新電子書

    ) 宣布與Amphenol合作推出全新電子書《9 Experts Discuss the Role of Connectivity in e-Mobility》(9位專家探討連接技術在電動出行中的作用
    發表于 02-26 10:52 ?259次閱讀

    電子鎖語音芯片方案,低功耗語音播報ic,NV256H

    廣州九芯電子推出NV256H語音芯片,為電子鎖提供低功耗、高耐用、高質量音頻、靈活控制、平臺自定義及廣泛應用兼容性,注入全新語音交互體驗,滿足智能便捷安全需求。
    的頭像 發表于 12-05 14:12 ?603次閱讀

    浙大與海康威視合作再添新成果

    近日,隨著“AIoT-Center智慧應用聯合實訓基地”揭牌儀式完成,全國干部教育培訓浙江大學基地(以下簡稱“浙大干訓基地”)、浙江大學繼續教育學院(以下簡稱“浙大繼續教育學院”)與杭州海康威視數字技術股份有限公司(以下簡稱“海
    的頭像 發表于 11-06 14:39 ?1034次閱讀

    英偉達推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統的Transformer架構,nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20。這一顯著的性能提升,無疑將極大地推動AI技術
    的頭像 發表于 10-23 11:30 ?871次閱讀

    Commvault與Pure Storage聯合推出網絡就緒解決方案

    混合云網絡彈性和數據保護解決方案的領先提供商Commvault(納斯達克代碼:CVLT)宣布與Pure Storage聯合推出一項網絡就緒解決方案。該解決方案能夠在幫助企業遵守不斷變化的嚴格法規方面發揮關鍵作用。
    的頭像 發表于 10-15 09:16 ?862次閱讀

    OTA遠程升級語音芯片”在線更新語音內容的方式有哪幾種?分別如何使用及有什么優勢?

    【在板更新】在PCBA上預留語音芯片燒錄口,通過配套下載器更新語音芯片中的語音文件。 如何使用,有什么優勢? 1.研發設計階段、調試階段可以使用下載器更換PCBA上面的語音
    的頭像 發表于 07-29 11:10 ?770次閱讀
    OTA遠程升級<b class='flag-5'>語音</b>芯片”在線更<b class='flag-5'>新語音</b>內容的方式有哪幾種?分別如何使用及有什么優勢?
    主站蜘蛛池模板: 亚洲国产第一区二区三区 | 亚洲国产在线精品第二剧情不卡 | 亚洲国产AV精品一区二区蜜芽 | 久久久久亚洲日日精品 | 白银谷在线观看 | 76人遣返航班上71人呈阳性 | 亚洲影院在线播放 | 老司机福利视频一区在线播放 | 国产成人免费视频 | 啊好深啊别拔就射在里面 | 美艳人妻在厨房翘着屁股 | 国产精品成人无码免费视频 | 国产综合视频在线观看一区 | 好大好硬好湿再深一点网站 | 夜夜躁日日躁狠狠 | 国产成人免费网站在线观看 | 中文字幕在线不卡日本v二区 | 99久久免费热在线精品 | 国内极度色诱视频网站 | 某上海少妇3P黑人完整版BD | 国产看午夜精品理论片 | 久久aa毛片免费播放嗯啊 | a视频在线观看免费 | 淫品色影院 | 益日韩欧群交P片内射中文 艺术片 快播 | 99久久蜜臀亚洲AV无码精品 | 国产人妻麻豆蜜桃色在线 | 成人毛片免费在线观看 | 国产全部视频列表支持手机 | 国产精品麻豆a在线播放 | 野花日本完整版在线观看免费高清 | 纯肉巨黄H爆粗口男男分卷阅读 | 亚洲中文字幕无码一去台湾 | 青苹果乐园在线观看电视剧 | 一道本在线伊人蕉无码 | 日本理论片午午伦夜理片2021 | 巨爆乳中文字幕爆乳区 | 亚洲 欧美 日韩 卡通 另类 | 天天躁夜夜踩很很踩2022 | 美国兽皇zoo在线播放 | 老阿姨才是最有V味的直播 牢记永久免费网址 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品