色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

阿里提出低計算量語音合成系統,速度提升4倍

DPVg_AI_era ? 來源:未知 ? 作者:龔婷 ? 2018-03-12 16:19 ? 次閱讀

阿里巴巴語音交互智能團隊提出一種基于深度前饋序列記憶網絡的語音合成系統。該系統在達到與基于雙向長短時記憶單元的語音合成系統一致的主觀聽感的同時,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常適合于對內存占用和計算效率非常敏感的端上產品環境。該研究已入選語音頂會ICASSP會議Oral論文,本文帶來詳細解讀。

研究背景

語音合成系統主要分為兩類,拼接合成系統和參數合成系統。其中參數合成系統在引入了神經網絡作為模型之后,合成質量和自然度都獲得了長足的進步。另一方面,物聯網設備(例如智能音箱和智能電視)的大量普及也對在設備上部署的參數合成系統提出了計算資源的限制和實時率的要求。本工作引入的深度前饋序列記憶網絡可以在保持合成質量的同時,有效降低計算量,提高合成速度。

我們使用基于雙向長短時記憶單元(BLSTM)的統計參數語音合成系統作為基線系統。與其他現代統計參數語音合成系統相似,我們提出的基于深度前饋序列記憶網絡(DFSMN)的統計參數語音合成系統也是由3個主要部分組成,聲音合成器(vocoder),前端模塊和后端模塊,如上圖所示。我們使用開源工具WORLD作為我們的聲音合成器,用來在模型訓練時從原始語音波形中提取頻譜信息、基頻的對數、頻帶周期特征(BAP)和清濁音標記,也用來在語音合成時完成從聲學參數到實際聲音的轉換。前端模塊用來對輸入的文本進行正則化和詞法分析,我們把這些語言學特征編碼后作為神經網絡訓練的輸入。后端模塊用來建立從輸入的語言學特征到聲學參數的映射,在我們的系統中,我們使用DFSMN作為后端模塊。

深度前饋序列記憶網絡

緊湊前饋序列記憶網絡(cFSMN)作為標準的前饋序列記憶網絡(FSMN)的改進版本,在網絡結構中引入了低秩矩陣分解,這種改進簡化了FSMN,減少了模型的參數量,并加速了模型的訓練和預測過程。

上圖給出了cFSMN的結構的圖示。對于神經網絡的每一個cFSMN層,計算過程可表示成以下步驟①經過一個線性映射,把上一層的輸出映射到一個低維向量②記憶模塊執行計算,計算當前幀之前和之后的若干幀和當前幀的低維向量的逐維加權和③把該加權和再經過一個仿射變換和一個非線性函數,得到當前層的輸出。三個步驟可依次表示成如下公式。

與循環神經網絡(RNNs,包括BLSTM)類似,通過調整記憶模塊的階數,cFSMN有能力捕捉序列的長程信息。另一方面,cFSMN可以直接通過反向傳播算法(BP)進行訓練,與必須使用沿時間反向傳播算法(BPTT)進行訓練的RNNs相比,訓練cFSMN速度更快,且較不容易受到梯度消失的影響。

對cFSMN進一步改進,我們得到了深度前饋序列記憶網絡(DFSMN)。DFSMN利用了在各類深度神經網絡中被廣泛使用的跳躍連接(skip-connections)技術,使得執行反向傳播算法的時候,梯度可以繞過非線性變換,即使堆疊了更多DFSMN層,網絡也能快速且正確地收斂。對于DFSMN模型,增加深度的好處有兩個方面。一方面,更深的網絡一般來說具有更強的表征能力,另一方面,增加深度可以間接地增大DFSMN模型預測當前幀的輸出時可以利用的上下文長度,這在直觀上非常有利于捕捉序列的長程信息。具體來說,我們把跳躍連接添加到了相鄰兩層的記憶模塊之間,如下面公式所示。由于DFSMN各層的記憶模塊的維數相同,跳躍連接可由恒等變換實現。

我們可以認為DFSMN是一種非常靈活的模型。當輸入序列很短,或者對預測延時要求較高的時候,可以使用較小的記憶模塊階數,在這種情況下只有當前幀附近幀的信息被用來預測當前幀的輸出。而如果輸入序列很長,或者在預測延時不是那么重要的場景中,可以使用較大的記憶模塊階數,那么序列的長程信息就能被有效利用和建模,從而有利于提高模型的性能。

除了階數之外,我們為DFSMN的記憶模塊增加了另一個超參數,步長(stride),用來表示記憶模塊提取過去或未來幀的信息時,跳過多少相鄰的幀。這是有依據的,因為與語音識別任務相比,語音合成任務相鄰幀之間的重合部分甚至更多。

上文已經提到,除了直接增加各層的記憶模塊的階數之外,增加模型的深度也能間接增加預測當前幀的輸出時模型可以利用的上下文的長度,上圖給出了一個例子。

實驗

在實驗階段,我們使用的是一個由男性朗讀的中文小說數據集。我們把數據集劃分成兩部分,其中訓練集包括38600句朗讀(大約為83小時),驗證集包括1400句朗讀(大約為3小時)。所有的語音數據采樣率都為16k赫茲,每幀幀長為25毫秒,幀移為5毫秒。我們使用WORLD聲音合成器逐幀提取聲學參數,包括60維梅爾倒譜系數,3維基頻的對數,11維BAP特征以及1維清濁音標記。我們使用上述四組特征作為神經網絡訓練的四個目標,進行多目標訓練。前端模塊提取出的語言學特征,共計754維,作為神經網絡訓練的輸入。

我們對比的基線系統是基于一個強大的BLSTM模型,該模型由底層的1個全連接層和上層的3個BLSTM層組成,其中全連接層包含2048個單元,BLSTM層包含2048個記憶單元。該模型通過沿時間反向傳播算法(BPTT)訓練,而我們的DFSMN模型通過標準的反向傳播算法(BP)訓練。包括基線系統在內,我們的模型均通過逐塊模型更新過濾算法(BMUF)在2塊GPU上訓練。我們使用多目標幀級別均方誤差(MSE)作為訓練目標。

所有的DFSMN模型均由底層的若干DFSMN層和上的2個全連接層組成,每個DFSMN層包含2048個結點和512個投影結點,而每個全連接層包含2048個結點。在上圖中,第三列表示該模型由幾層DFSMN層和幾層全連接層組成,第四列表示該模型DFSMN層的記憶模塊的階數和步長。由于這是FSMN這一類模型首次應用在語音合成任務中,因此我們的實驗從一個深度淺且階數小的模型,即模型A開始(注意只有模型A的步長為1,因為我們發現步長為2始終稍好于步長為1的相應模型)。從系統A到系統D,我們在固定DFSMN層數為3的同時逐漸增加階數。從系統D到系統F,我們在固定階數和步長為10,10,2,2的同時逐漸增加層數。從系統F到系統I,我們固定DFSMN層數為10并再次逐漸增加階數。在上述一系列實驗中,隨著DFSMN模型深度和階數的增加,客觀指標逐漸降低(越低越好),這一趨勢非常明顯,且系統H的客觀指標超過了BLSTM基線。

另一方面,我們也做了平均主觀得分(MOS)測試(越高越好),測試結果如上圖所示。主觀測試是通過付費眾包平臺,由40個母語為中文的測試人員完成的。在主觀測試中,每個系統生成了20句集外合成語音,每句合成語音由10個不同的測試人員獨立評價。在平均主觀得分的測試結果表明,從系統A到系統E,主觀聽感自然度逐漸提高,且系統E達到了與BLSTM基線系統一致的水平。但是,盡管后續系統客觀指標持續提高,主觀指標只是在系統E得分的上下波動,沒有進一步提高。

結論

根據上述主客觀測試,我們得到的結論是,歷史和未來信息各捕捉120幀(600毫秒)是語音合成聲學模型建模所需要的上下文長度的上限,更多的上下文信息對合成結果沒有直接幫助。與BLSTM基線系統相比,我們提出的DFSMN系統可以在獲得與基線系統一致的主觀聽感的同時,模型大小只有基線系統的1/4,預測速度則是基線系統的4倍,這使得該系統非常適合于對內存占用和計算效率要求很高的端上產品環境,例如在各類物聯網設備上部署。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4772

    瀏覽量

    100857
  • 物聯網
    +關注

    關注

    2909

    文章

    44704

    瀏覽量

    374182
  • 智能語音交互

    關注

    0

    文章

    21

    瀏覽量

    2821

原文標題:ICASSP Oral 論文:阿里提出低計算量語音合成系統,速度提升4倍

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    EMMC存儲速度如何提升

    提升eMMC(Embedded Multi Media Card)的存儲速度,可以從多個方面入手。以下是一些有效的方法: 一、硬件優化 啟用8線eMMC驅動 : 默認的4線模式可能不如8線模式快
    的頭像 發表于 12-25 09:31 ?297次閱讀

    基于語音識別的智能會議系統具備哪些交互功能

    標貝科技專注智能語音交互領域多年,在語音識別和語音合成領域有著多項大型企業合作案例,標貝與多個智能會議系統廠商合作,成功將
    的頭像 發表于 12-20 10:35 ?129次閱讀

    阿里云海外收入五年增長20

    旗下公司,是全球領先的云計算及人工智能科技公司。提供云服務器、云數據庫、云安全、云存儲、企業應用及行業解決方案服務。 據阿里云智能國際事業部總經理袁千透露,阿里云海外收入五年增長了20
    的頭像 發表于 12-11 15:55 ?159次閱讀

    如何提升 ChatGPT 的響應速度

    提升 ChatGPT 的響應速度是一個涉及多個層面的復雜問題。以下是一些可能的方法和策略,可以幫助提高 ChatGPT 的響應速度: 優化算法 : 并行處理 :通過并行處理技術,可以讓多個計算
    的頭像 發表于 10-25 17:39 ?713次閱讀

    語音集成電路有哪些特點

    各種應用中都非常有用,包括智能手機、智能音箱、汽車導航系統、醫療設備和安全系統等。 以下是關于語音集成電路特點的分析: 集成度高 :語音集成電路將多個功能集成在一個芯片上,這樣可以減少
    的頭像 發表于 09-30 15:43 ?299次閱讀

    聲發射系統的技術指標:最高采樣速度的選擇

    雖然理論上采樣速度越高獲得的數字信號越完整,但考慮到實際應用的成本,無法實現無限高甚至過高,只能選擇合理(即滿足應用要求)的采樣速度。例如,采樣速度40兆,數據就比采樣
    的頭像 發表于 08-26 17:30 ?358次閱讀
    聲發射<b class='flag-5'>系統</b>的技術指標:最高采樣<b class='flag-5'>速度</b>的選擇

    有效提升智能會議系統語音識別準確性案例分享

    。多語言支持的語音識別技術還可以準確識別不同語言和方言,對于夸全球交流的國際會議必不可缺。語音識別準確性對于提升智能會議系統市場核心競爭力的重要性由此可見一斑。
    的頭像 發表于 06-21 11:13 ?528次閱讀
    有效<b class='flag-5'>提升</b>智能會議<b class='flag-5'>系統</b><b class='flag-5'>語音</b>識別準確性案例分享

    基于助聽器開發的一種高效的語音增強神經網絡

    2.39ms的計算延遲,在10 ms的目標范圍內,比之前的工作好351。 健康的耳朵是一個復雜的非線性系統,能夠在大的動態范圍內工作。當耳朵受損時,聽覺系統可以用助聽器(HA)增強,
    發表于 06-07 11:29

    【解讀】VTX316 TTS語音合成芯片幾個很實用的應用技巧

    ? 前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性價比的中文TTS語音合成芯片,采用QFN32(4*4mm)封裝,體積更加精巧,文本
    的頭像 發表于 05-13 16:33 ?457次閱讀

    WT3000T8-TTS語音合成芯片及應用場景介紹

    TTS語音合成芯片是一種能夠將文本信息轉化為自然語音的專用芯片。它通過內置的語音合成算法和音頻處理單元,實現了文本到
    的頭像 發表于 04-18 18:03 ?903次閱讀

    玩轉語音合成芯片(TTS芯片),看這一篇就夠了

    什么是語音合成芯片:語音合成芯片也稱為TTS芯片,即文字轉語音芯片,是一種能夠將輸入的文字信息轉換為語音
    的頭像 發表于 03-19 18:13 ?1439次閱讀
    玩轉<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片(TTS芯片),看這一篇就夠了

    新型散熱材料金剛石納米膜有望將電動汽車的充電速度提升

    近日,德國弗勞恩霍夫研究所 (Fraunhofer) 的科學家們利用超薄金剛石膜成功降低了電子元件的熱負荷,并有望將電動汽車的充電速度提升
    的頭像 發表于 03-07 16:33 ?1391次閱讀
    新型散熱材料金剛石納米膜有望將電動汽車的充電<b class='flag-5'>速度</b><b class='flag-5'>提升</b>五<b class='flag-5'>倍</b>

    語音合成技術在智能駕駛中的應用與挑戰

    一、引言 隨著智能駕駛技術的不斷發展,人機交互變得越來越重要。語音合成技術作為人機交互的重要手段,在智能駕駛中發揮著越來越重要的作用。本文將探討語音合成技術在智能駕駛中的應用,并分析所
    的頭像 發表于 02-02 10:34 ?431次閱讀

    語音合成技術在智能駕駛中的創新與應用

    的發展趨勢。 二、語音合成技術的創新 語音質量的提升:隨著深度學習等技術的不斷發展,語音合成技術
    的頭像 發表于 02-01 18:09 ?667次閱讀

    語音合成技術在智能駕駛中的應用與展望

    體驗。本文將探討語音合成技術在智能駕駛中的應用、優勢以及未來發展趨勢。 二、語音合成技術在智能駕駛中的應用 導航與路線指引:通過語音
    的頭像 發表于 02-01 17:50 ?536次閱讀
    主站蜘蛛池模板: 久久视频在线视频观看天天看视频| 国产人成高清在线视频99| 久久中文字幕综合不卡一二区| 欧美日韩在线成人看片a| 伊人大香线蕉影院在线播放| 国产欧美一区二区三区视频| 色欲精品久久人妻AV中文字幕| china中国gay偷拍| 牛牛免费视频| 99热国产这里只有精品9九| 狂操空姐电影| 2019天天射干网站| 毛片TV网站无套内射TV网站| 中文字幕国产在线观看| 久久综合电影| 6080YYY午夜理论片在线观看| 久久久无码精品亚洲A片软件| 永久免费在线视频| 理论片87福利理论电影| 91免费精品国自产拍在线可以看| 美国色情三级欧美三级纸匠情挑| 羽月希被黑人吃奶dasd585| 久久久久久91香蕉国产| 2012中文字幕手机在线 | 征服丝袜旗袍人妻| 蜜臀AV熟女人妻中文字幕| 99九九精品国产高清自在线| 欧美性xxx免费看片| 大胸美女裸身色诱网站| 无码人妻视频又大又粗欧美| 国产精品久久久久影院嫩草| 亚洲免费精品| 嫩草影院在线观看精品视频| 成人啪啪色婷婷久色社区| 無码一区中文字幕少妇熟女网站 | 鬼灭之刃花街篇免费樱花动漫| 手机观看毛片| 久久精品国产只有精品| JAVAPARSER丰满白老师| 午夜国产高清精品一区免费| 久草在线一免费新视频|