一级做人爱a视频正版免费,天天在线免费视频,伊人久久青草

阿里巴巴語音交互智能團隊提出一種基于深度前饋序列記憶網絡的語音合成系統。該系統在達到與基于雙向長短時記憶單元的語音合成系統一致的主觀聽感的同時，模型大小只有后者的四分之一，且合成速度是后者的四倍，非常適合于對內存占用和計算效率非常敏感的端上產品環境。該研究已入選語音頂會ICASSP會議Oral論文，本文帶來詳細解讀。

研究背景

語音合成系統主要分為兩類，拼接合成系統和參數合成系統。其中參數合成系統在引入了神經網絡作為模型之后，合成質量和自然度都獲得了長足的進步。另一方面，物聯網設備（例如智能音箱和智能電視）的大量普及也對在設備上部署的參數合成系統提出了計算資源的限制和實時率的要求。本工作引入的深度前饋序列記憶網絡可以在保持合成質量的同時，有效降低計算量，提高合成速度。

我們使用基于雙向長短時記憶單元（BLSTM）的統計參數語音合成系統作為基線系統。與其他現代統計參數語音合成系統相似，我們提出的基于深度前饋序列記憶網絡（DFSMN）的統計參數語音合成系統也是由3個主要部分組成，聲音合成器（vocoder），前端模塊和后端模塊，如上圖所示。我們使用開源工具WORLD作為我們的聲音合成器，用來在模型訓練時從原始語音波形中提取頻譜信息、基頻的對數、頻帶周期特征（BAP）和清濁音標記，也用來在語音合成時完成從聲學參數到實際聲音的轉換。前端模塊用來對輸入的文本進行正則化和詞法分析，我們把這些語言學特征編碼后作為神經網絡訓練的輸入。后端模塊用來建立從輸入的語言學特征到聲學參數的映射，在我們的系統中，我們使用DFSMN作為后端模塊。

深度前饋序列記憶網絡

緊湊前饋序列記憶網絡（cFSMN）作為標準的前饋序列記憶網絡（FSMN）的改進版本，在網絡結構中引入了低秩矩陣分解，這種改進簡化了FSMN，減少了模型的參數量，并加速了模型的訓練和預測過程。

上圖給出了cFSMN的結構的圖示。對于神經網絡的每一個cFSMN層，計算過程可表示成以下步驟①經過一個線性映射，把上一層的輸出映射到一個低維向量②記憶模塊執行計算，計算當前幀之前和之后的若干幀和當前幀的低維向量的逐維加權和③把該加權和再經過一個仿射變換和一個非線性函數，得到當前層的輸出。三個步驟可依次表示成如下公式。

與循環神經網絡（RNNs，包括BLSTM）類似，通過調整記憶模塊的階數，cFSMN有能力捕捉序列的長程信息。另一方面，cFSMN可以直接通過反向傳播算法（BP）進行訓練，與必須使用沿時間反向傳播算法（BPTT）進行訓練的RNNs相比，訓練cFSMN速度更快，且較不容易受到梯度消失的影響。

對cFSMN進一步改進，我們得到了深度前饋序列記憶網絡（DFSMN）。DFSMN利用了在各類深度神經網絡中被廣泛使用的跳躍連接（skip-connections）技術，使得執行反向傳播算法的時候，梯度可以繞過非線性變換，即使堆疊了更多DFSMN層，網絡也能快速且正確地收斂。對于DFSMN模型，增加深度的好處有兩個方面。一方面，更深的網絡一般來說具有更強的表征能力，另一方面，增加深度可以間接地增大DFSMN模型預測當前幀的輸出時可以利用的上下文長度，這在直觀上非常有利于捕捉序列的長程信息。具體來說，我們把跳躍連接添加到了相鄰兩層的記憶模塊之間，如下面公式所示。由于DFSMN各層的記憶模塊的維數相同，跳躍連接可由恒等變換實現。

我們可以認為DFSMN是一種非常靈活的模型。當輸入序列很短，或者對預測延時要求較高的時候，可以使用較小的記憶模塊階數，在這種情況下只有當前幀附近幀的信息被用來預測當前幀的輸出。而如果輸入序列很長，或者在預測延時不是那么重要的場景中，可以使用較大的記憶模塊階數，那么序列的長程信息就能被有效利用和建模，從而有利于提高模型的性能。

除了階數之外，我們為DFSMN的記憶模塊增加了另一個超參數，步長（stride），用來表示記憶模塊提取過去或未來幀的信息時，跳過多少相鄰的幀。這是有依據的，因為與語音識別任務相比，語音合成任務相鄰幀之間的重合部分甚至更多。

上文已經提到，除了直接增加各層的記憶模塊的階數之外，增加模型的深度也能間接增加預測當前幀的輸出時模型可以利用的上下文的長度，上圖給出了一個例子。

實驗

在實驗階段，我們使用的是一個由男性朗讀的中文小說數據集。我們把數據集劃分成兩部分，其中訓練集包括38600句朗讀（大約為83小時），驗證集包括1400句朗讀（大約為3小時）。所有的語音數據采樣率都為16k赫茲，每幀幀長為25毫秒，幀移為5毫秒。我們使用WORLD聲音合成器逐幀提取聲學參數，包括60維梅爾倒譜系數，3維基頻的對數，11維BAP特征以及1維清濁音標記。我們使用上述四組特征作為神經網絡訓練的四個目標，進行多目標訓練。前端模塊提取出的語言學特征，共計754維，作為神經網絡訓練的輸入。

我們對比的基線系統是基于一個強大的BLSTM模型，該模型由底層的1個全連接層和上層的3個BLSTM層組成，其中全連接層包含2048個單元，BLSTM層包含2048個記憶單元。該模型通過沿時間反向傳播算法（BPTT）訓練，而我們的DFSMN模型通過標準的反向傳播算法（BP）訓練。包括基線系統在內，我們的模型均通過逐塊模型更新過濾算法（BMUF）在2塊GPU上訓練。我們使用多目標幀級別均方誤差（MSE）作為訓練目標。

所有的DFSMN模型均由底層的若干DFSMN層和上的2個全連接層組成，每個DFSMN層包含2048個結點和512個投影結點，而每個全連接層包含2048個結點。在上圖中，第三列表示該模型由幾層DFSMN層和幾層全連接層組成，第四列表示該模型DFSMN層的記憶模塊的階數和步長。由于這是FSMN這一類模型首次應用在語音合成任務中，因此我們的實驗從一個深度淺且階數小的模型，即模型A開始（注意只有模型A的步長為1，因為我們發現步長為2始終稍好于步長為1的相應模型）。從系統A到系統D，我們在固定DFSMN層數為3的同時逐漸增加階數。從系統D到系統F，我們在固定階數和步長為10,10,2,2的同時逐漸增加層數。從系統F到系統I，我們固定DFSMN層數為10并再次逐漸增加階數。在上述一系列實驗中，隨著DFSMN模型深度和階數的增加，客觀指標逐漸降低（越低越好），這一趨勢非常明顯，且系統H的客觀指標超過了BLSTM基線。

另一方面，我們也做了平均主觀得分（MOS）測試（越高越好），測試結果如上圖所示。主觀測試是通過付費眾包平臺，由40個母語為中文的測試人員完成的。在主觀測試中，每個系統生成了20句集外合成語音，每句合成語音由10個不同的測試人員獨立評價。在平均主觀得分的測試結果表明，從系統A到系統E，主觀聽感自然度逐漸提高，且系統E達到了與BLSTM基線系統一致的水平。但是，盡管后續系統客觀指標持續提高，主觀指標只是在系統E得分的上下波動，沒有進一步提高。

結論

根據上述主客觀測試，我們得到的結論是，歷史和未來信息各捕捉120幀（600毫秒）是語音合成聲學模型建模所需要的上下文長度的上限，更多的上下文信息對合成結果沒有直接幫助。與BLSTM基線系統相比，我們提出的DFSMN系統可以在獲得與基線系統一致的主觀聽感的同時，模型大小只有基線系統的1/4，預測速度則是基線系統的4倍，這使得該系統非常適合于對內存占用和計算效率要求很高的端上產品環境，例如在各類物聯網設備上部署。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4789

瀏覽量
101530
物聯網

物聯網

+關注

關注
2914

文章
45194

瀏覽量
379648
智能語音交互

智能語音交互

+關注

關注
0

文章
21

瀏覽量
2859

原文標題：ICASSP Oral 論文：阿里提出低計算量語音合成系統，速度提升4倍

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

DeepSeek最新論文：訓練速度提升9倍，推理速度快11倍！

是上一代Grok2的15倍左右。在Benchmarks中，Grok3毫無懸念成功地領先Deepseek R1、o3 mini等對手。 ? 不過用如此大規模的算力集群，花費上一代15倍的計算資源投入，業界認為

發表于 02-20 11:25 ?1009次閱讀

DeepSeek最新論文：訓練<b class='flag-5'>速度</b><b class='flag-5'>提升</b>9<b class='flag-5'>倍</b>，推理<b class='flag-5'>速度</b>快11<b class='flag-5'>倍</b>！

無人機低延時目標跟蹤識別智算系統

33幀/s，搭配30FPS攝像頭，實現實時制導圖像的計算識別與姿態調整跟蹤。三、低成本4k輕量光學吊艙： 1）強大的影響系統：低成本輕量化光學吊艙搭載1/1.7索尼影像傳感器，擁有

發表于 03-06 15:48

可以在OpenVINO?工具套件的視覺處理單元上推斷語音合成模型嗎？

無法確定是否可以在 VPU 上推斷語音合成模型

發表于 03-06 08:29

EMMC存儲速度如何提升

要提升eMMC（Embedded Multi Media Card）的存儲速度，可以從多個方面入手。以下是一些有效的方法：一、硬件優化啟用8線eMMC驅動：默認的4線模式可能不如8線模式快

發表于 12-25 09:31 ?857次閱讀

基于語音識別的智能會議系統具備哪些交互功能

標貝科技專注智能語音交互領域多年，在語音識別和語音合成領域有著多項大型企業合作案例，標貝與多個智能會議系統廠商合作，成功將

發表于 12-20 10:35 ?300次閱讀

阿里云海外收入五年增長20倍

旗下公司，是全球領先的云計算及人工智能科技公司。提供云服務器、云數據庫、云安全、云存儲、企業應用及行業解決方案服務。據阿里云智能國際事業部總經理袁千透露，阿里云海外收入五年增長了20倍

發表于 12-11 15:55 ?236次閱讀

如何提升 ChatGPT 的響應速度

提升 ChatGPT 的響應速度是一個涉及多個層面的復雜問題。以下是一些可能的方法和策略，可以幫助提高 ChatGPT 的響應速度：優化算法：并行處理：通過并行處理技術，可以讓多個計算

發表于 10-25 17:39 ?1042次閱讀

語音集成電路有哪些特點

各種應用中都非常有用，包括智能手機、智能音箱、汽車導航系統、醫療設備和安全系統等。以下是關于語音集成電路特點的分析：集成度高：語音集成電路將多個功能集成在一個芯片上，這樣可以減少

發表于 09-30 15:43 ?404次閱讀

聲發射系統的技術指標：最高采樣速度的選擇

雖然理論上采樣速度越高獲得的數字信號越完整，但考慮到實際應用的成本，無法實現無限高甚至過高，只能選擇合理（即滿足應用要求）的采樣速度。例如，采樣速度40兆，數據量就比采樣

發表于 08-26 17:30 ?490次閱讀

有效提升智能會議系統語音識別準確性案例分享

。多語言支持的語音識別技術還可以準確識別不同語言和方言，對于夸全球交流的國際會議必不可缺。語音識別準確性對于提升智能會議系統市場核心競爭力的重要性由此可見一斑。

發表于 06-21 11:13 ?626次閱讀

基于助聽器開發的一種高效的語音增強神經網絡

2.39ms的計算延遲，在10 ms的目標范圍內，比之前的工作好351倍。健康的耳朵是一個復雜的非線性系統，能夠在大的動態范圍內工作。當耳朵受損時，聽覺系統可以用助聽器(HA)增強，

發表于 06-07 11:29

【解讀】VTX316 TTS語音合成芯片幾個很實用的應用技巧

? 前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性價比的中文TTS語音合成芯片，采用QFN32（4*4mm）封裝，體積更加精巧，文本

發表于 05-13 16:33 ?586次閱讀

WT3000T8-TTS語音合成芯片及應用場景介紹

TTS語音合成芯片是一種能夠將文本信息轉化為自然語音的專用芯片。它通過內置的語音合成算法和音頻處理單元，實現了文本到

發表于 04-18 18:03 ?1037次閱讀

玩轉語音合成芯片（TTS芯片），看這一篇就夠了

什么是語音合成芯片：語音合成芯片也稱為TTS芯片，即文字轉語音芯片，是一種能夠將輸入的文字信息轉換為語音

發表于 03-19 18:13 ?1638次閱讀

新型散熱材料金剛石納米膜有望將電動汽車的充電速度提升五倍

近日，德國弗勞恩霍夫研究所 (Fraunhofer) 的科學家們利用超薄金剛石膜成功降低了電子元件的熱負荷，并有望將電動汽車的充電速度提升五倍。

發表于 03-07 16:33 ?1481次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

阿里提出低計算量語音合成系統，速度提升4倍

評論

DeepSeek最新論文：訓練速度提升9倍，推理速度快11倍！

無人機低延時目標跟蹤識別智算系統

可以在OpenVINO?工具套件的視覺處理單元上推斷語音合成模型嗎？

EMMC存儲速度如何提升

基于語音識別的智能會議系統具備哪些交互功能

阿里云海外收入五年增長20倍

如何提升 ChatGPT 的響應速度

語音集成電路有哪些特點

聲發射系統的技術指標：最高采樣速度的選擇

有效提升智能會議系統語音識別準確性案例分享

基于助聽器開發的一種高效的語音增強神經網絡

【解讀】VTX316 TTS語音合成芯片幾個很實用的應用技巧

WT3000T8-TTS語音合成芯片及應用場景介紹

玩轉語音合成芯片（TTS芯片），看這一篇就夠了

新型散熱材料金剛石納米膜有望將電動汽車的充電速度提升五倍