色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟或將發布深度神經網絡語音系列產品

璟琰乀 ? 來源:智能相對論 ? 作者:智能相對論 ? 2020-12-01 16:23 ? 次閱讀

以往,談及對合成語音的刻板印象,很多人會聯想到《星球大戰》中的C-3PO——那個有著近似人類外形金光閃閃的家伙,它是整個系列影片中毫無爭議的搞笑擔當,其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質感的回聲。直到今天,它那獨特的嗓音,仍然是很多科幻片中人工智能發聲的模板。

第一部《星球大戰》公映于1977年,彼時,個人電腦才剛剛走出實驗室,人們對于人工智能的想象力仍受限于時代。去年,該系列推出了最后一部作品《星球大戰:天行者崛起》,C-3PO的聲音還是人們熟悉的老樣子。而現實中,智能語音技術飛速發展,取而代之的是聽感越來越趨于自然、逼真的“合成人聲”,讓越來越多的企業于實現了與客戶的多模態互動。

合成人聲的用途相當廣泛,我們熟知的便是手機中的語音助手,用戶可通過簡單的人機對話,獲知天氣、路況等實時信息,也可命令手機完成撥號、查詢等任務。這一類應用被稱作實時語音合成,它對基于云的計算力提出了很高的要求,除了需要對聲音的自然度不斷地進行優化外,實時合成對于語音合成引擎和平臺架構也都有著極高的要求,必須保障在極低的延遲下,提供準確、穩定、自然的聲音內容。另一類常見的應用是利用人工智能語音合成有聲內容,這類應用通常會在語音服務端進行非實時的批量合成,然后再將有聲內容文件提供給用戶。有聲內容合成的主要挑戰在于如何通過多種角色扮演和豐富情感表達,降低聽眾單向接收有聲內容的聽覺疲勞。

以往,有聲書需要由專業朗誦者來錄制,制作周期長達數月且成本高昂。如今,通過智能合成語音錄制有聲書,制作周期可縮短至幾小時,甚至是幾分鐘。即便在需要人工干預校對和聲音編輯的情況下,制作周期也可縮短至數周,節省了大量的人力、物力及時間成本,且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”,由周迅與公益組織紅丹丹聯合發起的為視障人士讀書活動,向我們展示了語音合成技術的新高度。在此之前,創建一個高質量的語音合成模型需要以大量真人原聲為樣本進行機器學習,樣本量通常會超過10小時或10000句。而這次公益活動的主辦方采用了由微軟最新開發的深度神經網絡語音合成定制系統,只采集了半小時大約500句的周迅原聲錄音,便通過深度定制的語音模型,惟妙惟肖地復原了周迅的聲音。

這里所說的“復原”不只是周迅頗具特色的聲線,也包括周迅在朗讀時的語氣、情緒、語調、抑揚頓挫等。可以想象,隨著這一技術的普及,有聲書行業也將隨之發生巨大的改變。微軟將在國際殘疾人日捐贈的100小時有聲書籍正昭示著這種改變的開始。

微軟深度神經網絡是基于Azure云的端到端語音合成系統,由前端、聲學模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發音問題,比如“2020”在表示年份和數字時的讀法不一樣,這是上下文關聯問題;再比如“堡”字,用于地名時應讀作“鋪”,“解”用在姓氏上應讀作“謝”,這都是多音字問題;還有“一會兒”這類詞,不能讀成三個字,后兩個字應合并為兒化音,這是語言習慣問題。聲學模型負責為語音賦予韻律,比如語速、語調、停頓、重音和情緒變化等。最后一部分聲碼器負責還原語音的聲學特征,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。

深度神經網絡模型是當前最先進的語音合成技術,但相應的主流產品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定制技術處于行業領先地位,一般情況下,只需要不超過2000句的內容,就可以做到非常逼真的還原。那么,在周迅的案例中,是如何做到只需500句甚至更少的聲音素材就達到類似效果呢?微軟還有一個“殺器”——通用模型。通用模型是在對海量語料庫進行大數據分析的基礎上,不斷訓練深度神經網絡去學習人類語言與發聲特征后得到的。目前微軟通用語料庫的容量已經超過3000小時,覆蓋了50多個語種,通過它提煉出來的通用模型已經熟練掌握了這50多種語言的幾乎全部發聲規律,甚至包括真人說話時換氣和咽口水的細節都可以模仿出來。當微軟需要基于像周迅這樣只有500句話甚至更少內容的語料庫做語音定制時,便可以在通用模型基礎上,通過遷移學習法來建立周迅聲音的擴展模型。

目前,微軟的語音合成定制系統只需要半小時左右的聲音樣本便可建立定制語音模型,與傳統TTS建模所需的至少10小時或10000句的聲音樣本量相比,是一個從量到質的飛躍。這一飛躍使得面向更多的企業甚至于普通消費者的個人聲音定制成為可能。

微軟之所以能在語音合成領域保持領先地位,主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來,微軟一直將語音作為主要的研究領域,儲備、積累了大量的人工智能相關技術。2018年9月,微軟率先開始測試基于深度神經網絡的端到端語音合成系統,為人工智能語音技術的發展揭開了新的一頁。

前不久,微軟將其定制的通用中文發聲與市場上的主流產品進行了盲測對比,微軟的MOS得分(5分制)為4.35,居于領先地位,表明合成語音與真人聲音已經非常接近(真人的MOS得分為4.41)。

除了語音助手和有聲書籍錄制外,語音合成技術還廣泛應用于智能語音客服領域,這也是微軟目前在to B領域的主要發力點,比如很多航空公司、電商平臺、電信運營商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標準化問題,減少客戶的等待時間,為客戶帶來更好的服務體驗。在應對突發事件方面,智能語音客服更有得天獨厚的優勢,很多突發事件都會造成客戶咨詢量在短時間內爆發式增長,在這種情況下,企業如果增設人工客服,一方面可能在時間上來不及,另一方面倉促上崗也可能導致服務質量的難以保證。

目前,微軟為企業定制智能語音客服大致需要300至2000句語料訓練,以滿足特定應用場景的需求;對于需要定制適用于多場景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業而言,語料訓練則有更高要求。

上述兩種定制目前都會有人工參與測試和適當調校并向客戶提供靈活的接入方式,即通過APISDK接入微軟的Azure公有云,實現端到端的實時合成。如果客戶有特殊需求,產品也可部署在私有云甚至離線設備中。未來,這兩種系統都將實現自動化定制。實際上,微軟已經邀請合作伙伴開始小范圍的自動化系統測試,可能在不久的將來正式發布此系列產品。

可以預期,伴隨著相關技術的發展,智能語音在個人及商業領域中的應用場景將更加豐富,不斷細分的合成語音服務也會給我們帶來更多的體驗和驚喜。同時,微軟提出了人工智能六項倫理道德準則:公平、可靠和安全、隱私和保證、包容、透明和責任。倡導負責任的人工智能。這些原則將為人工智能的發展保駕護航,予力全球每一人、每一組織,成就不凡!

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6612

    瀏覽量

    104163
  • 神經網絡
    +關注

    關注

    42

    文章

    4774

    瀏覽量

    100895
  • 人工智能
    +關注

    關注

    1792

    文章

    47425

    瀏覽量

    238953
收藏 人收藏

    評論

    相關推薦

    FPGA在深度神經網絡中的應用

    隨著人工智能技術的飛速發展,深度神經網絡(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領域取得了顯著成果。然而,傳統的深度
    的頭像 發表于 07-24 10:42 ?727次閱讀

    殘差網絡深度神經網絡

    殘差網絡(Residual Network,通常簡稱為ResNet) 是深度神經網絡的一種 ,其獨特的結構設計在解決深層網絡訓練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發表于 07-11 18:13 ?1123次閱讀

    簡單認識深度神經網絡

    處理數據,從而解決各種復雜的數據驅動問題。本文詳細探討深度神經網絡的定義、基本結構、工作原理及其在多個領域的應用。
    的頭像 發表于 07-10 18:23 ?1055次閱讀

    人工神經網絡模型的分類有哪些

    人工神經網絡(Artificial Neural Networks, ANNs)是一種模擬人腦神經元網絡的計算模型,它在許多領域,如圖像識別、語音識別、自然語言處理、預測分析等有著廣泛的應用。本文
    的頭像 發表于 07-05 09:13 ?1266次閱讀

    遞歸神經網絡是循環神經網絡

    。 遞歸神經網絡的概念 遞歸神經網絡是一種具有短期記憶功能的神經網絡,它能夠處理序列數據,如時間序列、文本、語音等。與傳統的前饋神經網絡不同
    的頭像 發表于 07-04 14:54 ?809次閱讀

    循環神經網絡和卷積神經網絡的區別

    循環神經網絡(Recurrent Neural Network,RNN)和卷積神經網絡(Convolutional Neural Network,CNN)是深度學習領域中兩種非常重要的神經網絡
    的頭像 發表于 07-04 14:24 ?1350次閱讀

    深度神經網絡與基本神經網絡的區別

    在探討深度神經網絡(Deep Neural Networks, DNNs)與基本神經網絡(通常指傳統神經網絡前向
    的頭像 發表于 07-04 13:20 ?971次閱讀

    bp神經網絡深度神經網絡

    Network)有相似之處,但它們之間還是存在一些關鍵的區別。 一、引言 神經網絡是一種模擬人腦神經元結構的計算模型,它由大量的神經元(稱為節點)組成,這些
    的頭像 發表于 07-03 10:14 ?872次閱讀

    卷積神經網絡訓練的是什么

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文詳細介紹卷積神經網絡
    的頭像 發表于 07-03 09:15 ?439次閱讀

    深度學習與卷積神經網絡的應用

    隨著人工智能技術的飛速發展,深度學習和卷積神經網絡(Convolutional Neural Network, CNN)作為其中的重要分支,已經在多個領域取得了顯著的應用成果。從圖像識別、語音識別
    的頭像 發表于 07-02 18:19 ?931次閱讀

    卷積神經網絡的原理是什么

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、語音識別、自然語言處理等領域。本文詳細介紹卷積
    的頭像 發表于 07-02 14:44 ?677次閱讀

    深度神經網絡模型有哪些

    深度神經網絡(Deep Neural Networks,DNNs)是一類具有多個隱藏層的神經網絡,它們在許多領域取得了顯著的成功,如計算機視覺、自然語言處理、語音識別等。以下是一些常見
    的頭像 發表于 07-02 10:00 ?1514次閱讀

    神經網絡架構有哪些

    神經網絡架構是機器學習領域中的核心組成部分,它們模仿了生物神經網絡的運作方式,通過復雜的網絡結構實現信息的處理、存儲和傳遞。隨著深度學習技術的不斷發展,各種
    的頭像 發表于 07-01 14:16 ?743次閱讀

    FPGA在深度學習應用中取代GPU

    、筆記本電腦機架式服務器上訓練神經網絡時,這不是什么大問題。但是,許多部署深度學習模型的環境對 GPU 并不友好,比如自動駕駛汽車、工廠、機器人和許多智慧城市環境,在這些環境中硬件必須忍受熱、灰塵、濕度
    發表于 03-21 15:19

    詳解深度學習、神經網絡與卷積神經網絡的應用

    處理技術也可以通過深度學習來獲得更優異的效果,比如去噪、超分辨率和跟蹤算法等。為了跟上時代的步伐,必須對深度學習與神經網絡技術有所學習和研究。本文介紹
    的頭像 發表于 01-11 10:51 ?2212次閱讀
    詳解<b class='flag-5'>深度</b>學習、<b class='flag-5'>神經網絡</b>與卷積<b class='flag-5'>神經網絡</b>的應用
    主站蜘蛛池模板: 我的年轻漂亮继坶三级| 久久伊人在| 亚洲日韩国产成网站在线| 热久久国产欧美一区二区精品| 国产亚洲精品久久精品69| 97在线视频网站| 亚洲 欧美 日韩 卡通 另类| 青青久| 精品亚洲麻豆1区2区3区| 俄罗斯性孕妇孕交| 2023极品少妇XXXO露脸| 性春院| 日本不卡一二三| 找老女人泻火对白自拍| 天天色狠狠干| 欧美另类一区| 中文字幕伊人香蕉在线| 性做久久久久久久久浪潮| 日韩欧美视频一区二区在线观看| 蜜芽一二三区| 伦 乱真实故事| 久久人人爽人人片AV人成| 狠狠射首页| 湖南电台在线收听| 国产亚洲精品AV麻豆狂野| 国产美女影院| 国产精人妻无码一区麻豆| 国产成人女人视频在线观看| 父亲猜女儿在线观看| 成人天堂婷婷青青视频在线观看| rio 快播| 苍井空a 集在线观看网站| write as 跳蛋| 成人国产精品视频频| 成年人免费观看的视频| 大乳牛奶女magnet| 成人国产亚洲精品A区天堂蜜臀| 成人免费小视频| 父皇轻点插好疼H限| 国产精品A久久久久久久久| 国产毛片女人高潮叫声|