竹菊影视一区二区三区,亚洲精品色综合久久,午夜国产

虛擬助手在用戶(hù)發(fā)出命令后就會(huì)作出語(yǔ)音回復(fù)。而生成語(yǔ)音回復(fù)的技術(shù)被稱(chēng)為文本轉(zhuǎn)語(yǔ)音（TTS）。

TTS 應(yīng)用能夠讓輔助器具使用者訪(fǎng)問(wèn)更多內(nèi)容，因此非常實(shí)用。最新的 TTS 技術(shù)可以從一段幾分鐘的音頻數(shù)據(jù)中生成合成聲音，非常適合僅留存了有限錄音的失音者。

事實(shí)上，TTS 的應(yīng)用正在因技術(shù)進(jìn)步而不斷增長(zhǎng)：

在幾毫秒內(nèi)運(yùn)行端到端 TTS 流程，以實(shí)現(xiàn)自然互動(dòng)。
在推斷時(shí)自定義 AI 模型和流程，以產(chǎn)生具有表現(xiàn)力的合成語(yǔ)音。
部署在所有云、數(shù)據(jù)中心、邊緣或嵌入式設(shè)備上。

本文將說(shuō)明語(yǔ)音合成系統(tǒng)如何運(yùn)作，然后介紹 TTS 技術(shù)的常見(jiàn)用途和新用途。

語(yǔ)音合成系統(tǒng)如何工作

顧名思義，文本轉(zhuǎn)語(yǔ)音或語(yǔ)音合成是將書(shū)面文本轉(zhuǎn)換成自然、類(lèi)似人類(lèi)的語(yǔ)音音頻的過(guò)程。在端到端 TTS 流程中用于實(shí)現(xiàn)這一轉(zhuǎn)換的關(guān)鍵模型和模塊包括：

文本規(guī)范化和預(yù)處理：將數(shù)字和縮略語(yǔ)變成文字。
文本編碼：將文本轉(zhuǎn)換為輸入到聲譜圖生成器的編碼向量。
聲譜圖生成器：從編碼文本向量中生成聲譜圖。
語(yǔ)音編碼器模型：輸入聲譜圖并生成一個(gè)人們可以聽(tīng)到的合成語(yǔ)音。

一般來(lái)說(shuō)，TTS 是虛擬助手、數(shù)字人和服務(wù)機(jī)器人等應(yīng)用的最終階段。

常見(jiàn)的 TTS 應(yīng)用

2021 年 IDC 對(duì)話(huà)式 AI 采用情況調(diào)查共調(diào)研了 251 家公司，其中 74.5% 在語(yǔ)音對(duì)話(huà)式 AI 解決方案中使用 TTS，68.5% 在無(wú)障礙解決方案中使用 TTS（圖 1）。

圖 1. IDC 關(guān)于常見(jiàn) TTS 用例的調(diào)查

語(yǔ)音合成的功能用途正得到許多行業(yè)的認(rèn)可，人們可能已經(jīng)看到過(guò)以下 TTS 技術(shù)用例。

虛擬網(wǎng)紅

虛擬網(wǎng)紅正在改變未來(lái)與企業(yè)或名人溝通的方式。虛擬網(wǎng)紅也稱(chēng)為虛擬品牌大使或品牌代言人，它們可以協(xié)助公司推廣產(chǎn)品和服務(wù)，名人也可以通過(guò)它們與粉絲保持全天候的聯(lián)系。

在這些用例中 TTS 技術(shù)生成了自定義聲音，然后被整合到動(dòng)畫(huà)虛擬網(wǎng)紅或數(shù)字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類(lèi)型的文本。這項(xiàng) TTS 功能可用于網(wǎng)站及閱讀類(lèi)應(yīng)用，為喜歡音頻類(lèi)節(jié)目的人帶來(lái)了福音。有視覺(jué)障礙的人也可以使用文字?jǐn)⑹雎?tīng)到他們喜歡的內(nèi)容。

TTS 用于在這些應(yīng)用程序上將文本轉(zhuǎn)換成語(yǔ)音并朗讀出來(lái)。但這項(xiàng)工作并不像表面上那么簡(jiǎn)單。為了提升收聽(tīng)體驗(yàn)，此類(lèi)應(yīng)用的聲音必須抑揚(yáng)頓挫、富有節(jié)奏和表現(xiàn)力。

常見(jiàn)的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性問(wèn)題

對(duì)于生活在現(xiàn)代社會(huì)的人來(lái)說(shuō)，最流行和具有吸引力的媒介莫過(guò)于音頻和視頻內(nèi)容。TTS 技術(shù)可以幫助內(nèi)容創(chuàng)作者為視頻配音或創(chuàng)建播客。

為了獲得更多的受眾，創(chuàng)作者還可以使用 TTS 技術(shù)將博客、新聞文章等文本內(nèi)容轉(zhuǎn)換成音頻。

TTS 的使用十分靈活，用戶(hù)可以在變聲器等應(yīng)用中改變語(yǔ)音的音調(diào)、節(jié)奏和音量，使聲音變得更具表現(xiàn)力。

獨(dú)特的 TTS 應(yīng)用

除了這些日常應(yīng)用外，企業(yè)家們正在探索各種新穎的 TTS 應(yīng)用。下文將介紹開(kāi)發(fā)獨(dú)特語(yǔ)音合成技術(shù)的公司。

用于智慧醫(yī)院的語(yǔ)音通知亭：Artisight

Artisight 是一個(gè)應(yīng)用于醫(yī)院的物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò)，可改善醫(yī)院的運(yùn)營(yíng)、財(cái)務(wù)業(yè)績(jī)和患者體驗(yàn)。該公司幫助美國(guó)許多頂尖醫(yī)院提高運(yùn)營(yíng)效率，同時(shí)通過(guò)任務(wù)自動(dòng)化給患者帶來(lái)更好的體驗(yàn)，比如呼叫患者到掛號(hào)窗口和化驗(yàn)等。

醫(yī)院可以使用 TTS 技術(shù)與患者和訪(fǎng)客分享有關(guān)醫(yī)院服務(wù)、設(shè)施位置和一般健康公告的信息。該技術(shù)也可以使用多種語(yǔ)言幫助可能不會(huì)說(shuō)醫(yī)院當(dāng)?shù)卣Z(yǔ)言的人。

視頻 1. Artisight “診所協(xié)調(diào)員”解決方案演示

上面的視頻演示了醫(yī)院通知亭的文字轉(zhuǎn)語(yǔ)音技術(shù)如何讀出患者排隊(duì)單上的號(hào)碼。

挑戰(zhàn)和解決方案

過(guò)去，醫(yī)院接待人員需要手動(dòng)登記患者信息并在輪到患者就診時(shí)通知他們。這種耗時(shí)的登記流程降低了醫(yī)院的效率和患者的滿(mǎn)意度。

Artisight 開(kāi)發(fā)的語(yǔ)音簽到、通知亭等智慧醫(yī)院解決方案可提升患者的體驗(yàn)。

Artisight 和 NVIDIA Riva 賦能的通知亭實(shí)現(xiàn)了有效、快速的患者登記流程，將等待時(shí)間縮短了一半并避免了數(shù)據(jù)輸入錯(cuò)誤，最終提高了員工的工作效率和患者的滿(mǎn)意度。

為數(shù)字虛擬形象提供類(lèi)似人類(lèi)聲音：NVIDIA

TTS 技術(shù)使計(jì)算機(jī)能夠?qū)?shū)面文字轉(zhuǎn)換成語(yǔ)音，進(jìn)而讓數(shù)字人能夠“開(kāi)口說(shuō)話(huà)”并以更加自然、有代入感的方式與用戶(hù)交流。

為了取得用戶(hù)的信任，數(shù)字人所說(shuō)的話(huà)必須高度準(zhǔn)確，尤其是當(dāng)它們被用于教育、娛樂(lè)或其他互動(dòng)用途時(shí)。使用 TTS 技術(shù)生成自然、類(lèi)似人類(lèi)的語(yǔ)音可以幫助數(shù)字人吸引用戶(hù)的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine（ACE）演示所示，AI 虛擬形象Toy Jensen 能夠理解黃仁勛的問(wèn)題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創(chuàng)建。

視頻 2. 用于構(gòu)建實(shí)時(shí)、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺(tái)

挑戰(zhàn)和解決方案

開(kāi)發(fā)用于數(shù)字人的 TTS 可能有一定的難度，尤其是在創(chuàng)造自然、真實(shí)的語(yǔ)音方面，并且難度取決于地區(qū)和語(yǔ)言。這是因?yàn)槭褂脗鹘y(tǒng)和統(tǒng)計(jì)算法創(chuàng)建的 TTS 系統(tǒng)可能導(dǎo)致語(yǔ)音聽(tīng)起來(lái)像是機(jī)器人或機(jī)械發(fā)出的，而用戶(hù)對(duì)此可能不會(huì)“買(mǎi)賬”。

此外，由于 TTS 系統(tǒng)受數(shù)據(jù)集、所使用的模型和模塊類(lèi)型等諸多因素影響，因此要為數(shù)字人應(yīng)用創(chuàng)建靈活的自適應(yīng)語(yǔ)音具有一定的難度。這使開(kāi)發(fā)者難以生成具有細(xì)微差別和富有表現(xiàn)力的語(yǔ)音。

最后，數(shù)字人需要在不犧牲質(zhì)量的情況下實(shí)時(shí)生成大量語(yǔ)音，因此創(chuàng)建高效、可擴(kuò)展的 TTS 系統(tǒng)至關(guān)重要。

NVIDIA 為數(shù)字人和虛擬形象生成了自定義語(yǔ)音，比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開(kāi)發(fā)只需短短幾毫秒就能實(shí)時(shí)運(yùn)行且精準(zhǔn)的 TTS 流程，滿(mǎn)足實(shí)現(xiàn)自然語(yǔ)音的必要條件，還可以靈活調(diào)整音調(diào)、持續(xù)時(shí)間和音量等，使生成的聲音更具表現(xiàn)力。

開(kāi)始使用語(yǔ)音合成

用戶(hù)現(xiàn)在就可以開(kāi)始將 TTS 功能集成到應(yīng)用中，例如閱讀內(nèi)容或生成數(shù)字網(wǎng)紅獨(dú)特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶(hù)開(kāi)發(fā)出提供高準(zhǔn)確度并進(jìn)行高性能推理的應(yīng)用。

點(diǎn)擊“閱讀原文”試用 NVIDIA Riva TTS。

掃描下方海報(bào)二維碼，觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放，主題演講中文字幕版已上線(xiàn)，了解 AI、圖形及其他領(lǐng)域的最新進(jìn)展！

原文標(biāo)題：了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3796

瀏覽量
91316

原文標(biāo)題：了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

HarmonyOS NEXT 應(yīng)用開(kāi)發(fā)練習(xí)：AI智能語(yǔ)音播報(bào)

（Text-To-Speech，文本轉(zhuǎn)語(yǔ)音）技術(shù)將文本轉(zhuǎn)換為語(yǔ)音進(jìn)行播報(bào)。當(dāng)然除了基本的文本輸入和播報(bào)功能外，我們還增加了

發(fā)表于 01-06 15:33

ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

ASR（Automatic Speech Recognition）語(yǔ)音識(shí)別技術(shù)，是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破，能將人類(lèi)語(yǔ)音轉(zhuǎn)換為文本，廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。以下是對(duì)ASR

發(fā)表于 11-18 15:12 ?816次閱讀

助盲環(huán)境感知裝置設(shè)計(jì)方案

今天為大家?guī)?lái)的是來(lái)自創(chuàng)作者X同學(xué)的作品：助盲環(huán)境感知裝置. 這個(gè)裝置主要利用Grove Vision AI V2-Camera module識(shí)別環(huán)境中的物體，并利用XIAO ESP32S3和樹(shù)莓派進(jìn)行語(yǔ)音輸出，結(jié)合了物體檢測(cè)和文本轉(zhuǎn)語(yǔ)

發(fā)表于 11-05 11:42 ?249次閱讀

TMS320C6000 MCBSP轉(zhuǎn)語(yǔ)音帶音頻處理器(VBAP)接口

電子發(fā)燒友網(wǎng)站提供《TMS320C6000 MCBSP轉(zhuǎn)語(yǔ)音帶音頻處理器(VBAP)接口.pdf》資料免費(fèi)下載

發(fā)表于 10-26 10:17 ?0次下載

WT2605C TTS在線(xiàn)語(yǔ)音合成芯片：賦能多行業(yè)領(lǐng)域，引領(lǐng)產(chǎn)品智能化

在當(dāng)今科技日新月異的時(shí)代，語(yǔ)音技術(shù)正逐步滲透到我們生活的方方面面，而TTS（Text-To-Speech，文本到語(yǔ)音）技術(shù)作為其中的重要一環(huán)，更是以其獨(dú)特的魅力改變了人機(jī)交互的方式。W

發(fā)表于 09-12 15:54 ?341次閱讀

收款機(jī)TTS語(yǔ)音芯片新方案：WT3000T8，雙語(yǔ)合成流暢，字庫(kù)解碼多樣！

一：方案背景概述隨著科技的飛速發(fā)展，人工智能和語(yǔ)音識(shí)別技術(shù)在各個(gè)領(lǐng)域都得到了廣泛應(yīng)用。其中，文本轉(zhuǎn)語(yǔ)音（TTS）技術(shù)以其獨(dú)特的優(yōu)勢(shì)，在收款機(jī)語(yǔ)音

發(fā)表于 07-27 08:38 ?675次閱讀

【算能RADXA微服務(wù)器試用體驗(yàn)】+ GPT語(yǔ)音與視覺(jué)交互：4，文字轉(zhuǎn)語(yǔ)音

文字轉(zhuǎn)語(yǔ)音使用的技術(shù)簡(jiǎn)稱(chēng)為T(mén)TS。一般情況下我用的都是在線(xiàn)的EDGE-TTS服務(wù)。但非常幸運(yùn)的是，BM1684X上居然有適配好的本地運(yùn)行TTS，那自然是要體驗(yàn)一番。先轉(zhuǎn)到project文件夾

發(fā)表于 07-15 23:18

Jacob：從ElevenLabs解決的行業(yè)問(wèn)題來(lái)看，AI創(chuàng)業(yè)的思路與互聯(lián)網(wǎng)時(shí)代并不相同

人聲是最原始、最個(gè)性的表達(dá)方式之一，為了提高效率，很多時(shí)候我們會(huì)使用合成語(yǔ)音來(lái)代替人聲，涉及到的商業(yè)場(chǎng)景有很多，例如虛擬智能助理、客戶(hù)呼叫中心、有聲讀物和媒體內(nèi)容創(chuàng)作。文本轉(zhuǎn)語(yǔ)音（TTS）是合成

發(fā)表于 07-10 08:05 ?232次閱讀

收款機(jī)TTS語(yǔ)音芯片新方案：WT3000T8，雙語(yǔ)合成流暢，字庫(kù)解碼多樣！

不同播報(bào)要求下語(yǔ)音占用大量資源空間的問(wèn)題。可以實(shí)現(xiàn)低成本低功耗的文本轉(zhuǎn)語(yǔ)音，支持中英文兩種功能，實(shí)現(xiàn)播報(bào)語(yǔ)音自由配置無(wú)需通過(guò)升級(jí)方式替換語(yǔ)音

發(fā)表于 06-26 11:17 ?683次閱讀

訊飛星火長(zhǎng)文本功能全新升級(jí)

科大訊飛近日宣布，其首個(gè)長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型已完成全新升級(jí)。這一大模型不僅具備強(qiáng)大的學(xué)習(xí)能力，可以快速吸收海量文本、圖文資料以及會(huì)議錄音等多元化信息，更能在各行業(yè)場(chǎng)景中提供精準(zhǔn)、專(zhuān)業(yè)的回答。

發(fā)表于 05-06 11:22 ?566次閱讀

科大訊飛創(chuàng)新推出長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型，解決落地難題

近期，科大訊飛推出了首個(gè)支持長(zhǎng)文本、長(zhǎng)圖及語(yǔ)音大數(shù)據(jù)處理的大模型，該系統(tǒng)融合了多元化數(shù)據(jù)源，包括海量文字、圖片以及會(huì)議音頻等，能為各行業(yè)場(chǎng)景提供專(zhuān)業(yè)化、精準(zhǔn)化的答案。

發(fā)表于 04-28 09:32 ?383次閱讀

WT3000T8-TTS語(yǔ)音合成芯片及應(yīng)用場(chǎng)景介紹

TTS語(yǔ)音合成芯片是一種能夠?qū)?b class='flag-5'>文本信息轉(zhuǎn)化為自然語(yǔ)音的專(zhuān)用芯片。它通過(guò)內(nèi)置的語(yǔ)音合成算法和音頻處理單元，實(shí)現(xiàn)了文本到

發(fā)表于 04-18 18:03 ?910次閱讀

玩轉(zhuǎn)語(yǔ)音合成芯片（TTS芯片），看這一篇就夠了

什么是語(yǔ)音合成芯片：語(yǔ)音合成芯片也稱(chēng)為T(mén)TS芯片，即文字轉(zhuǎn)語(yǔ)音芯片，是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語(yǔ)音輸出的芯片。通過(guò)TTS芯片，我們可以將文字信息轉(zhuǎn)化為自然

發(fā)表于 03-19 18:13 ?1448次閱讀

快速全面了解大模型長(zhǎng)文本能力

那關(guān)于LLM的長(zhǎng)文本能力，目前業(yè)界通常都是怎么做的？有哪些技術(shù)點(diǎn)或者方向？今天我們就來(lái)總結(jié)一波，供大家快速全面了解。

發(fā)表于 02-22 14:04 ?877次閱讀

亞馬遜發(fā)布史上最大文本轉(zhuǎn)語(yǔ)音模型BASE TTS

亞馬遜的人工智能研究團(tuán)隊(duì)近日宣布，他們成功開(kāi)發(fā)出了迄今為止規(guī)模最大的文本轉(zhuǎn)語(yǔ)音模型——BASE TTS。這款新模型擁有高達(dá)9.8億個(gè)參數(shù)，不僅在規(guī)模上超越了之前的所有版本，還在能力上實(shí)現(xiàn)了質(zhì)的飛躍。

發(fā)表于 02-20 17:04 ?874次閱讀