“聽(tīng)眾朋友們,你們好。從今兒個(gè),由我為大家播講懸疑小說(shuō),《江湖消亡史:北平暗夜》。這個(gè)故事發(fā)生在民國(guó)十幾年的北京城里……”情感充沛的評(píng)書(shū)腔調(diào),蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛(ài)評(píng)書(shū)的朋友一聽(tīng)恍若隔世,已故的單老評(píng)書(shū)怎么突然回來(lái)了?
三年前,無(wú)數(shù)人感慨世上再無(wú)“下回分解”,網(wǎng)友們的呼喚被聽(tīng)見(jiàn)了,為致敬單老,也為給遍布大江南北的書(shū)迷朋友們一個(gè)驚喜,喜馬拉雅運(yùn)用AI技術(shù)讓“書(shū)接上回”重現(xiàn)江湖。
耳熟能詳單老的“下回分解”故事重新回歸,這段記憶中的聲音背后,是來(lái)自于喜馬拉雅的語(yǔ)音合成(TTS: Text-to-speech)技術(shù),即將文字轉(zhuǎn)化為聲音,喜馬拉雅的技術(shù)團(tuán)隊(duì)還將單田芳先生的AI合成音應(yīng)用于六部風(fēng)格各異的書(shū)籍,用單式評(píng)書(shū)腔調(diào),全新演繹聽(tīng)眾耳熟能詳?shù)慕?jīng)典之作。
語(yǔ)音AI讓單老聲音重?zé)ㄐ律?/p>
不熟悉評(píng)書(shū)的朋友們可能不知道單老的魅力。在北方的出租車(chē)上,遇到司機(jī)在播放單老的評(píng)書(shū)概率還是蠻高的,而在喜馬拉雅的評(píng)書(shū)類(lèi)目中,單老的專(zhuān)輯評(píng)書(shū)節(jié)目長(zhǎng)期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個(gè)說(shuō)法:“凡有井水處,皆聽(tīng)單田芳?!毕矏?ài)他的書(shū)迷遍布大江南北,故事中的魅力經(jīng)過(guò)單老情感充沛的演繹極富有味道。
打開(kāi)喜馬拉雅,在《單田芳聲音 AI 重現(xiàn)系列》專(zhuān)輯中,既有直擊淚點(diǎn)、奇人異事道盡人生悲歡的武俠小說(shuō)——趙晨光的《江湖消亡史:北平暗夜》,也有傳達(dá)時(shí)代脈動(dòng)的紀(jì)實(shí)文學(xué)——陳廷一的《毛氏三兄弟:三兄弟與共和國(guó)奠基》,還有時(shí)下流行、故事情節(jié)曲折奇特的推理小說(shuō)——紫金陳的《無(wú)證之罪》,更有延續(xù)單老生前未完成的評(píng)書(shū)經(jīng)典——宮白羽的《十二金錢(qián)鏢》……
這些經(jīng)典之作讓評(píng)書(shū)愛(ài)好者像過(guò)年一般。大家想念單式評(píng)書(shū)中的故事與人生,人物的百轉(zhuǎn)千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來(lái)就等于完美,讓人立馬沉浸在故事的世界中。很多書(shū)評(píng)愛(ài)好者都留言表示:怎么沒(méi)有早點(diǎn)用AI技術(shù)啊,讓人癡癡等了好幾年。幸運(yùn)的是,有人在為傳統(tǒng)藝術(shù)默默出力,完美復(fù)現(xiàn)單老聲音的背后,是來(lái)自于喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室團(tuán)隊(duì)的AI技術(shù)。
據(jù)喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室盧恒博士的介紹,喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室運(yùn)用TTS 技術(shù),融入團(tuán)隊(duì)自主設(shè)計(jì)的韻律提取模塊以及專(zhuān)門(mén)的口音模塊,才得以實(shí)現(xiàn)原汁原味的單老獨(dú)特聲線。
TTS技術(shù)早已在喜馬拉雅電子書(shū)、新聞等領(lǐng)域?qū)崿F(xiàn)了廣泛的應(yīng)用,能夠高效地將新聞、書(shū)籍和文章中的大量文字信息轉(zhuǎn)為音頻,大幅提升了音頻的生產(chǎn)效率。但是主流的TTS 框架模型是對(duì)音頻內(nèi)容直接進(jìn)行提取和合成,最終成型的內(nèi)容效果整體上來(lái)說(shuō)人的那部分情感和情緒都顯得很寡淡。而在評(píng)書(shū)這個(gè)場(chǎng)景中,韻律的起伏非常大,正是因?yàn)轫嵚傻淖兓攀沟迷u(píng)書(shū)引人入勝,平淡的情緒和腔調(diào)帶來(lái)的后果就非常致命了,而這也是TTS技術(shù)中的難點(diǎn)。
喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室自主設(shè)計(jì)的韻律提取模塊,無(wú)論單田芳先生評(píng)書(shū)中的韻律多么豐富和多變,都能提取并完全復(fù)刻出來(lái),這才讓單老的AI合成音仿佛本尊再現(xiàn)。
另外,評(píng)書(shū)中有很多特殊口音,比如口語(yǔ)化的評(píng)書(shū)中,“這個(gè)”中的“這”字,普通話發(fā)音“zhè”,但在評(píng)書(shū)中通常讀為“zhèi”,跟普通話的發(fā)音有很大的區(qū)別。為此,喜馬拉雅團(tuán)隊(duì)專(zhuān)門(mén)做了特殊重音和停頓的標(biāo)注,才使單老AI合成音能夠還原出老味道。
除了高度還原單老的聲音外,在新的專(zhuān)輯中,也加入了高級(jí)音效設(shè)計(jì)師的配樂(lè)與音效,讓聽(tīng)眾通過(guò)耳朵就能獲得身臨其境的沉浸式體驗(yàn),評(píng)書(shū)中的世界立馬變得立體和生動(dòng)起來(lái)。
通過(guò)這些彎彎折折,單式評(píng)書(shū)才得以重見(jiàn)天日。
天生相互吸引:內(nèi)容與AI語(yǔ)音技術(shù)的邂逅
我們聽(tīng)到的原汁原味的單老“聲音”,其完美復(fù)現(xiàn)并非偶然,而這也只是喜馬拉雅TTS技術(shù)的冰山一角。喜馬拉雅已在智能語(yǔ)音技術(shù)上深耕多年,尤其是在TTS領(lǐng)域方面潛心鉆研多年。
目前TTS在業(yè)界的發(fā)展十分迅速,國(guó)內(nèi)布局TTS賽道的有一線大廠,比如阿里擁有的語(yǔ)音合成技術(shù)KAN-TTS,騰訊云在語(yǔ)音合成方面也有技術(shù)研發(fā)。國(guó)外像DeepMind創(chuàng)建的語(yǔ)音合成器WaveNet,讓語(yǔ)音合成的音質(zhì)有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型—“WaveNet”,并在一年多的時(shí)間內(nèi)將原始模型的效率提高了1000倍,而在一組美式英語(yǔ)的人類(lèi)聽(tīng)眾測(cè)試中,WaveNet的得分超過(guò)了真實(shí)人類(lèi)語(yǔ)音。
喜馬拉雅語(yǔ)音技術(shù)團(tuán)隊(duì)也已經(jīng)研發(fā)出自己的聲碼器“PhaseGAN”,這種基于生成對(duì)抗網(wǎng)絡(luò)的聲碼器甚至有著比WaveNet 更高的生產(chǎn)效率。
喜馬拉雅TTS技術(shù)的核心,就在于如何讓機(jī)器的聲音聽(tīng)上去韻律自然、情感充沛。說(shuō)白了,就是如何在機(jī)器聲音中注入人性。拿有聲小說(shuō)這個(gè)場(chǎng)景來(lái)說(shuō),用TTS音色演繹有聲小說(shuō)需要學(xué)習(xí)小說(shuō)中的抑揚(yáng)頓挫、情感表達(dá)、上下文關(guān)系,區(qū)分旁白和對(duì)白等,將作品像真人一般呈現(xiàn)出來(lái)很困難。
而喜馬拉雅的TTS模型系統(tǒng)有著獨(dú)特的基因優(yōu)勢(shì):
1.內(nèi)容數(shù)據(jù)豐富,區(qū)別于一線廠商的數(shù)據(jù)來(lái)源,喜馬拉雅在音頻賽道多年耕耘,已積累海量的內(nèi)容,包含大量的有聲書(shū)內(nèi)容與眾多的主播,基于這些龐大的語(yǔ)音素材庫(kù),喜馬拉雅有強(qiáng)勁的模型迭代語(yǔ)料和更大的發(fā)揮空間。
2.數(shù)據(jù)是模型迭代的燃料基礎(chǔ),在此之上,喜馬拉雅也有厚重的研發(fā)實(shí)力。在語(yǔ)音合成、語(yǔ)音識(shí)別、智能音效、語(yǔ)音編解碼、語(yǔ)音信號(hào)處理和虛擬主播等技術(shù)上,喜馬拉雅都進(jìn)行了深度研發(fā),自研的TTS前端文本處理分析模塊,可高精度、全自動(dòng)地對(duì)文本進(jìn)行多音字識(shí)別、韻律預(yù)測(cè)和風(fēng)格分類(lèi),可以演繹不同情緒文字,還能自動(dòng)區(qū)分旁白、對(duì)白,并支持英文,豐富了TTS能表達(dá)的情感和韻律。
3.專(zhuān)利效能,現(xiàn)下喜馬拉雅已申請(qǐng)了三項(xiàng)TTS語(yǔ)音合成相關(guān)專(zhuān)利,一是在沒(méi)有任何英文原始數(shù)據(jù)的TTS聲音就能夠?qū)崿F(xiàn)說(shuō)英文的技術(shù)框架,讓不會(huì)說(shuō)英文的人也能流利地講英文。另外,喜馬拉雅還采用并行解碼器,生成語(yǔ)音合成序列,改進(jìn)了語(yǔ)音合成后端模型的結(jié)構(gòu)和效率。
我們可以發(fā)現(xiàn)TTS技術(shù)的獨(dú)特優(yōu)勢(shì)可以豐富內(nèi)容的生產(chǎn)迭代,不僅將提高內(nèi)容生產(chǎn)效率,也讓更多不同內(nèi)容的生產(chǎn)成為可能。在喜馬拉雅當(dāng)下主要的PGC、UGC、PUGC三大內(nèi)容生產(chǎn)模式之外,AI語(yǔ)音技術(shù)的更新迭代讓第四種新內(nèi)容生產(chǎn)模式——AIGC成為可能,并展現(xiàn)出更大的想象空間。
喜馬拉雅的內(nèi)容生態(tài)經(jīng)過(guò)多年的積累、更新,內(nèi)容精良并且IP豐富。豐富的IP與技術(shù)的結(jié)合將可能碰撞出更加多元的火花,讓聽(tīng)眾聽(tīng)到以往所難以甚至不可能聽(tīng)到的內(nèi)容。把腦洞開(kāi)得大一些,在AI語(yǔ)音的賦能下,未來(lái)我們是否可能聽(tīng)到各種內(nèi)容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風(fēng)暴》,甚至,張藝興版的評(píng)書(shū),易烊千璽版的童話故事等內(nèi)容。這些逼真自然的聲音和不同內(nèi)容相結(jié)合,在各類(lèi)題材和頻道中出現(xiàn),將會(huì)給聽(tīng)眾帶來(lái)很多驚喜。只有你想不到,沒(méi)有AI做不到。
技術(shù)與內(nèi)容的雙向賦能如同兩個(gè)嚙合完美的齒輪一般,驅(qū)動(dòng)著喜馬拉雅內(nèi)容和產(chǎn)品的更新迭代。從數(shù)據(jù)上來(lái)看,用戶用腳投票,喜馬拉雅的月活跑在了行業(yè)前列。據(jù)喜馬拉雅招股書(shū)內(nèi)容顯示,截至上半年,移動(dòng)端總收聽(tīng)時(shí)長(zhǎng)和在線音頻總收入來(lái)看,喜馬拉雅是中國(guó)最大在線音頻平臺(tái),平均MAU達(dá)2.62億,其中包括1.1億移動(dòng)端用戶和1.51億的物聯(lián)網(wǎng)及其他開(kāi)放平臺(tái)的用戶。移動(dòng)端用戶共花費(fèi)8478億分鐘收聽(tīng)喜馬拉雅音頻內(nèi)容,占中國(guó)在線音頻總收聽(tīng)時(shí)長(zhǎng)的70.9%。
在雙飛輪驅(qū)動(dòng)的模式下,喜馬拉雅內(nèi)容和技術(shù)都在向前向深飛馳,給我們用戶帶來(lái)了更加豐富的內(nèi)容與體驗(yàn)。剖析音頻行業(yè)這個(gè)并不為大眾熟知的賽道,可以透視到是什么決定了機(jī)器如何說(shuō)話,決定了用戶耳朵的體驗(yàn)與舒適度,也可以看到頭部的企業(yè)帶來(lái)了哪些經(jīng)驗(yàn),如何撬開(kāi)智能語(yǔ)音的富礦。
“聲”寫(xiě)未來(lái)
給大家一個(gè)數(shù)據(jù)感受下音頻市場(chǎng)的增長(zhǎng)勢(shì)態(tài)。據(jù)悉,2020年中國(guó)在線音頻用戶數(shù)量已經(jīng)有6.4億人,其中超六成用戶表示曾經(jīng)購(gòu)買(mǎi)過(guò)在線音頻服務(wù),預(yù)計(jì)2022年將達(dá)到6.9億人。沒(méi)想到吧,大家的付費(fèi)意愿竟然這么強(qiáng)勢(shì)。平時(shí)勤儉節(jié)約的大家,在豐富精神世界方面,卻舍得愿意為大腦和心靈投資。
在音頻市場(chǎng)的快速增長(zhǎng)下,圍繞“耳朵經(jīng)濟(jì)”的競(jìng)爭(zhēng)日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺(tái)之外,騰訊、字節(jié)跳動(dòng)等互聯(lián)網(wǎng)巨頭以及中央廣播電視總臺(tái)這樣的“國(guó)家隊(duì)”也紛紛進(jìn)入這一賽道。各大平臺(tái)內(nèi)容類(lèi)型的豐裕程度與是否具有差異化的優(yōu)質(zhì)內(nèi)容是吸引用戶以及撬動(dòng)用戶付費(fèi)的關(guān)鍵。
可以預(yù)見(jiàn)的是,在語(yǔ)音技術(shù)加成下,TTS技術(shù)制作的高效高質(zhì)音頻內(nèi)容會(huì)進(jìn)一步賦能優(yōu)質(zhì)內(nèi)容的生產(chǎn),喜馬拉雅的內(nèi)容生態(tài)“PGC、UGC、PUGC”也將因?yàn)樾鲁蓡TAIGC的加入,在內(nèi)容創(chuàng)造方面,帶給用戶更多的聽(tīng)覺(jué)盛宴。
喜馬拉雅的AI技術(shù)與內(nèi)容互相磁吸,螺旋纏繞不斷向前向深發(fā)展, AI技術(shù)為喜馬拉雅的內(nèi)容生態(tài)加碼,而內(nèi)容反哺技術(shù)不斷精進(jìn)。技術(shù)與內(nèi)容的全面融合也撬開(kāi)了未來(lái)的智能語(yǔ)音合成市場(chǎng)富礦:
1.對(duì)傳統(tǒng)文化的傳承,豐富和傳承評(píng)書(shū)這類(lèi)非物質(zhì)文化遺產(chǎn),影響越來(lái)越多的傳統(tǒng)文化愛(ài)好者和青年演員去參與其中,創(chuàng)造更豐富的文化遺產(chǎn)。
2.對(duì)平臺(tái)的創(chuàng)作者來(lái)說(shuō),提升效率和內(nèi)容的質(zhì)量,讓創(chuàng)作者不再陷入音頻制作的重復(fù)性工作中,在多種內(nèi)容的制作方面TTS都可以賦能創(chuàng)作者的轉(zhuǎn)型升級(jí)。
3.AI技術(shù)及大數(shù)據(jù)分析能力讓內(nèi)容創(chuàng)作、分發(fā)和運(yùn)營(yíng)更加精準(zhǔn)化,隨著音頻內(nèi)容逐漸規(guī)模化,以及技術(shù)的迭代更新,AI對(duì)于內(nèi)容的全生命流程參與程度也越來(lái)越高,從而讓音頻內(nèi)容呈現(xiàn)更豐富更智能化的趨勢(shì)。
移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音里面,我們療愈自己,經(jīng)歷他人的跌宕生活,感受故事中的喜怒哀樂(lè)和人生百態(tài)。無(wú)論是內(nèi)容的量與質(zhì),還是技術(shù)的深度研發(fā),喜馬拉雅牽引著行業(yè)不斷進(jìn)步,激發(fā)更多的廠商去深耕音頻行業(yè),迭代創(chuàng)新能力。而這也意味著,我們這些喜愛(ài)有聲讀物的用戶會(huì)擁有更豐富的眼界與精神世界。
聲音不僅僅只是一個(gè)簡(jiǎn)單的溝通工具,里面包含了豐富的知識(shí)智慧、故事情感,它讓流淌的時(shí)間更有意義,讓我們的精神生活更加豐盛。而技術(shù)正不斷豐富著聲音的世界,為我們的耳朵帶給我們?cè)絹?lái)越多元、豐富的體驗(yàn)。
fqj
-
音頻
+關(guān)注
關(guān)注
29文章
2899瀏覽量
81805 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1289瀏覽量
24411
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論