隨著 4G、5G通信技術(shù)發(fā)展,網(wǎng)絡(luò)通話(huà)越來(lái)越盛行。但是網(wǎng)絡(luò)不穩(wěn)定是常態(tài),所以通話(huà)中我們時(shí)不時(shí)可能會(huì)蹦出一句,“你能再重復(fù)一遍嗎,剛剛網(wǎng)絡(luò)不太好。”為了提高通話(huà)質(zhì)量,谷歌近期在視頻聊天應(yīng)用 Duo 中應(yīng)用了一種新技術(shù) WaveNetEQ ,在出現(xiàn)音頻丟包情況時(shí),該技術(shù)會(huì)判斷丟失的音頻數(shù)據(jù)可能是什么,并替換掉它。
背后的技術(shù)支持來(lái)自谷歌聲名在外的 DeepMind 團(tuán)隊(duì)。
一個(gè)完整的在線呼叫,數(shù)據(jù)經(jīng)常會(huì)被分成多個(gè)小塊,每小塊就是一個(gè)數(shù)據(jù)包 packet 。然而,在這些“數(shù)據(jù)包”從發(fā)送方傳輸?shù)浇邮辗降倪^(guò)程中,數(shù)據(jù)包通常會(huì)以錯(cuò)誤的順序到達(dá),從而產(chǎn)生抖動(dòng)相關(guān)問(wèn)題,或者直接丟失,造成音頻空白。
谷歌給出一份資料顯示, Duo 99% 的通話(huà)都有數(shù)據(jù)包丟失、過(guò)度抖動(dòng)或網(wǎng)絡(luò)延遲情況。20% 的通話(huà)丟失了超過(guò) 3% 的音頻,10% 的通話(huà)丟包率超過(guò) 8% ,也就是說(shuō)每次通話(huà)都有很多音頻需要替換。
每個(gè)視音頻 app 都會(huì)用某種方式處理丟包。谷歌表示,這些數(shù)據(jù)包丟失隱藏 (PLC) 過(guò)程可能很難更好地填補(bǔ) 60 毫秒或更長(zhǎng)時(shí)間的空白。過(guò)去常用算法是 NetEQ ,這是 webRTC 中音頻技術(shù)方面的兩大核心技術(shù)之一(另一核心技術(shù)是音頻的前后處理,包括AEC、ANS、AGC等)。webRTC 是谷歌收購(gòu) GIPS 再開(kāi)源的,是目前影響力極大的實(shí)時(shí)音視頻通信解決方案,但用它處理丟包,大多情況下聽(tīng)起來(lái)像機(jī)器人或機(jī)械重復(fù)。
谷歌就用了大量的語(yǔ)音數(shù)據(jù),訓(xùn)練出了基于 DeepMind WaveRNN 技術(shù)的 WaveNetEQ 模型。訓(xùn)練數(shù)據(jù)集來(lái)自 100 多名、48 種不同語(yǔ)言的志愿者,也就是說(shuō)它可以自動(dòng)填補(bǔ) 48 種語(yǔ)言的丟包情況。
WaveNetEQ 是一種用于語(yǔ)音合成的遞歸神經(jīng)網(wǎng)絡(luò)模型,由兩部分組成,即自回歸網(wǎng)絡(luò)(autoregressive network)和條件網(wǎng)絡(luò)(conditioning network)。自回歸網(wǎng)絡(luò)的作用是保持信號(hào)的平穩(wěn)流動(dòng),而條件網(wǎng)絡(luò)控制和影響自回歸網(wǎng)絡(luò)以保持音頻一致性。
谷歌用 WaveNetEQ 取代了原來(lái)的 NetEQ PLC 組件,相對(duì)于 NetEQ ,它在聲音質(zhì)感方面無(wú)疑有提升,而且 WaveNetEQ 模型跑得足夠快,可以在手機(jī)上運(yùn)行,如此也可以規(guī)避用戶(hù)可能擔(dān)心的數(shù)據(jù)隱私問(wèn)題。谷歌稱(chēng)所有的處理都是在設(shè)備上進(jìn)行,因?yàn)?Duo 的通話(huà)默認(rèn)情況下就是端到端加密。一旦通話(huà)的真實(shí)音頻恢復(fù),將無(wú)縫地切換到現(xiàn)實(shí)對(duì)話(huà)。
不過(guò),WaveNetEQ 替換的內(nèi)容和時(shí)長(zhǎng)有限制。目前是支持在 120 毫秒以?xún)?nèi)的空白,之后會(huì)逐漸消失并歸零;WaveNetEQ 不是生成完整的單詞,而是簡(jiǎn)單的音節(jié)。
目前 WaveNetEQ 已經(jīng)應(yīng)用到 Pixel 4 手機(jī)上的 Duo APP 中,谷歌表示,它正在將其推廣到其他安卓手機(jī)上。
當(dāng)然用機(jī)器學(xué)習(xí)處理音頻丟包并不是頭一遭,許多公司都在研究相關(guān)技術(shù),以國(guó)內(nèi)公司為例,有些是自身業(yè)務(wù)本就涉及視音頻,比如騰訊;有些是音視頻云服務(wù)商,比如阿里,還有一些是專(zhuān)門(mén)的音視頻第三方服務(wù)商如聲網(wǎng)等。
責(zé)任編輯:wv
-
谷歌
+關(guān)注
關(guān)注
27文章
6164瀏覽量
105323 -
通話(huà)
+關(guān)注
關(guān)注
0文章
27瀏覽量
9541 -
DeepMind
+關(guān)注
關(guān)注
0文章
130瀏覽量
10852
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論