音頻編碼的分類
根據(jù)編碼方式的不同,音頻編碼技術(shù)分為三種:波形編碼、參數(shù)編碼和混合編碼。一般來說,波形編碼的話音質(zhì)量高,但編碼速率也很高;參數(shù)編碼的編碼速率很低,產(chǎn)生的合成語音的音質(zhì)不高;混合編碼使用參數(shù)編碼技術(shù)和波形編碼技術(shù),編碼速率和音質(zhì)介于它們之間。
1、波形編碼
波形編碼是指不利用生成音頻信號的任何參數(shù),直接將時間域信號變換為數(shù)字代碼,使重構(gòu)的語音波形盡可能地與原始語音信號的波形形狀保持一致。波形編碼的基本原理是在時間軸上對模擬語音信號按一定的速率抽樣,然后將幅度樣本分層量化,并用代碼表示。
波形編碼方法簡單、易于實現(xiàn)、適應能力強并且語音質(zhì)量好。不過因為壓縮方法簡單也帶來了一些問題:壓縮比相對較低,需要較高的編碼速率。一般來說,波形編碼的復雜程度比較低,編碼速率較高、通常在16 kbit/s以上,質(zhì)量相當高。但編碼速率低于16 kbit/s時,音質(zhì)會急劇下降。
最簡單的波形編碼方法是PCM(Pulse Code Modulation,脈沖編碼調(diào)制),它只對語音信號進行采樣和量化處理。優(yōu)點是編碼方法簡單,延遲時間短,音質(zhì)高,重構(gòu)的語音信號與原始語音信號幾乎沒有差別。不足之處是編碼速率比較高(64 kbit/s),對傳輸通道的錯誤比較敏感。
2、參數(shù)編碼
參數(shù)編碼是從語音波形信號中提取生成語音的參數(shù),使用這些參數(shù)通過語音生成模型重構(gòu)出語音,使重構(gòu)的語音信號盡可能地保持原始語音信號的語意。也就是說,參數(shù)編碼是把語音信號產(chǎn)生的數(shù)字模型作為基礎(chǔ),然后求出數(shù)字模型的模型參數(shù),再按照這些參數(shù)還原數(shù)字模型,進而合成語音。
參數(shù)編碼的編碼速率較低,可以達到2.4 kbit/s,產(chǎn)生的語音信號是通過建立的數(shù)字模型還原出來的,因此重構(gòu)的語音信號波形與原始語音信號的波形可能會存在較大的區(qū)別、失真會比較大。而且因為受到語音生成模型的限制,增加數(shù)據(jù)速率也無法提高合成語音的質(zhì)量。不過,雖然參數(shù)編碼的音質(zhì)比較低,但是保密性很好,一直被應用在軍事上。典型的參數(shù)編碼方法為LPC(Linear Predictive Coding,線性預測編碼)。
3、混合編碼
混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼。這種編碼方法克服了波形編碼和參數(shù)編碼的弱點,并結(jié)合了波形編碼高質(zhì)量和參數(shù)編碼的低編碼速率,能夠取得比較好的效果。
-
音頻編碼
+關(guān)注
關(guān)注
0文章
35瀏覽量
12863
發(fā)布評論請先 登錄
相關(guān)推薦
評論