一、引言
近年來,隨著我國通信網絡基礎設施的快速建設,視訊業務由于可以為處于多點的與會者提供音視頻等多種信息,節省大量費用,提高工作效率,因而發展迅速,并有望成為NGN的主要業務。隨著HDTV的興起,H.264這個規范頻頻出現在我們眼前,HD-DVD和藍光均計劃采用這一標準進行節目制作。而且自2005年下半年以來,無論是NVIDIA還是ATI都把支持H.264硬件解碼加速作為自己最值得夸耀的視頻技術。H.264到底是何方“神圣”呢?
H.264是一種高性能的視頻編解碼技術。目前國際上制定視頻編解碼技術的組織有兩個,一個是“國際電聯(ITU-T)”,它制定的標準有H.261、H.263、H.263+等,另一個是“國際標準化組織(ISO)”它制定的標準有MPEG-1、MPEG-2、MPEG-4等。而H.264則是由兩個組織聯合組建的聯合視頻組(JVT)共同制定的新數字視頻編碼標準,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高級視頻編碼(Advanced Video Coding,AVC),而且它將成為MPEG-4標準的第10部分。因此,不論是MPEG-4 AVC、MPEG-4 Part 10,還是ISO/IEC 14496-10,都是指H.264。
H.323系統對視頻編解碼標準提出了以下三個主要要求:
(1)一些IP網絡接入方式如xDSL可提供的帶寬有限,除去音頻、數據占用的帶寬,傳輸視頻的可用帶寬就更少,這就要求視頻編解碼壓縮率高,這樣就可以在一定的比特率下具有更好的圖像質量。
(2)抗丟包性能和抗誤碼性能好,適應各種網絡環境,包括丟包和誤碼嚴重的無線網絡。
(3)網絡適應性好,便于視頻流在網絡中傳輸。
二、H.264適于H.323系統的三個技術優勢
H.264在制定時充分考慮了多媒體通信對視頻編解碼的各種要求,并借鑒了以往視頻標準的研究成果,因而具有明顯的優勢。以下將結合H.323系統對視頻編解碼技術的要求,闡述H.264的三個優勢。
1. 壓縮率和圖像質量方面
壓縮率(Compression ratio),描述壓縮文件的效果名詞,是文件壓縮后的大小與壓縮前的大小之比。比如你把100m的文件壓縮后是90m,壓縮率就是90/100*100%=90%,壓縮率一般是越小越好,但是壓得越小,時間越長。
對傳統的幀內預測、幀間預測、變換編碼和熵編碼等算法的改進,使H.264的編碼效率和圖像質量在以往標準的基礎上進一步提高。
(1)可變塊大小:幀間預測時可以靈活選擇塊的大小。在宏塊(MB)劃分上H.264采用了16×16,16×8,8×16,8×8四種模式;當劃分為8×8模式時,又可進一步采用8×4、4×8、4×4三種子宏塊劃分模式進一步劃分,這樣可以使運動物體的劃分更加精確,減小預測誤差,提高編碼效率。
(2)高精度運動估值:在H.264中亮度信號運動補償預測的精度是1/4像素。如果運動矢量指向參考圖像的整像素位置,預測值就是該位置上參考圖像像素的值;否則使用6階FIR濾波器的線性內插獲得1/2像素位置的預測值,通過取整數和1/2像素位置像素值均值的方式獲得1/4像素位置的值。顯然采用高精度運動估計會進一步減小幀間預測誤差。
(3)多參考幀運動估值:每一個M×N亮度塊都要經過運動補償預測得到運動矢量和參考圖像索引,子宏塊中的每個子宏塊劃分都會有不同的運動矢量。選擇參考圖像過程是在子宏塊層次上進行的,因而一個子宏塊中的多個子宏塊劃分在預測時使用相同的參考圖像,而同一個slice的多個子宏塊之間選擇的參考圖像可以不同,這就是多參考幀運動估值。
(4)參考圖像的選取更加靈活:參考圖像甚至可以是采用雙向預測編碼方式的圖像,這就允許選取與當前圖像更加匹配的圖像為參考圖像進行預測,從而可以減小預測誤差。
(5)加權預測:允許編碼器以一定的系數對運動補償預測值進行加權,從而在一定的場景下可以提高圖像質量。
(6)運動補償循環內的消除塊效應濾波器:為消除在預測和變換過程中引入的塊效應,H.264也采用了消除塊效應濾波器,但不同的是H.264的消除塊效應濾波器位于運動估計循環內部,因而可以利用消除塊效應以后的圖像去預測其他圖像的運動,從而進一步提高預測精度。
2. 抗丟包和抗誤碼方面
參數集、片的使用、FMO、冗余片等關鍵技術的使用可以大大提高系統的抗丟包和抗誤碼性能。
(1)參數集:參數集及其靈活的傳送方式會大大降低因關鍵的頭信息丟失而造成錯誤發生的可能。為保證參數集可靠地到達解碼器端,可以采用重發的方式多次發送同一參數集,或傳送多個參數集。
(2)片(slice)的使用:圖像可以劃分成一個或幾個片。將圖像劃分為多個片,當某一片不能正常解碼時的空間視覺影響就會大大降低,而且片還提供了重同步點。
(3)PAFF和MBAFF:當對隔行掃描圖像進行編碼時,由于兩個場之間存在較大的掃描間隔,這樣,對運動圖像來說幀中相鄰兩行的空間相關性相對于逐行掃描時就會減小,這時對兩個場分別進行編碼會更節省碼流。前兩種稱為PAFF編碼,對運動區域進行編碼時場方式有效,非運動區域由于相鄰兩行有較大的相關性,因而幀方式會更有效。當圖像同時存在運動區域和非運動區域時,在MB層次上,對運動區域采取場方式,對非運動區域采取幀方式會更加有效,這種方式就稱為MBAFF。
(4)FMO:通過FMO可以進一步提高片的差錯恢復能力。通過片組(slice group)的使用,FMO改變了圖像劃分為片和宏塊的方式。宏塊到片組的映射定義了宏塊屬于哪一個片組。利用FMO技術,H.264定義了七種宏塊掃描模式。
(1)幀內預測:H.264借鑒了以往視頻編解碼標準在幀內預測上的經驗,值得注意的是,在H.264中,IDR圖像可以使參考圖像緩存無效,之后的圖像在解碼時不再參考IDR圖像之前的圖像,因而IDR圖像具有很好的重同步作用。在一些丟包和誤碼嚴重的信道中,可以采取不定期傳送IDR圖像的方式進一步提高H.264的抗誤碼和抗丟包性能。
(2)冗余圖像:為提高H.264的解碼器在發生數據丟失時的頑健性,可以采用傳送冗余圖像的方式。當基本圖像丟失時,可以通過冗余圖像重構原圖像。
(3)數據劃分:由于運動矢量和宏塊類型等信息相對于其他信息具有更高的重要性,因而在H.264中引入了數據劃分的概念,將片中語義彼此相關的語法元素放在同一個劃分中。在H.264中有三類不同的數據劃分,三類數據劃分分開傳送,若第二類或第三類劃分的信息丟失,使用差錯恢復工具仍然可以通過第一類劃分中的信息對丟失信息進行適當恢復。
(4)多參考幀運動估值:多參考幀運動估值不但可以提高編碼器的編碼效率,還可以提高差錯恢復能力。在H.323系統中,通過使用RTCP,當編碼器得知有參考圖像丟失時,可以選擇解碼器已經正確接收的圖像作為參考圖像。
(5)為阻止錯誤在空間上的蔓延,解碼器端可以指定當P片或B片中的宏塊在做幀內預測時不使用相鄰的非幀內編碼宏塊作為參考。
3. 網絡適應性方面
為適應各種網絡環境和應用場合,H.264定義了視頻編碼層(VCL)和網絡提取層(NAL)。其中VCL功能是進行視頻編解碼,包括運動補償預測,變換編碼和熵編碼等功能;NAL用于采用適當的格式對VCL視頻數據進行封裝打包。
(1)NAL Units:視頻數據封裝在整數字節的NALU中,它的第一個字節標志該單元中數據的類型。基于包交換的網絡(如H.323系統)可以使用RTP封裝格式封裝NALU。而另外一些系統可能要求將NALU作為順序比特流傳送,為此H.264定義了一種比特流格式的傳輸機制,使用start_code_prefix將NALU封裝起來,從而確定NAL邊界。
(2)參數集:以往視頻編解碼標準中GOBGOP圖像等頭信息是至關重要的,包含這些信息的包的丟失常導致與這些信息相關的圖像不能解碼。為此H.264將這些很少變化并且對大量VCL NALU起作用的信息放在參數集中傳送。參數集分為兩種,即序列參數集和圖像參數集。為適應多種網絡環境,參數集可以帶內傳送,也可以采用帶外方式傳送。
三、在H.323系統中實現H.264
H.323是ITU多媒體通信系列標準H.32x的一部份,該系列標準使得在現有通信網絡上進行視頻會議成為可能,其中,H.320是在N-ISDN上進行多媒體通信的標準:H.321是在B-ISDN上進行多媒體通信的標準:H.322是在有服務質量保證的LAN上進行多媒體通信的標準:H.324是在GSTN和無線網絡上進行多媒體通信的標準。H.323為現有的分組網絡PBN(如IP網絡)提供多媒體通信標準。若和其它的IP技術如IETF的資源預留協議RSVP相結合,就可以實現IP網絡的多媒體通信。基于IP的LAN正變得越來越強大,如IP over SDH/SONET、IP over ATM技術正在快速發展以及LAN 寬帶正在不斷的提高。由于能提供設備與設備、應用與應用、供應商與供應商之間的互操作能力,因此,H.323能夠保證所有H.323兼容設備的互操作性。更高速率的處理器、日益增強的圖形器件和強大的多媒體加速芯片使提PC成為一個越來越強大的多媒體平臺。
由于H.264是一種新的視頻編解碼標準,在H.323體系中應用H.264存在一些問題,比如如何在H.245能力協商過程中定義實體的H.264能力,因此必須對H.323標準進行必要的補充和修改。為此,ITU-T制定了H.241標準。本文僅介紹與H.323相關的修改。
首先,要規定如何在H.245能力協商過程中定義H.264能力。H.264能力集是一個包含一個或多個H.264能力的列表,每一個H.264能力都包含Profile和Level兩個必選參數和CustomMaxMBPS、CustomMaxFS等幾個可選參數。在H.264中,Profile用于定義生成比特流的編碼工具和算法,Level則是對一些關鍵的參數要求。Collapsing字段第一個條目是Profile,ParameterIdentifier類型為standard,值為41,用于標識Profile,ParameterValue類型為booleanArray,其值標識Profile,可以為64、32或16,這三個值依次表示Baseline、Main和Extended三個Profile;Collapsing字段第二個條目是Level,ParameterIdentifier類型為standard,值為42,用于標識Level,ParameterValue類型為unsignedMin,其值標識H.264 AnnexA中定義的15個可選的Level值。其他的幾個參數作為可選項出現。
H.323可提供PBN與別的網絡之間進行多媒體通信的互連互通標準。許多計算機、網絡通信公司,如Intel、Microsoft和Netscape都支持H.323標準。H.323標準包括在無QoS保證的分組網絡中進行多媒體通信所需的技術要求。這些分組網絡包括LAN、WAN、Internet/因特網以及使用PPP等分組協議通過GSTN或ISDN的撥號連接或點對點連接
四、結束語
作為一種新的國際標準,H.264在編碼效率、圖像質量、網絡適應性和抗誤碼方面都取得了成功。但隨著終端和網絡的快速發展,對視頻編解碼的要求在不斷提高,因此H.264仍在繼續地完善和發展以適應新的要求。現在對H.264的研究主要集中在如何進一步降低編解碼時延、算法優化和進一步提高圖像質量上。
-
視頻
+關注
關注
6文章
1949瀏覽量
72969 -
帶寬
+關注
關注
3文章
939瀏覽量
40964 -
通信網絡
+關注
關注
21文章
2042瀏覽量
52079
發布評論請先 登錄
相關推薦
評論