基于Q-learning的碼率控制算法
近年來,各界對多媒體內(nèi)容傳輸特別是視頻流服務(wù)越來越重視。在盡力交付的互聯(lián)網(wǎng)上支持可靠視頻流傳輸,基于HTTP的自適應(yīng)流(HAS,HTTP adaptive streaming)已經(jīng)成為視頻業(yè)務(wù)技術(shù)的發(fā)展趨勢。
HAS采用碼流切換技術(shù)動態(tài)調(diào)整碼率,整個過程由自適應(yīng)算法負(fù)責(zé)??捎脦捁浪愫痛a率選擇是客戶端碼率自適應(yīng)算法的2個核心功能。根據(jù)媒體片段的TCP平均下載吞吐量估算網(wǎng)絡(luò)帶寬。碼率決策從視頻碼率集中選擇低于估算網(wǎng)絡(luò)可用帶寬的最大碼率等級。這種碼率選擇方法易造成視頻碼率的頻繁切換,給觀看者帶來不舒適的體驗,且設(shè)定硬編碼的碼率選擇策略靈活性偏低,無法應(yīng)對變化多樣的網(wǎng)絡(luò)配置和網(wǎng)絡(luò)帶寬。
將自適應(yīng)視頻流的傳輸建模成優(yōu)化控制問題可以提升碼率決策的靈活性。增強學(xué)習(xí)通過早期離線訓(xùn)練,學(xué)習(xí)最優(yōu)的控制策略,然后將策略應(yīng)用在實時自適應(yīng)控制中,能夠提升客戶端碼率決策機制的靈活性和自適應(yīng)性。
本文設(shè)計基于Q一1eaming的碼率決策,設(shè)計合適數(shù)量的環(huán)境狀態(tài)組成元素,根據(jù)可用帶寬和實時緩存數(shù)據(jù)填充量進行環(huán)境狀態(tài)建模;從HTTP視頻流服務(wù)質(zhì)量的角度考慮,選擇與用戶體驗質(zhì)量(OoE)相關(guān)的3個方面:視頻質(zhì)量等級高低、視頻播放期間切換帶來的損失及緩存區(qū)數(shù)據(jù)溢出危險性來構(gòu)建新的回報函數(shù)。實驗結(jié)果表明,在HAS自適應(yīng)算法的碼率決策部分引入本文提出的Q—le鋤ing算法,增強了碼率決策的靈活性,視頻碼率切換的穩(wěn)定性優(yōu)于未結(jié)合機器學(xué)習(xí)方法的算法。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%