跟大家分享一篇非常有意思也很有用的文章,是WACV 2021的錄用論文Visual Speech Enhancement Without A Real Visual Stream。該文研究涉及計算機視覺與語音處理的交叉。
論文信息:
作者來自:印度 IIIT Hyderabad 和英國巴斯大學。
語音增強是語音處理的經典研究內容,以往的語音增強往往只將語音作為輸入信號,這在現實世界的嘈雜環境中往往效果不佳。
近年來一種視覺輔助的語音增強技術取得了突破,通過跟蹤視頻中人物口型,可以較好的輔助過濾環境噪聲。但其需要人物正臉在視頻中,使用場景較為狹窄,畢竟大多數場景下,沒有人物正臉,甚至沒有視覺信息輔助。
該文學者指出,實際上根據語音進行唇語合成已經是一個較為成熟的技術,在現有框架下,可以直接使用語音信號本身合成人物口型的視頻,進而輔助語音增強。
以下視頻展示了最終語音增強的效果:
該文在多個數據集上取得了SOTA的結果,并且該技術可以用于任何語言的語音增強,但由于其中含有視覺生成部分,估計相比傳統算法時間開銷較大。作者已經開源了代碼,感興趣的朋友可以試一下。
原文標題:無中生有!沒有視覺信號的視覺語音增強
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
計算機
+關注
關注
19文章
7518瀏覽量
88192 -
機器視覺
+關注
關注
162文章
4388瀏覽量
120434
原文標題:無中生有!沒有視覺信號的視覺語音增強
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論