阿里又出黑科技。新的唇語閱讀 AI 系統在識別準確率表現上不僅超越基線標準,也優于專家級人類水平,有望為全球近 5 億聽障人士帶來福音。
阿里巴巴又出黑科技,AI 看唇語知內容!
實際上,能夠從視頻中讀取嘴唇的 AI 和機器學習算法并沒有什么不同。早在 2016 年,來自 Google 和牛津大學的研究人員就詳細介紹了一種系統,該系統可以 46.8% 的準確度注釋視頻錄像,這個表現明顯優于專業唇語識別人士 12.4% 準確度。但是,即使是最先進的系統,也難以克服唇語識別時的歧義問題,這使唇語 AI 的性能一直難以超越音頻語音識別。
為了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工學院的研究人員聯合設計了一種方法,稱為 LIBS,該方法利用從語音識別器中提取的特征作為唇語識別時的補充信息。研究人員表示,LIBS 系統在兩個基準測試中都達到了業界領先的準確度,在識別字符錯誤率方面,LIBS 分別較基線性能高出 7.66% 和 2.75%。
LIBS 和其他類似的解決方案一樣,都可以幫助聽障人士觀看缺少字幕的視頻。據估計,全世界有 4.66 億人患有失能性聽力障礙,約占世界人口的5%。根據世界衛生組織的數據,到 2050 年,這一數字可能會超過 9 億。
LIBS 會從說話人的視頻中以多種不同尺度提取有用的音頻信息,包括序列級、上下文級和幀級。然后,系統會識別這些信息之間的對應關系,將數據與視頻數據進行對齊(由于開頭或結尾有時會出現采樣率不一致、視頻和音頻序列的長度不一致等情況),并利用過濾技術來優化蒸餾功能。
LIBS 系統架構示意圖
LIBS 的語音識別器和口語閱讀器組件均基于注意力的 seq2seq 體系結構,這是一種機器翻譯方法,可將序列的輸入(即音頻或視頻)映射到帶有標簽的輸出和注意力值上。研究人員對上述內容在 LRS2 和 CMLR 數據集上進行了訓練,LRS2 包含來自 BBC 的 45000 多個口語句子,CMLR 則是最大的中文普通話口語語料庫,包括了來自中國網絡電視臺網站的 10 萬余個自然句(包括 3000 多個漢字和 20000 多個短語)。
不過,研究團隊也表示,由于某些句子長度太短,該模型難以在 LRS2 數據集上實現“合理的”結果。(解碼器從少于 14 個字符的句子中提取相關信息時會遇到困難。)但是,一旦對最大長度為 16 個單詞的句子進行了預訓練,解碼器將可以通過對上下文級別的知識進行設置,提高 LRS2 數據中句子結尾部分的質量。
研究人員在描述其工作的論文中寫道:“ LIBS 減少了對無關框架的關注。” “幀級知識提煉進一步提高了視頻幀特征的可分辨性,使注意力更加集中。”
-
AI
+關注
關注
87文章
30762瀏覽量
268905 -
語音識別
+關注
關注
38文章
1739瀏覽量
112635 -
阿里
+關注
關注
6文章
438瀏覽量
32828
發布評論請先 登錄
相關推薦
評論