在人工智能概念火熱的當下,人機交互的發展方向也正趨于多元化,從最初的鍵盤打字到觸控屏,再到現在的語音交互和手勢交互,無一不是前沿技術落地的結果。
12月14日消息,搜狗今天正式推出全新的人機交互新技術——唇語識別,這也是業內首個公開演示的唇語識別系統,通過機器視覺識別,不用聽聲音,僅靠識別說話人唇部動作,就能解讀說話者所說的內容。
與已有的語音識別產品不同,唇語識別是一項基于機器視覺與自然語言處理于一體的技術,因此在研發難度上比語音識別大得多。
搜狗語音交互中心技術總監陳偉告訴記者,搜狗的唇語識別技術首創了復雜端到端深度神經網絡技術進行中文唇語序列建模,通過數千小時的真實唇語數據訓練,加上搜狗在自然語言處理方面的強大優勢,最終取得了業界領先的唇語識別效果。
按照搜狗方面提供的數據顯示,在非特定人開放口語測試集上,搜狗唇語識別系統已經達到60%以上的準確率,超過google發布的英文唇語系統50%以上的準確率,在垂直場景如車載、智能家居等場景下甚至已經達到90%的準確率。
在這里要著重說明的是,中文唇語識別的難度要高于英文唇語識別。
陳偉解釋到,中文有四個聲調,英文的基本發音單元在50個左右,而如果中文的聲韻母切開來看,建模數量會超過200個。
在剛結束不久的烏鎮世界互聯網大會上,搜狗唇語識別技術亮相,在業內大多數唇語識別技術實用性尚待考證的環境下,成功完成了業內首個中文唇語識別系統的公開演示。
國內大部分企業都扎堆聚集在智能語音、圖像識別等領域,陳偉表示,搜狗開發唇語識別技術是希望解決嘈雜環境下的語音識別準確度問題。
目前有兩種方式可以解決這個問題:一是硬件層面的語音增強,對噪音進行屏蔽;二是增加多模態信息,比如唇語識別的圖像信息。
作為人機交互的形式之一,未來唇語識別技術可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。
比如在車載場景下,周圍噪音過大時會對語音指令產生干擾,通過唇語識別技術則可以規避干擾,保證人車交互的準確性和穩定性,日常不便發聲的公共場所也可以保證說話內容的私密性;在安防領域,由于目前多數監控只有攝像頭沒有麥克風,往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題,而唇語識別技術可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。
除此之外,唇語識別技術還能發揮巨大的公益價值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達自己。
搜狗近年來一直在集中資源做自然語言的研究,目前在語音識別、語義理解、機器翻譯等方面均取得了比較領先的成果并實現產品落地,此次推出唇語識別技術,將推動整個AI行業的技術革新。
-
搜狗
+關注
關注
0文章
90瀏覽量
13939
原文標題:GGAI 技術前沿 | 搜狗推出“唇語識別”技術:不出聲也能“聽”懂你
文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論