一枚硬幣大小的石墨烯片,貼在頸部靠近喉嚨處,就能幫助發音障礙者獲得新“聲”。近日,清華大學集成電路學院任天令教授及合作團隊在智能語音交互方面取得重要進展,其研發的可穿戴人工喉可以感知喉部發聲相關信號,并通過人工智能模型將其識別和合成為語音,還原準確率超過90%。
這一研究結果為語音識別與交互系統提供了一條新的技術途徑,并于近日在線發表在《自然》人工智能子刊《自然·機器智能》上。
語音是人類交流的重要方式,但說話人的健康狀態(例如神經疾病、癌癥、外傷等原因導致的聲音障礙)和周圍環境(噪音干擾、傳播介質)往往會影響聲音的傳輸和識別。一直以來,研究人員在致力改進語音識別和交互技術以應對微弱的聲源或嘈雜的環境。多通道聲學傳感器可以顯著提高聲音識別的精度,但會導致更大的設備體積,而可穿戴設備能夠獲取高質量的原始語音或其他生理信號。然而,目前尚無充分的證據表明喉部肌肉的運動模式和反映在體表的發聲器官振動中隱含著可識別的語音特征,且尚無實驗證明其作為語音識別技術的完備性。
為解決這一問題,任天令團隊成員開發了一款基于石墨烯的智能可穿戴人工喉,同商業麥克風和壓電薄膜相比,人工喉對低頻的肌肉運動、中頻食管振動和高頻聲波信息有很高的靈敏度,同時也具有抗噪聲的語音感知能力。對聲學信號和機械運動的混合模態的感知使人工喉能夠獲得更低的語音基頻信號。此外,該器件還可以通過熱聲效應實現聲音的播放功能。人工喉的制作過程簡單、性能穩定、易于集成,為語音識別和交互提供了一種新的硬件平臺。
圖1 可穿戴的第二代智能石墨烯人工喉系統:該人工喉集收聲和發聲于一體,可直接貼附于失語者喉部,并將喉部的不同動作轉化為對應聲音,有望幫助失語者正常與他人“交談”。
團隊還利用人工智能模型對人工喉感知的信號進行語音識別和合成,實現了對基本語音元素(音素、聲調和詞語)的高精度識別,以及對喉癌患者模糊語音的識別與再現,為聲音障礙者的溝通和交互提供了一種創新的解決方案。
實驗結果表明,人工喉采集的混合模態語音信號可以識別基本語音元素(音素、音調和單詞),平均準確率為99.05%。同時人工喉的抗噪聲性能明顯優于麥克風,在60分貝以上環境噪聲下仍能保持識別能力。任天令研究團隊進一步演示了它的語音交互式應用:通過集成AI模型,人工喉能夠識別一名喉切除術患者模糊說出的日常詞語,準確率超過90%。識別出的內容被合成為語音在人工喉上播放,可以初步恢復患者的語音交流能力。
任天令介紹,該人工喉還有很大的優化和拓展空間,例如提高聲音的質量和音量,增加語音的多樣性和表情,以及結合其他生理信號和環境信息實現更自然和智能的語音交互。研究團隊希望通過進一步的研究和合作,讓人工喉造福更多的聲音障礙者和語音交互的用戶。在未來,該人工喉將與聲紋識別、機器學習等技術結合,在語音識別、家庭醫療等領域具有廣闊前景。
審核編輯 :李倩
-
人工智能
+關注
關注
1791文章
47184瀏覽量
238266 -
石墨烯
+關注
關注
54文章
1549瀏覽量
79557 -
智能語音
+關注
關注
10文章
782瀏覽量
48758
原文標題:清華大學研發出可穿戴人工喉:還原準確率超90%
文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論