谷歌在其開源博客中宣布開源 Android 語音識別轉錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。
Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應用程序,它的語音識別由谷歌最先進的 Cloud Speech API 提供。但是,依賴于云引入了一些復雜性,不斷變化的網絡連接、數據成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來, 希望開發人員在已有的基礎上進一步構建和開發。
Cloud Speech API 目前無法支持無限的音頻流,團隊目前采取了一些措施來解決這一難題,例如在達到超時之前關閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。
無限流媒體音頻帶來了一大挑戰。在許多國家,網絡數據非常昂貴,并且在互聯網較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,并最終在不影響精度的情況下將數據使用量減少了 10 倍。
另外,由于是提供實時語音轉錄,轉錄出來的文本會隨著語音的輸入不斷發生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義 Opus 編碼器。
此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據語音自動識別語種,其中也包括中文。
-
解碼器
+關注
關注
9文章
1143瀏覽量
40770 -
谷歌
+關注
關注
27文章
6171瀏覽量
105473 -
語音識別
+關注
關注
38文章
1742瀏覽量
112691
原文標題:【業內熱點】谷歌開源實時語音轉錄引擎 Live Transcribe Speech Engine
文章出處:【微信號:ChinaAET,微信公眾號:電子技術應用ChinaAET】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論