語音識別技術方便于長輩們融入海量數據的互聯網時代,成為長輩們與外界交流的一大利器。不過,千萬不要認為在未來人工智能時代中的語音識別僅僅是單純運用到手機聊天中的識別錄入文字。語音識別技術隨著深度學習及高性能計算的不斷發展,正逐漸從實驗室邁向工業領域。
語音識別簡史
1952年,美國AT&T貝爾實驗室開發出了第一個基于電子計算機的語音識別系統Audrey,其可以識別10個英文數字,準確率為98%;進入60年代,語音識別領域的兩大突破是線性預測編碼,以及動態時間規整技術;
在60年代后期,隱馬爾可夫模型被Leonard E. Baum等人提出,HMM的提出是語音識別歷史上的一個重大突破,使當時語音識別的錯誤率大大降低;李開復等人則在1988年第一次實現了基于HMM的大詞匯量語音識別系統Sphinx。
另一方面,早在上世紀80年代,人工神經網絡已經被引入語音識別。起初人工神經網絡的結構多為簡單的多層感知機,但受限于當時的計算能力以及語音數據的稀少,人工神經網絡并沒有在識別率上帶來很大的提升。
近年來,隨著計算能力的提升和語音數據的增加,神經網絡被廣泛應用于語音識別任務中。深度神經網絡技術的出現,也進一步提高了大規模連續語音識別的性能,目前已經成為學術界和工業界研究的熱點內容之一。
語音識別的技術支持
目前,在語音識別領域廣泛采用的神經網絡有時延神經網絡、深度神經網絡、卷積神經網絡、遞歸神經網絡以及基于長短期記憶的RNN等。
通常將這些深度神經網絡模型與HMM模型結合構建完整的聲學模型,并結合語言模型等提升語音識別性能。
在語言模型方面,雖然傳統的N元模型一直是主流技術,但基于神經網絡的語言模型從2012年開始被較為廣泛的研究,如RNN-LM、LSTM-LM等。
鑒于基于神經網絡的語言模型的計算量較大,一般先利用N元模型初始化,然后再用基于神經網絡的語言模型重打分,即神經網絡語言模型并不直接用于解碼,而是在基線系統解碼結果的基礎上進行得分重估。
同時,RNN-CTC的出現使得語音識別擺脫了傳統方法中聲學模型、語言模型、解碼器等模塊化的束縛,通過采用對輸入輸出序列直接建模的方法,只需訓練一個神經網絡模型即可進行識別,因此被稱為端到端語音識別。
端到端的模型可以解決傳統方法中各個模型訓練目標不一致的問題。另外,由于實際中可獲取的文本數據比語音數據多得多,所以往往還會用文本數據訓練一個更好的語言模型,與CTC神經網絡結合使用。
深度神經網絡用于人工智能應用的問題在于其實時率等性能指標還需有待提高,但是端到端語音識別開辟了人工智能的一個新方向,而且訓練的過程相對簡單,因此人工智能方向上的端到端識別將會是未來的技術趨勢之一。此外人工智能再進一步改進網絡結構、改進訓練方法,逐步使人工智能性能達到工業水平和要求,進入商用階段指日可待。
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100912 -
語音識別
+關注
關注
38文章
1742瀏覽量
112727 -
人工智能
+關注
關注
1792文章
47444瀏覽量
239030
發布評論請先 登錄
相關推薦
評論