語音是人類最自然的交互方式。計算機發明之后,讓機器能夠“聽懂”人類的語言,理解語言中的內在含義,并能做出正確的回答就成為了人們追求的目標。這個過程中主要涉及3種技術,即自動語音識別;自然語言處理(目的是讓機器能理解人的意圖)和語音合成(目的是讓機器能說話)
與機器進行語音交流,讓它聽明白你在說什么。語音識別技術將人類這一曾經的夢想變成了現實。語音識別技術就是“機器的聽覺系統”,該技術讓機器通過識別和理解,把語音信號轉變為相應的文本或命令。
現代智能語音識別技術的起源及發展
在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數字發音的實驗系統。1960年英國的Denes等人研制了第一個計算機語音識別系統。
大規模的語音識別研究始于上世紀70年代以后,并在小詞匯量、孤立詞的識別方面取得了實質性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。
同時,語音識別在研究思路上也發生了重大變化,由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型的技術思路。此外,業內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。
上世紀90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。比如,DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統的研究開發工作。進入上世紀90年代,DARPA計劃仍在持續進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。
我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發展的階段。直至1973年,中國科學院聲學所開始了計算機語音識別。
進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數字信號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之后重又成為研究的熱點。在這種形式下,國內許多單位紛紛投入到這項研究工作中去。
1986年,語音識別作為智能計算機系統研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。自此,我國語音識別技術進入了一個新的發展階段。
自2009年以來,借助機器學習領域深度學習研究的發展以及大數據語料的積累,語音識別技術得到突飛猛進的發展。
將機器學習領域深度學習研究引入到語音識別聲學模型訓練,使用帶RBM預訓練的多層神經網絡,提高了聲學模型的準確率。在此方面,微軟公司的研究人員率先取得了突破性進展,他們使用深層神經網絡模型(DNN)后,語音識別錯誤率降低了30%,是近20年來語音識別技術方面最快的進步。
2009年前后,大多主流的語音識別解碼器已經采用基于有限狀態機(WFST)的解碼網絡,該解碼網絡可以把語言模型、詞典和聲學共享音字集統一集成為一個大的解碼網絡,提高了解碼的速度,為語音識別的實時應用提供了基礎。
隨著互聯網的快速發展,以及手機等移動終端的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規模語言模型和聲學模型成為可能。
在語音識別中,訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規模語料資源的積累將提到戰略高度。
現如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。
語音識別技術的主要方法
目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。
動態時間規整算法(Dynamic Time Warping,DTW)是在非特定人語音識別中一種簡單有效的方法,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出現較早、較常用的一種算法。在應用DTW算法進行語音識別時,就是將已經預處理和分幀過的語音測試信號和參考語音模板進行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。
隱馬爾可夫模型(HMM)是語音信號處理中的一種統計模型,是由Markov鏈演變來的,所以它是基于參數模型的統計識別方法。由于其模式庫是通過反復訓練形成的與訓練輸出信號吻合概率最大的最佳模型參數而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。
矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數的標量數據組成一個矢量在多維空間進行整體量化。把矢量空間分成若干個小區域,每個小區域尋找一個代表矢量,量化時落入小區域的矢量就用這個代表矢量代替。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量實現最大可能的平均信噪比。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態模式分類問題,并不涉及時間序列的處理。盡管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由于ANN不能很好地描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含馬爾可夫模型的識別算法研究取得了顯著進展,其識別率已經接近隱含馬爾可夫模型的識別系統,進一步提高了語音識別的魯棒性和準確率。
支持向量機(Support vector machine)是應用統計學理論的一種新的學習機模型,采用結構風險最小化原理(Structural Risk Minimization,SRM),有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優越的性能,已經被廣泛地應用到模式識別領域。
語音識別技術模型在中深度神經網絡的應用
深度學習是指利用多層的非線性信號和信息處理技術,通過有監督或者無監督的方法,進行信號轉換、特征提取以及模式分類等任務的機器學習類方法的總稱。因為采用深層結構模型對信號和信息進行處理,所以這里稱為“深度”學習。傳統的機器學習模型很多屬于淺層結構模型,例如支持向量機、GMM、HMM、條件隨機場、線性或者非線性動態系統、單隱層的神經網絡等。
原始的輸入信號只經過比較少的層次(通常是一層)的線性或者非線性處理以達到信號與信息處理,是這些結構模型的共同特點。淺層模型的優點在于在數學上有比較完善的算法,并且結構簡單、易于學習。但是淺層模型使用的線性或者非線性變換組合比較少,對于信號中復雜的結構信息并不能有效地學習,對于復雜信號的表達能力有局限性。而深層結構的模型則更適合于處理復雜類型的信號,原因在于深層結構具備多層非線性變換,具有更強的表達與建模能力。
人類語音信號產生和感知就是這樣一個極其復雜的過程,并且在生物學上被證明具有明顯的多層次甚至深層次的處理結構,所以,對于語音識別任務,采用淺層結構模型明顯有很大的局限性。利用深層次結構中的多層非線性變換進行語音信號中的結構化信息和更高層信息的提取,是更加合理的選擇。
DNN在語音識別系統中的應用和局限性
從2011年之后,基于DNN-HMM聲學模型在多種語言、多種任務的語音識別上取得了比傳統 GMM-HMM 聲學模型大幅度且一致性的效果提升。基于DNN-HMM語音識別系統的基本框架如圖所示,采用DNN替換GMM模型來建模語音觀察概率,是其和傳統的 GMM-HMM 語音識別系統最大的不同。前饋型深度神經網絡由于比較簡單,是最初主流的深層神經網絡。
語音識別的特征提取需要首先對波形進行加窗和分幀,然后再提取特征。訓練 GMM 模型的輸入是單幀特征,DNN則一般采用多個相鄰幀拼接在一起作為輸入,這種方法使得語音信號更長的結構信息得以描述,研究表明,特征拼接輸入是DNN相比于GMM可以獲得大幅度性能提升的關鍵因素。由于說話時的協同發音的影響,語音是一種各幀之間相關性很強的復雜時變信號,正要說的字的發音和前后好幾個字都有影響,并且影響的長度隨著說話內容的不同而時變。雖然采用拼接幀的方式可以學到一定程度的上下文信息,但是由于DNN輸入的窗長(即拼接的幀數)是事先固定的,因此DNN的結構只能學習到固定的輸入到輸入的映射關系,導致其對時序信息的更長時相關性的建模靈活性不足。
遞歸神經網絡在聲學模型中的應用
語音信號具有明顯的協同發音現象,因此必須考慮長時相關性。由于循環神經網絡具有更強的長時建模能力,使得 RNN也逐漸替代 DNN成為語音識別主流的建模方案。DNN 和 RNN 的網絡結構如圖所示,RNN在隱層上增加了一個反饋連接,是其和DNN最大的不同。這意味著RNN 的隱層當前時刻的輸入不但包括了來自上一層的輸出,還包括前一時刻的隱層輸出,這種循環反饋連接使得RNN原則上可以看到前面所有時刻的信息,這相當于RNN具備了歷史記憶功能。對于語音這種時序信號來說,使用RNN建模顯得更加適合。
但是,傳統的 RNN 在訓練過程中存在梯度消失的問題,導致該模型難以訓練。為了克服梯度消失問題,有研究人員提出了長短時記憶RNN。LSTM-RNN 使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對更長的時間跨度內穩定地傳播。雙向LSTM-RNN (BLSTM-RNN)對當前幀進行處理時,可以利用歷史的語音信息和未來的語音信息,從而容易進行更加準確的決策,因此也能取得比單向LSTM更好的性能提升。
盡管雙向LSTM-RNN的性能更好,但它并不適合實時系統,由于要利用較長時刻的未來信息,會使得該系統具有很大時延,主要用于一些離線語音識別任務。基于此,研究人員提出了延遲受控 BLSTM和行卷積 BLSTM 等模型結構,這些模型試圖構建單向LSTM和BLSTM之間的折中:即前向LSTM保持不變,針對用來看未來信息的反向LSTM做了優化。在LC-BLSTM結構中,標準的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代,而在行卷積模型中被集成了N幀前瞻量的行卷積替代。
基于FSMN的語音識別系統
目前國際上已經有不少學術或工業機構在進行 RNN 架構下的研究。目前效果最好的基于BLSTM-RNN 的語音識別系統存在時延過大的問題,這對于實時的語音交互系統(如語音輸入法),并不合適。盡管可以通過 LC-BLSTM 和行卷積BLSTM將BLSTM做到實時語音交互系統,由于RNN具有比DNN更加復雜的結構,海量數據下的RNN模型訓練需要耗費大量的時間。最后,由于RNN對上下文相關性的擬合較強,相對于DNN更容易陷入過擬合的問題,容易因為訓練數據的局部問題而帶來額外的異常識別錯誤。
為了解決以上問題,科大訊飛結合傳統的DNN框架和RNN的特點,研發出了一種名為前饋型序列記憶網絡的新框架,具體如圖所示。FSMN的結構采用非循環的前饋結構,只需要180 ms的時延,就達到了和BLSTM-RNN相當的效果。
FSMN 的結構示意如圖所示,其主要是基于傳統DNN結構的改進,在DNN的隱層旁增加了一個“記憶模塊”,這個記憶模塊用來存儲對判斷當前語音幀有用的語音信號的歷史信息和未來信息。上圖畫出了記憶模塊左右各記憶N 幀語音信息的時序展開結構。需記憶的歷史和未來信息長度N可根據實際任務的需要來調整。FSMN 記憶塊的記憶功能是使用前饋結構實現的,這點有別于傳統的基于循環反饋的 RNN 模型。采用這種前饋結構存儲信息有兩大好處:首先,傳統雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷,雙向FSMN對未來信息進行記憶時只需要等待有限長度的未來語音幀即可,這個優點使得FSMN的時延是可控的。實驗證明,使用雙向FSMN結構,時延控制在180 ms時就能取得和傳統雙向RNN相當的效果;其次,傳統簡單的 RNN 實際并不能記住無窮長的歷史信息,而是只能記住有限長的歷史信息,原因是其訓練過程中存在梯度消失的問題。然而 FSMN的記憶網絡完全基于前饋展開,在模型訓練過程中,梯度則沿著記憶塊與隱層的連接權重往回傳給各個時刻,對判斷當前語音幀的影響的信息通過這些連接權重來決定,而且這種梯度傳播是可訓練的,并且在任何時刻都是常數衰減,以上的實現方式使得FSMN也具有了類似LSTM 的長時記憶能力,這相當于使用了一種更為簡單的方式解決了傳統 RNN 中的梯度消失問題。另外,由于FSMN完全基于前饋神經網絡結構,也使得它的并行度更高,GPU計算能力可利用得更加充分,從而獲得效率更高的模型訓練過程,并且FSMN結構在穩定性方面也表現得更加出色。
基于卷積神經網絡的語音識別系統
卷積神經網絡的核心是卷積運算(或卷積層),是另一種可以有效利用長時上下文語境信息的模型。繼 DNN 在大詞匯量連續語音識別上的成功應用之后,CNN 又在 DNN-HMM 混合模型架構下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性來提升模型的穩定性,因為該混合模型中的 HMM 已經有很強的處理語音識別中可變長度話語問題的能力。早期CNN-HMM模型僅使用了 1~2 個卷積層,然后和全連接 DNN層堆疊在一起。后來,LSTM 等其他 RNN 層也被集成到了該模型中,從而形成了所謂的CNN-LSTM-DNN(CLDNN)架構。
基于CNN-HMM框架的語音識別吸引了大量的研究者,但是始終鮮有重大突破,最基本的原因有兩個:首先是他們仍然采用固定長度的語音幀拼接作為輸入的傳統前饋神經網絡的思路,導致模型不能看到足夠的上下文信息;其次是他們采用的卷積層數很少,一般只有1~2層,把CNN視作一種特征提取器來使用,這樣的卷積網絡結構表達能力十分有限。針對這些問題,科大訊飛在2016年提出了一種全新的語音識別框架,稱為全序列卷積神經網絡(deep fully convolutional neural network,DFCNN)。實驗證明,DFCNN比 BLSTM 語音識別系統這個學術界和工業界最好的系統識別率提升了 15%以上。
如圖所示,DFCNN先對時域的語音信號進行傅里葉變換得到語音的語譜圖,DFCNN直接將一句語音轉化成一張圖像作為輸入,輸出單元則直接與最終的識別結果(比如音節或者漢字)相對應。DFCNN的結構中把時間和頻率作為圖像的兩個維度,通過較多的卷積層和池化(pooling)層的組合,實現對整句語音的建模。DFCNN的原理是把語譜圖看作帶有特定模式的圖像,而有經驗的語音學專家能夠從中看出里面說的內容。
為了理解 DFCNN 的優勢所在,下面從輸入端、模型結構和輸出端 3 個角度更具體地分析。首先,在輸入端,傳統語音識別系統的提取特征方式是在傅里葉變換后用各種類型的人工設計的濾波器,比如Log Mel-Filter Bank,造成在語音信號頻域,尤其是高頻區域的信息損失比較明顯。另外,傳統語音特征采用非常大的幀移來降低運算量,導致時域上的信息會有損失,當說話人語速較快的時候,這個問題表現得更為突出。而DFCNN將語譜圖作為輸入,避免了頻域和時域兩個維度的信息損失,具有天然的優勢。其次,從模型結構上來看,為了增強 CNN 的表達能力, DFCNN 借鑒了在圖像識別中表現最好的網絡配置,與此同時,為了保證 DFCNN 可以表達語音的長時相關性,通過卷積池化層的累積,DFCNN能看到足夠長的歷史和未來信息,有了這兩點,和BLSTM的網絡結構相比,DFCNN在頑健性上表現更加出色。最后,從輸出端來看,DFCNN比較靈活,可以方便地和其他建模方式融合,比如和連接時序分類模型方案結合,以實現整個模型的端到端聲學模型訓練。DFCNN語音識別框架可以方便地和其他多個技術點結合,實驗證明,在數萬小時的中文語音識別任務上,和目前業界最好的語音識別框架 BLSTM-CTC 系統相比, DFCNN系統獲得了額外15%的性能提升。
大規模語音數據下神經網絡聲學模型的訓練
相比于傳統的 GMM-HMM 系統,基于DNN-HMM 語音識別系統取得了巨大的性能提升。但是DNN聲學模型的訓練卻非常耗時。舉個例子,在一個配置為E5-2697 v4的CPU上進行 2 萬小時規模的語音數據的聲學模型訓練,大概需要 116 天左右才能訓練完。造成這種情況的潛在原因是將隨機梯度下降算法作為神經網絡訓練中的基本算法,SGD算法收斂相對較慢,而且是一個串行算法,很難進行并行化訓練。而目前工業界主流的語音識別系統涉及的訓練數據一般為幾千小時甚至幾萬小時級別,因此,提高在大規模語音數據下深度神經網絡的訓練速度和訓練效率,也成為了研究熱點和必須解決的問題。
由于深度神經網絡的模型參數非常稀疏,利用這個特點,將深度神經網絡模型中超過 80%的較小參數都設置為 0,幾乎沒有性能損失,同時模型尺寸大大減少,但是訓練時間并沒有明顯減小,原因是參數稀疏性帶來的高度隨機內存訪問并沒有得到太多的優化。進一步地,在深度神經網絡中,用兩個低秩矩陣的乘積表示權重矩陣,實現了30%~50%的效率提升。
過使用多個CPU或者GPU并行訓練來解決神經網絡訓練效率是另外一種可行的方法。通常方式是:把訓練數據分成許多小塊后并行地送到不同的機器來進行矩陣運算,從而實現并行訓練。優化方案是:在模型的每遍迭代中,先將訓練數據分成N個完全不相交的子集,然后在每個子集中訓練一個sub-MLP,最后把這些sub-MLP進行合并網絡結合。為了進一步提升并行效率,在上千個CPU核的計算集群實現了這種方式,深層網絡的訓練主要是利用異步梯度下降算法。將異步梯度下降算法應用到了多個GPU中。一種管道式的 BP 算法被提了出來,該方法利用不同的GPU單元來計算神經網絡中不同層,實現并行訓練的效果。實驗證明,相對使用單個GPU訓練,該方法通過使用4個GPU實現了3.1倍左右的效率提升。然而,不同計算單元之間極其頻繁的數據傳遞成為該類方法提升訓練效率的主要瓶頸。為此,為了更好地實現神經網絡并行訓練,一種新的基于狀態聚類的多深層神經網絡建模方法被提出,該方法先將訓練數據在狀態層面進行聚類,在狀態層面進行不相交的子集劃分,使得不同計算單元神經網絡之間的數據傳遞規模大幅度減小,從而實現每個神經網絡完全獨立的并行訓練。使用4塊GPU,在聚類數為4類的情況下,在SWB (SwitchBoard)數據集上的實驗表明,這種狀態聚類的多神經網絡方法取得了約4倍的訓練效率提升。
深度學習理論除了在聲學模型建模上獲得了廣泛的應用外,在語音識別系統另外的重要組件——語言模型上也得到了應用。在深度神經網絡普及之前,語音識別系統主要采用傳統的統計語言模型N-gram模型進行建模。N-gram模型也具備明顯的優點,其結構簡單且訓練效率很高,但是 N-gram 的模型參數會隨著階數和詞表的增大而指數級增長,導致無法使用更高的階數,性能容易碰到瓶頸,在訓練語料處于相對稀疏的狀態時,可以借助降權(discounting)和回溯(backing-off)等成熟的平滑算法解決低頻詞或不可見詞的概率估計問題,以獲得比較可靠的模型估計。
在20世紀初,一些淺層前饋神經網絡被用于統計語言模型建模。神經網絡語言模型是一種連續空間語言模型,平滑的詞概率分布函數使得它對于訓練語料中的低頻詞和不可見詞的概率估計更為頑健,具有更好的推廣性,在語音識別任務上也取得了顯著的效果。最近幾年,相關研究人員也將深層神經網絡用于語言模型建模,并取得了進一步的性能提升。
深度學習、大數據和云計算之間的關系
基于深度學習的語音識別技術在21世紀初走向舞臺的中央,并不只是由于深度學習類機器學習算法的進步,而是大數據、云計算和深度學習這3個要素相互促進的結果。
不同于之前 GMM-HMM 語音識別框架表達能力有限、效果對于大規模數據易飽和的情況,深度學習框架所具備的多層非線性變換的深層結構,則具有更強的表達與建模能力,使得語音識別模型對復雜數據的挖掘和學習能力得到了空前的提升,使得更大規模的海量數據的作用得以充分的發揮。大數據就像奶粉一樣,“哺育”了深度學習算法,讓深度學習算法變得越來越強大。
隨著移動互聯網、物聯網技術和產品的普及,更重要的是采用云計算的方式,使得多種類型的海量數據得以在云端匯集。而對大規模的數據的運算的要求則又顯著提升了對于云計算方式的依賴,因此云計算成為了本次深度學習革命的關鍵推手之一。深度學習框架在云端的部署,則顯著增強了云計算的能力。
正是由于深度學習、大數據和云計算三者的相互促進,才成就了語音技術的進步,成就了人工智能的浪潮。
-
語音識別
+關注
關注
38文章
1742瀏覽量
112691 -
人工智能
+關注
關注
1791文章
47350瀏覽量
238734
原文標題:離開語音技術的人工智能都是耍流氓
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論