開發基于自然語言的語音識別系統面臨許多技術挑戰,包括使用精確的語音識別引擎將機器聽到的內容翻譯成文字—以及一個綜合的自然語言處理器,它能判斷所說內容的意思或意圖,然后返回一個有意義的響應或動作。這些課題已經被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠場語音接口系統中經常被忽視但同樣很重要的技術性挑戰:在語音到達語音識別引擎之前的語音預處理。
即使是最現代的語音識別引擎要想運轉良好也有一個基本的要求—輸入到該引擎的必須是語音。雖然對遠場語音接口系統來說這似乎是顯而易見的要求,但它卻是最具挑戰性的要求之一。這里的“遠場”指的是用戶話音距產品麥克風的距離超過半米的系統。舉例來說,靠近用戶臉部的智能手機形成的是一種“近場”用例,但對著一臂之長的PC機或平板電腦講話或隔著房間對電視機、立體聲系統、燈光開關、自動調溫器或智能家庭控制器講話ADC都算作“遠場”用例。
近場和遠場用例之間存在著許多重要的差別,這些差別產生了在近場系統中沒有但在遠場系統中十分艱巨的技術性挑戰。
1.大動態范圍:在遠場系統中,用戶語音可能非常低,因為他/她與產品麥克風有數米距離,但干擾可能非常大,比如在受語音控制的揚聲器系統中有音樂回放的場合。
2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠場系統中的語音噪聲比要比近場系統中的小得多。隨著用戶不斷遠離產品的麥克風,語音電平會越來越小,而背景噪聲電平保持不變。
同樣,從用戶嘴巴到麥克風的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統的語音處理技術和語音識別引擎時這種混響效應會造成很大的問題。
最后,在遠場系統中,用戶語音相對于麥克風的方向以及噪聲相對于麥克風的方向都是未知的。在典型應用場合,噪聲甚至與用戶語音來自相同的方向。
3.全雙工話音交互:在許多遠場系統中,當用戶對著產品講話時,產品的揚聲器中可能正在播放音頻內容,如音樂、電影或話音提示。這時需要使用一個全雙工的回聲消除器,以便在聆聽用戶語音的同時抵消掉產品的回放輸出聲。在回聲消除器并不完全了解回放內容的系統中情況就更加復雜了。
在這些情況下,實現一個依然能夠良好拾取語音的系統是一項極具挑戰性的任務。本文將介紹傳統方法為何無法在這些遠場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠場性能的一種解決方案。
大動態范圍
用于智能家庭設備的語音捕獲系統需要支持大信號動態范圍,從輕聲細語到響亮的音頻內容回放。對于與用戶距離大概在0.5米至3米范圍內的設備來說,設備麥克風處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設備來說,回放內容在設備麥克風處的SPL電平可能接近95dB。這種典型和極具挑戰性的用例對設備中的麥克風和模數轉換器(ADC)的選型有很大的影響。
對于遠場應用來說,選擇具有高信噪比值的麥克風非常重要。如上所述,目標語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風,等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風,那么語音與麥克風自身噪聲之比可能低至5dB!
ADC內部的本底噪聲也很重要,因為如果應用中的ADC動態范圍不夠的話,還會造成信號飽和。
圖 1顯示了兩種ADC的輸入參考噪聲,它們都是麥克風增強設置值的函數。紅線顯示的是動態范圍大約是96dB的18位ADC性能,藍線顯示的是動態范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風自身噪聲電平。
圖1:麥克風自身的噪聲和來自ADC的噪聲將疊加在一起形成系統總的本底噪聲。
圖 2和圖3顯示了分別使用96dB動態范圍和106dB動態范圍的ADC時系統的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點。合理的設置是針對96dB ADC使用24dB的麥克風增強值、針對106dB ADC使用12dB的麥克風增強值。在本例中,使用106dB ADC時的本底噪聲要低2dB,飽和點要高12dB。本底噪聲低2dB對于拾取遠場條件中的語音來說尤其重要。
圖2:這張表顯示了使用96dB ADC時的系統屬性。
圖3:這張表顯示了使用106dB ADC時的系統屬性。
考慮到峰值內容和諧振等因素,由于回聲而在麥克風處產生的SPL電平可能達到96dB甚至更高。因此對于具有大聲回放而且體積不大的設備來說,在使用 96dB或者更低動態范圍的ADC時飽和問題很常見。當在實際系統中遇到這些問題時,唯一的解決方案通常是進一步降低麥克風的增強值,但這樣做的同時會抬高本底噪聲。在這個例子中,麥克風增強值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠場產品來說首選的解決方案是使用具有高信噪比的麥克風和106dB或更高動態范圍的ADC。
?
遠場噪聲/干擾和混響消除以及擺脫方向性約束
在智能家居遠場應用中,獲得魯棒性的語音拾取的條件可以說是相當苛刻的。用戶和設備之間的遠距離導致了其信噪比比近場應用要低很多。遠距離還會造成語音具有很低的直接路徑與混響路徑比值(DRR)。這個比值衡量的是直接傳輸到麥克風的語音信號能量與通過反射途徑到達麥克風的能量的相對大小。在大多數家庭和辦公室中,RT60時間一般在300ms至800ms范圍內—這個時間將導致音頻信號在室內來回反彈中損失掉約60dB的能量。當用戶與麥克風的距離超過1米時,低的DRR值對于傳統語音增強解決方案和語音識別性能來說是一個很大的問題。
噪聲/干擾條件的變化也很大。系統需要能夠同時處理靜態干擾(也就是說頻譜特性非常穩定或變化非常緩慢的信號)和非靜態干擾(即頻譜特性不斷變化的信號)。當噪聲相對穩定時,傳統的單個麥克風增強方法是非常有效的。然而,當干擾變成非穩態時,這種方法就捉襟見肘了。因此為了改進現實世界條件下的語音識別性能,要求使用多麥克風方法。
傳統的多麥克風增強算法,比如波束成形,通過估計一組受約束的空間濾波器來增強來自預定義空間方向的信號。圖4顯示了一種傳統波束成形器的框圖。這種波束成形器有三個主要單元:最小方差無失真響應(MVDR),阻塞矩陣(BM),自適應后置濾波器。
圖4:傳統波束成形器有三個主要單元:最小方差無失真響應(MVDR),阻塞矩陣(BM),自適應后置濾波器
MVDR 將以這樣的一種方式將麥克風信號合成在一起:一邊嘗試將波束成形器的空波束指向干擾源,一邊將一個波束指向目標源。對每一個獨立的空波束都要求一個額外的麥克風,因此對于目標語音可能來自任何方向的智能家庭應用來說會顯著增加成本。MVDR利用增強的信噪比產生對目標源的估計。然而,信號仍然可能包含相當多的殘留噪聲,因為它不能抵消來自與目標源相同方向的干擾,而這種情況在典型的現實世界中是很常見的,而且它也不能利用有限的麥克風數量抵消掉波束外的所有干擾。阻塞矩陣(BM)可以通過朝目標源放置波束成形器的零點來估計噪聲/干擾。然而結果信號將包含目標源的殘留,因為在混響條件下,由于反射(混響) 的原因目標源不是從單一方向到達麥克風的。
自適應后置濾波器的目的是從MVDR輸出中消除殘留噪聲,從而提高信噪比。然而,所有濾波器算法都受這樣一個事實的限制:在阻塞矩陣的輸出中存在很強的目標源。噪聲估計中的這種殘留語音將導致所有后置濾波器扭曲到語音信號。隨著混響的增加(DRR越來越小),這種失真的嚴重性也隨之增加。解決這個問題的唯一方法是顯著增加麥克風的數量,這種解決方案對許多消費類應用來說就變得太過昂貴了。
因此在對成本敏感的消費產品所具有的遠場條件下,傳統的波束成形解決方案不能提供令人滿意的性能,需要新的解決方案。
理想的解決方案應該能在各種遠場音頻條件下提供一致的噪聲抑制性能,即使是只使用兩個麥克風。這樣的解決方案不應對濾波解決方案提出任何嚴苛的約束條件,比如波束成形中的方向性約束,同時能提供良好的靜止和非靜止噪聲抑制能力。理想的解決方案還應該隱式地建模混響效應,從而避免其性能受DDR變化顯著影響這樣的波束成形問題。最后,解決方案應該具有足夠的魯棒性,它可以完全不受麥克風位置和麥克風匹配的影響,從而消除對專門參數調諧的要求。
一種改進的遠場解決方案實現是這樣一種架構:算法中受監視/約束的部分只用于檢測目的,不直接用于約束濾波器設計,而且濾波器都接受無監視方式的訓練。圖5 顯示了基于盲源分離(BSS)的這樣一種解決方案的高層結構。這種解決方案有三個主要部分:基于受監視功能的話音活動檢測器(VAD),不受監視的空間濾波,不受監視的頻譜濾波。
圖5:這張圖顯示了基于盲源分離的SSP高層結構。
基于受監視功能的話音活動檢測器(VAD)會對目標語音的存在進行概率測量。然后在不受監視的濾波模塊中使用這個信息判斷是否為噪聲、干擾或目標語音源訓練濾波器。在這種架構中可以使用任何合適的VAD。
系統的核心是不受監視的空間濾波(USF)—基于獨立分量分析(ICA)的一種BSS算法。這種ICA算法設法建模目標源和干擾源的混合系統,并允許用線性濾波將它們分開來。在只有兩個麥克風的系統中,USF將產生4個信號輸出,每個麥克風2個。對每個麥克風來說,一個信號包含目標源和一些殘留噪聲,另一個信號包含對所有干擾源的估計,其中目標源已經被濾除。
USF做到這一點所需的唯一信息是在知道何時目標語音有效以及何時噪聲有效,這個信息來自VAD。然后USF尋找濾波器以完全不受監視的方式對目標源和干擾源進行分拆。USF并不明確地使用源方向,雖然這個信息可以用來改善 VAD決策。另外,麥克風在設備上的位置和麥克風之間的不匹配對算法的影響很小。在ICA系統中,如果存在N個源,那么通常至少需要N個麥克風來恢復原始信號。然而,通過將信號看作是包含1)一個目標語音信號和一個噪聲信號,或2)只有一個噪聲信號,ICA可以只與兩個麥克風和未知數量的噪聲源一起使用。
USF 的輸出不是在系統輸出中直接使用,因為它假設合成信號是由有限數量的空間定位源產生的信號的線性合成。這種一致性假設條件對主要的語音源信號來只是部分成立,但對現實世界噪聲來說不是的。因此線性濾波對于現實世界應用來說不是最優的,要求用非線性、隨時間變化的統計性后置濾波對信號進行補償。后置濾波方法通常涉及到對由線性濾波器輸出推導出的頻譜/臨時模板(或增益)進行估計。雖然模板通常能提高噪聲抑制能力,但如果沒有考慮分拆模型不確定性的話,屏蔽效應可能導致信號的嚴重劣化。
用于頻譜濾波的方法可以基于不受監視的頻譜增益分布學習,而這種分布源自USF的輸出信號。然后就能產生語音存在/不存在的概率;這些概率用來控制對每個通道的頻譜增強。增強技術可以消除有害的干擾,與此同時消除最近的混響分量,即有效地去除混響。
圖 6和圖7顯示了這樣一種系統的性能例子。在這個測試中,用戶距雙麥克風系統3米遠。麥克風處的目標語音電平是60dB,麥克風處的干擾語音電平是 50dB。圖6中的上面通道顯示的是沒經任何處理的接收信號。下面通道顯示的是經過處理后的輸出。圖7顯示了處理之前和之后的干擾頻譜內容。在這種條件下,可以達到大約30dB的干擾信號抑制。當未處理信號通過語音識別引擎發送時,可能達到95%的誤字率(WER)。經過處理后的WER可下降到15%。
圖6:上面通道顯示的是未經任何處理的接收信號。下面通道顯示的是處理后的輸出。
圖7:顯示的是處理之前和處理之后的干擾頻譜內容。
聲學回音消除(AEC) 已經存在很多年了,是任何免提通信系統的必要部分。聲學回音消除器可以從麥克風記錄中消除設備本身正在回放的音頻。最簡單的AEC是半雙工的,也就是說,當遠端在講話時,它會馬上關閉近端的麥克風,反之亦然,即當近端講話時則關閉遠端的麥克風。在這些系統中,同一時刻只能有一邊講話。
對于語音控制應用來說,真正的全雙工回音消除是系統的一個必要部分,也就是要達到語音控制和回放同時進行的效果。聲學回音消除器(AEC)要想正常工作,需要能夠訪問到信號,也就是設備正在播放的回音參考。AEC隨即使用這個回音參考對房間內的聲學回音路徑進行線性建模。然而在實際系統中,回音路徑中通常有相當多的非線性因素,它們會顯著降低系統性能—比如當設備正在試圖從小的揚聲器中產生大的回放音量時。另外一個例子發生在回放信號被發送到AEC作為回音參考之后對這個回放信號進行非線性的后置處理之時。語音控制的機頂盒(STB)就是這種情況,此時AEC在工作,機頂盒中也獲得了回音參考,但電視機很可能在播放音頻之前在音頻上疊加一些未知延時和后處理。在這些條件下使用傳統的AEC性能會很低。
這個問題可以這樣解決:將AEC連接到前文介紹的噪聲抑制技術。只要AEC能夠區分遠端、近端和雙邊談話活動,這個信息就能用作USF的活動檢測輸入。這種方法在具有非線性及受損回音參考的系統中可以提供真正全雙工的AEC性能。
另外,這種新的AEC技術應該包含一個延時估計算法,以便通過對齊回音參考和麥克風信號來解決回音路徑中的未知延時,就象在機頂盒案例中那樣。
圖 8和圖9顯示了一個機頂盒系統的性能。用戶距電視機3米遠,麥克風模塊位于電視機頂上,并連接到機頂盒。用戶給機頂盒發出自然語言命令。在麥克風模塊處目標語音的SPL是60dB,來自電視回放內容的回音SPL是72dB。圖8的上部顯示的是未經處理的麥克風信號,底部顯示的是經過處理的麥克風信號。圖9 顯示的是處理前后殘留回音的頻譜內容。在這個案例中,處理前的誤字率(WER)是100%,處理后則達到了8%。
圖8:這張圖的上部分顯示的是未經處理的麥克風信號,下部分顯示的是處理過的麥克風信號。
圖9:這張圖顯示了處理前后殘留回音的頻譜內容。
本文小結
傳統的波束成形語音增強方法在智能家庭遠場應用環境中通常無法提供可接受的解決方案,因此很有必要開發其它的系統來成功地滿足和應對這些遠場挑戰。舉例來說,科勝訊(Conexant)公司已經開發出了如同本文所述的極具成本效益且高集成度的解決方案,這些解決方案采用了高動態范圍的ADC,在低信噪比、低DDR以及語音和噪聲方向未知的條件下具有卓越的遠場噪聲/干擾抑制性能,而且即使在回音信號不完全確定的情況下也能實現真正全雙工的聲學回音消除。這些解決方案已被科勝訊公司部署到從智能家庭設備到平板電腦、PC和可穿戴設備的許多產品平臺上,并且所有產品都具有優秀的性能結果。
像波束成形等傳統方法要求極高的麥克風成本、特殊的平臺調諧,并對麥克風位置、匹配以及語音和噪聲的方向性有許多約束條件。而上述替代性解決方案的魯棒性可直接轉換為更好的性能,并能在新的智能家庭產品開發和制造過程中顯著節省成本。
?
評論
查看更多