音箱行業(yè)有著悠久的歷史,但是在過去十多年里,傳統(tǒng)的音箱行業(yè)面臨著極大的市場困境,例如藍牙音箱剛出現(xiàn)各個廠商便直接殺成了一片紅海。而2015年隨著智能音箱的涌現(xiàn),特別是亞馬遜的Echo、京東的叮咚、阿里的小飛,不僅對外展現(xiàn)出了智能音箱行業(yè)百花齊放的局面,也使沉悶的音箱市場看到了突破性發(fā)展的希望。但是,隨著這些巨頭們的集體涌入,這也讓在智能音箱行業(yè)摸爬滾打的創(chuàng)業(yè)者倍感艱難。
音箱特別是中高端音箱,本來就是強調(diào)品牌且技術(shù)門檻較高的領(lǐng)域。而智能音箱將聲學(xué)設(shè)計、無線技術(shù)、語音識別、遠場拾音、語義分析等眾多技術(shù)融合在一起,不僅技術(shù)更為復(fù)雜,而且更加依賴音樂內(nèi)容平臺的支持,這些諸多因素都是創(chuàng)業(yè)者需要直面解決的難題。當(dāng)然,技術(shù)還是其中的根本
當(dāng)將語音識別算法接入到設(shè)備時,務(wù)必要保證設(shè)備的音頻通路具有足夠的質(zhì)量。因此對設(shè)備進行音頻測試,以評估能夠影響語音識別性能的音頻前端的音頻參數(shù)。如下要點對語音識別至關(guān)重要:
自然聲音
合適的增益
良好的信噪比
一致的響應(yīng),信號不能包括如下信息: 自動增益控制 AGC 啟動響應(yīng) 直流偏置過大
適當(dāng)?shù)念l響 (高低滾降,理想平滑,沒有混跌)
二、測試設(shè)備
帶有錄音軟件的被測試設(shè)備
音頻測試儀器:CD機,均衡器,音箱,人工嘴和聲壓計
帶分析工具的PC機(CoolEditor、Audition、Audacity和Wavesurfer等)
三、音頻文件
正常音頻文件:用于主觀判斷音頻質(zhì)量和增益設(shè)置以及信噪比;
大增益文件:用于判定削波時的增益設(shè)置;
1K-sine增益Sweep文件0~105dB:用于評估削波,決定最大數(shù)值和判定AGC存在與否;
0~8K/16K掃頻文件:用于測試設(shè)備的頻響和混跌;
四、測試項目
1. 主觀聽音
用質(zhì)量好的耳機去聽設(shè)備的音質(zhì),從而發(fā)現(xiàn)一些非正常聲音;比如:雜音、諧波和共振等;
音頻路徑上過多的信號處理可能導(dǎo)致聲音畸變?yōu)槿嗽炻暎环险W匀宦曇簦瑫浖R別造成很大困難。
2. 增益評估
設(shè)備在各種使用場景下,務(wù)必保持增益的設(shè)置不要使信號削波;削波會嚴重降低識別性能,必須禁止。
95dB的聲音應(yīng)該剛好填滿16bit音程;
3. 信噪比
靜默值作為底噪,聲音波形的中部作為信號;尤其注意某些記錄將具有數(shù)據(jù)實際值為零的引導(dǎo)/拖尾部分,不要使用這部分作為靜默測量;麥克風(fēng)單體的信噪比,除了本身規(guī)格書之外,在實際產(chǎn)品中收到電路噪聲影響很大,尤其注意模擬麥克風(fēng)bias電源。
信號比:S/N>30對于識別是良好的比值,大于20也是可行的;如果小于20的話,則說明音頻路徑上太吵了導(dǎo)致很難識別成功。
4. 自動增益控制AGC
AGC的存在,當(dāng)音頻信號的幅度增大時,它通常表現(xiàn)為增益逐步減小。它會影響識別效果,所以得關(guān)閉此功能,類似的有自動電平控制寄存器ALC等。
同時部分功放帶有動態(tài)調(diào)節(jié)音量的功能,務(wù)必關(guān)閉此項功能,否則嚴重影響AEC效果;所有的動態(tài)調(diào)節(jié)都務(wù)必在AEC采樣點之前進行,具體如下圖示意:
5. 啟動瞬態(tài)Startup transients
音頻系統(tǒng)經(jīng)常在錄音命令下達后,需要一段時間才能真正啟動操作,這導(dǎo)致了啟動瞬態(tài);如果這主要包括低頻的話,將不會對識別造成影響,因為識別器中有低通濾波器。
然而試圖消除瞬態(tài)的話,將信號鉗位在零電平上超過幾十毫秒的話,會嚴重影響識別。在這種情況下,最好完全跳過音頻,而不是將此錯誤信息發(fā)送給識別器。
上圖中紅色框中125ms的啟動瞬態(tài),應(yīng)該跳過。
6. 直流偏置過大DC offset
直流偏置可以看作是靜音信號在零信號線上高于或者低于的信號;
如果偏移量為滿刻度限制的百分之幾或者更少,是沒有問題的;
但是如果超過10%則需要糾正,很大的偏移將導(dǎo)致不對稱削波。
7. 頻響曲線Response curve
為了隔絕麥克分錄音到其他雜音,麥克風(fēng)需要與喇叭足夠近,大致2.5cm處錄音。
檢查FFT大小設(shè)置為2048個采樣點,采樣窗口設(shè)置為Blackmann Harris;
理想的頻率響應(yīng)曲線在頂端220Hz和3200~3900Hz之間的幾分貝內(nèi)是平坦的,差值一般控制在10dB以內(nèi)是可以接受的(16K采樣率的為6400Hz~7400Hz)如下圖所示:
頻響曲線是個慢慢的漸變過程,如果個別區(qū)域出現(xiàn)急劇變化,應(yīng)該重點關(guān)注并研究,音頻可能存在其他問題。
8. 混疊Aliasing
當(dāng)超過采樣速率的一半(奈奎斯特極限)的信號被允許進入模數(shù)轉(zhuǎn)換器(ADC)時,出現(xiàn)混疊現(xiàn)象。如下為ES7210調(diào)試初期出現(xiàn)的混疊現(xiàn)象:
混疊是影響識別的一個重大因素,必須消除混疊;
故ADC需要有抗混疊處理,例如抗混疊濾波器等。
當(dāng)錄音系統(tǒng)增加輸入信號的泛音時,會出現(xiàn)諧波失真;
AEC對信號失真是非常敏感的,音頻通路的整體諧波失真需要控制在5%以內(nèi),故從麥克風(fēng)到功放到揚聲器和音腔,均需要嚴格控制;除了單體品質(zhì)之外,尤其注意功放和揚聲器的功率匹配、阻抗匹配和頻率匹配;
如下圖為1K-sine信號的頻譜圖,有奇次諧波、偶次諧波:
如下圖為8K-sweep信號的頻譜圖,有奇次諧波、偶次諧波:
諧波失真越小越好,一般要求最好是小于3%。
評論
查看更多