語音命令接口的硬件核心由麥克風陣列和處理器組成,處理器可以接收和解釋來自麥克風的音頻信號。根據設備的類型,可能需要各種其他組件,例如用于低功耗藍牙或WiFi的無線接口,以及揚聲器,放大器,LED和顯示器以提供用戶反饋。
麥克風陣列設計
雖然可以在語音命令產品中使用單個麥克風,但大多數此類產品使用由兩到七個麥克風組成的波束成形陣列。該陣列允許音頻處理器將麥克風的拾音模式集中在用戶的聲音上,從而提高用戶語音相對于周圍環境噪聲的信噪比。DSP概念的研究表明,實現最佳的信噪比對于語音命令產品的準確性和可靠性至關重要。然而,便攜式和電池供電產品的外形尺寸所帶來的要求帶來了許多挑戰,而這些挑戰在專為家庭使用而設計的產品中并不存在。
麥克風數量:DSP Concepts 白皮書“設計優化的麥克風波束成形器”表明,增加麥克風數量可以提高語音 UI 的可靠性,五個麥克風陣列在環間距為 71 毫米之間,實現了性能和成本的最佳平衡。麥克風的靈敏度匹配得越緊密,波束成形器的性能就越好;實現這一點的最實用方法是在安裝麥克風后平衡硬件中的麥克風靈敏度,因此靈敏度調整不僅可以補償麥克風的不同增益(通常指定為±3 dB的精度),還可以補償外殼對麥克風的聲學效果。
然而,很少有便攜式產品,幾乎沒有可穿戴設備有這樣的陣列空間。例如,真正的無線耳機通常每個聽筒中只有兩個麥克風的空間。此外,這種陣列所需的處理能力可能超出了大多數便攜式設備中使用的相對較小的處理器的能力。因此,執行波束成形和其他語音 UI 優化功能的軟件算法必須能夠針對兩個或最多三個麥克風進行優化。
麥克風選擇: 由于語音命令產品使用多個麥克風,因此這些產品選擇麥克風的兩個主要因素通常是尺寸和成本。然而,在便攜式和電池供電產品中,麥克風的功耗也變得很重要。MEMS麥克風已經成為語音命令產品的標準,其小尺寸、低成本和低功耗使其在便攜式和電池供電產品中的使用更加重要。壓電MEMS麥克風的另一個優點是它們非常穩定,并且在回流焊,濕度或溫度變化期間靈敏度不會發生變化。
這些麥克風可以具有模擬或數字輸出,但模擬麥克風通常是超低功耗應用的更好選擇。模擬麥克風具有內部放大器,因此需要一些功率,但使用PDM或I2S數字輸出具有更多的內部組件,因此消耗更多的功率。但是,模擬麥克風可能需要添加模數轉換器級,如果該功能尚未內置于 SoC 中。
專為超低功耗應用設計的MEMS麥克風的一個例子是Vesper VM1010,這是一款模擬輸出麥克風,在“聲音喚醒”模式下的額定功耗僅為8 μA??紤]到便攜式產品中的電池即使在完全斷電時通常也會消耗約50 μA的功率,因此VM1010對便攜式產品的電池壽命幾乎沒有影響。
VM1010中的壓電麥克風元件由一個非常低功耗的比較器電路監控,當麥克風上的聲音超過由外部電阻器設置的特定閾值時,該電路會向系統的其余部分發送喚醒信號。正確選擇電阻器可設置所需的閾值,以優化 VM1010,從而在各種噪聲環境中實現最佳性能。VM1010 專注于 250 Hz 至 6 kHz 之間的聲音,可更好地拾取人聲并抑制環境噪音,如機械隆隆聲和風噪。因此,VM1010 中的零功耗監聽在系統中最低功率的語音活動檢測模式之前提供超低功耗模式,從而在待機狀態下節省大量功耗。這種類型的單個麥克風可用于觸發語音命令產品的麥克風陣列、音頻處理電路和互聯網連接(如果適用)。
[圖1|Vesper VM1010 MEMS 麥克風(左)及其內部電路配置(右)]
便攜式產品中的語音識別麥克風也必須堅固耐用,能夠承受產品從腰部高處掉落到混凝土上的沖擊。它們可能還需要防水或至少防水。上面引用的VM1010是浸入式,防塵和防震的,因此它符合所有這些標準。
根據DSP Concepts進行的測試(在白皮書“設計優化的麥克風波束成形器”中介紹),陣列中麥克風的信噪比并不重要。使用靈敏度容差更嚴格的麥克風有助于提高性能 - 本文詳細介紹了使用具有±1 dB容差的麥克風而不是更典型的±3 dB的麥克風所帶來的改進。但是,考慮到陣列中的每個麥克風可能處于不同的聲學環境中,由于外殼的物理設計,最好在處理器中而不是麥克風本身中匹配麥克風靈敏度。
另一種節省功耗的可能方法是使用加速度計喚醒設備,因此突然移動可以激活麥克風陣列和處理電路。這種設計可以消除讓麥克風始終“傾聽”的需要。它可能在遙控器和控制面板等產品中不實用,這些產品可能超出手臂的可及性,但在一些可穿戴設備中可能很實用。
音頻處理器注意事項
在任何語音命令產品中,音頻處理器(無論是專用 DSP 還是 SoC 中的處理內核)都必須具有必要的計算能力,以處理來自陣列中所有麥克風的信號,并運行語音識別所需的所有算法。芯片可以容納的算法越先進,麥克風越多,信噪比就越好,語音識別就越準確。但是,在便攜式和電池供電產品中,處理器還必須消耗盡可能少的功率,以便在產品中保持足夠的電池壽命。計算和功率效率的這種微妙的平衡行為是一項極其困難的工程挑戰。
Ambiq Micro的阿波羅系列是專門設計用于處理具有小外形尺寸和電池功率的產品中的大量音頻處理任務的處理器系列。這些微控制器和 SoC 采用 Ambiq Micro 的 SPOT(亞閾值功率優化技術)平臺設計,該平臺允許它們在不到 1/10 的分辨率上運行。千典型音頻處理器的電流。該公司的第一款基于SPOT的MCU,阿波羅1,是一款基于24 MHz皮層M4F的MCU,專注于傳感器處理。處理器滿載時功耗為35uA/MHz,休眠模式下功耗低至143 nA,僅為便攜式產品中電池典型靜態功耗的0.003倍。
基于 Cortex M4 的下一代 Apollo2 增加了 PDM 輸入,并將內存占用空間和處理能力提高了一倍,達到 48 MHz,專注于超低功耗、始終在線的語音命令處理。Apollo2 Blue 進一步構建了 Apollo2 的功能,集成了低功耗藍牙控制器和藍牙 5 就緒無線電。
[圖2 |顯示Ambiq微型阿波羅2號藍色的結構和特征的框圖]
Apollo2 和 Apollo2 Blue 處理器目前能夠使用 DSP Concepts 的語音 UI 算法(如下所述)處理來自兩個或三個麥克風陣列的信號,使其適用于超低功耗耳戴式、可穿戴設備和其他移動應用。Ambiq Micro還計劃發布Apollo3 Blue,它將提供額外的計算帶寬來處理更多的麥克風,以及更低的活動功耗和睡眠模式,從而實現更嚴格的波束成形模式,更好的信噪比和更好的語音識別精度。
所有這些處理器都具有耳機等微型可穿戴產品所需的緊湊尺寸。它們的尺寸從2.5mm到4.5mm不等,具體取決于引腳配置。阿波羅1號的有功功耗額定為35 μA/MHz,而阿波羅2號和阿波羅2號的額定功耗低于10 μA/MHz。借助 Apollo2 Blue 的藍牙 5 無線電,它可以充當語音助手的專用藍牙低功耗語音通道。
其他組件
除了麥克風陣列和音頻處理器之外,語音命令產品還需要其他組件。具體的組件要求將取決于應用和外形尺寸,但幾乎每個語音命令產品都會采用一些要求。與麥克風和處理器一樣,選擇這些組件不僅要考慮其功能和性能,還要考慮小尺寸和低功耗。
無線接口: 為了提供比最基本的功能更多的功能,語音命令產品需要訪問Internet,以便它們可以從外部服務器發送和接收數據。使用專為家庭使用的智能揚聲器,這種連接是通過WiFi與LAN建立的。對于便攜式語音命令產品,它通常通過藍牙連接到智能手機或平板電腦,而智能手機或平板電腦又通過蜂窩數據網絡或WiFi連接到互聯網。
用戶反饋組件:大多數語音命令產品都包含某種用戶反饋,以確認設備處于活動狀態,正確聽到并理解用戶的命令,以及它將執行所需的操作。這些設備可以是LED,例如亞馬遜Echo和谷歌家庭智能揚聲器頂部的閃爍燈。它們也可以是字母數字或圖形顯示,可以在許多遙控器和家庭自動化墻板上找到。
這些設備中的大多數也可能具有音頻反饋,這可能會通過警報音或語音合成來確認用戶的命令 - 這是處理器上的另一個負載。該裝置必須使用放大器和某種揚聲器來重現語音和/或警報音。某些產品可能使用具有波束成形算法的多個驅動程序,將響應引導回偵聽器。
工業設計注意事項
產品的物理設計會對其語音識別系統的性能產生重大影響。如上文引用的 DSP 概念白皮書中所述,麥克風靈敏度的精確匹配對于可靠的波束成形器性能和準確的語音識別至關重要。
例如,如果陣列中的麥克風放置在距產品邊緣的不同距離處,則它們將具有不同的頻率響應,從而在不同頻率下具有不同的靈敏度。麥克風安裝的一致性也是一個問題。麥克風必須盡可能以完全相同的方式安裝,以盡量減少由于安裝不一致而可能產生的任何聲學差異。話筒周圍的任何密封件也必須在設計、材料和安裝上保持一致。
除了謹慎設計語音命令產品,使其陣列中的每個麥克風都處于相似的聲學環境中外,制造商還可以通過在工廠單獨匹配每個單元的麥克風來確保語音命令產品的最佳性能。這個額外的QC步驟可確保由于微小的制造不一致而導致的麥克風性能差異不會影響語音識別的準確性。
審核編輯:郭婷
-
處理器
+關注
關注
68文章
19259瀏覽量
229653 -
放大器
+關注
關注
143文章
13583瀏覽量
213368 -
soc
+關注
關注
38文章
4161瀏覽量
218167
發布評論請先 登錄
相關推薦
評論