語音控制和語音界面已經開始無情地滲透到幾乎所有的消費邊緣設備類別。語音識別算法和 AI 加速器硬件的進步意味著該技術甚至可以用于智能家居設備(甚至是一些愚蠢的設備)等功率和成本受限的應用程序。
從用戶端來看,智能家居設備語音控制背后的驅動力是顯而易見的。
PicoVoice 首席執行官 Alireza Kenarsari-Anhari 告訴 EE Times:“易用性和便利性是目前的主要驅動力。” 很容易想象當你想要一杯咖啡時,你可以從辦公桌上對著家庭辦公室的咖啡機大喊大叫,或者拿著一籃濕衣服向滾筒式烘干機口述訂單。
我們假設像這些非便攜式的智能設備可以永久訪問家庭的 WiFi 連接——那么為什么不在云中進行這種語音處理呢?
在這種情況下,邊緣人工智能的趨勢主要是由隱私驅動的,Kenarsari-Anhari 說這是消費者的擔憂,但對一些企業來說是必須的。可靠性是另一個驅動因素:“如果您的 WiFi 不工作,您的洗衣機停止工作是否有意義?” 他說。
在某些情況下,延遲也很重要;某些應用程序確實需要語音工作負載處理的實時保證,例如游戲。
成本是語音邊緣處理的另一個重要驅動因素,因為在云中處理這些語音數據需要花錢。每次使用云 API 時都付費的商業模式不適用于家電和消費電子等成本低且每天可能多次使用的用例。
PicoVoice 的 AI 語音到文本推理引擎被設計為在低于 1 美元的微控制器上獨立于云運行,旨在在原本不可行的應用程序中實現語音控制。這可能包括消費類可穿戴設備和可聽設備,它們正處于需要基于微控制器的語音解決方案可以實現的功率效率和成本效率的交叉點。Kenarsari-Anhari 說,功率和成本優化的解決方案還可以釋放工業、安全和醫療應用的機會。
該公司最近推出了 Shepherd,這是一個用于在微控制器上構建語音應用程序的無代碼平臺,可與該公司的模型創建軟件 PicoVoice Console 配合使用。Shepherd 支持 ST 和 NXP 的流行 Arm Cortex-M 微控制器,并支持正在開發的其他設備。
“我認為語音是一個界面——如果你可以在不編碼的情況下構建你的 GUI 或網站,也許使用 WordPress,以類似的方式構建語音界面是下一個合乎邏輯的步驟,”Kenarsari-Anhari 說。“Shepherd 正在授權產品經理和 UX 設計師構建原型并快速迭代,但我們的目標是擴大其目標用戶群。如果每個人都可以建立自己的助手會怎樣?將其命名為他們想要的名稱 - 而不是 Alexa!——并賦予它他們想要的個性。”
雖然開發自然語言處理模型并在沒有專業軟件的情況下實現它們是完全可能的,但這條路線并不適合所有人。
“當然可以——蘋果、亞馬遜、谷歌和微軟做到了,”他說。“這真的是關于一個企業是否有資源,是否致力于圍繞它建立一個組織,是否有能力等待幾年。”
未來的趨勢
語音正在成為下一代技術用戶的首選界面,Syntiant 的首席執行官 Kurt Busch 在去年夏天接受 EE Times 采訪時表示。
Busch 描述了他最小的孩子是如何使用智能手機上的語音界面與他的朋友發短信的,他可以閱讀,但對于寫作和拼寫還太小。
“他的哥哥姐姐們發短信,但他這一代人比他們早幾年有了手機,”布施說。“隨著時間的流逝,對于他這一代和年輕一代來說,他們的默認界面是與它交談。”
Busch 的觀點是,語音將成為“未來的觸摸屏”,設備內處理首先在具有鍵盤或鼠標的設備中提供快速響應的界面,然后在白色家電中提供。
Syntiant 的芯片是專門的 AI 加速器,旨在處理功耗預算低至極低的消費電子設備中的語音 AI 工作負載。迄今為止,這家初創公司已在全球出貨超過 1000 萬顆芯片,其中大部分已進入手機以實現始終在線的關鍵字檢測。最新的 Syntiant 芯片NDP120可以識別“OK Google”等熱詞,以低于 280 μW 的功率激活 Google 助手。
在未來,Busch 還看到語音控制能夠為每個人實現連接和訪問技術。
“我們將聲音視為技術的偉大民主化者,”布希說。“世界上有 30 億人每天靠 2 美元過活。我的假設是那些人沒有互聯網接入,可能沒有通過教育系統。這里的自然界面是[speech]。這就是您如何將技術帶入當今未與技術交互的第三個世界。我們看到發展中國家對語音優先應用程序產生了濃厚的興趣,以獲取以前可能無法訪問的社會群體,不僅從費用的角度來看,而且從舒適的角度來看。”
市場分割
Knowles 的物聯網高級總監 Vikram Shirastava 告訴 EE Times,一個與語音一樣快速增長的市場的危險在于,它可能會迅速變得極其分散,而不僅僅是硬件產品線。
“市場變得支離破碎,比如說,使用的是什么語音識別引擎?” 希拉斯塔瓦說。“市場會變得支離破碎,這取決于您是與電視 SoC 集成還是內部是簡單的 MCU,例如微波爐。您會根據操作系統或聲學環境獲得碎片——它只是家嗎?是外面的門鈴嗎?不可能有一種萬能的解決方案。你必須找到這些垂直領域的共同點,并嘗試相應地解決語音整合問題。”
Knowles 有一個基于 DSP 的語音控制解決方案,它打算為不同的垂直行業推出版本。它的方法是將市場碎片歸為具有共同點的市場——例如,家庭控制、電視條形音箱和遙控器可能屬于同一組——然后開發針對該組應用進行優化的解決方案。Shirastava 將這種方法稱為“比統包低一級”,它提供統包的可擴展性,但增加了一些靈活性。
“我們必須有一些不同的版本來解決這種碎片化的某個方面,以便我們能夠覆蓋我們想要追求的垂直領域,”他說。
Knowles 最近發布的 AISonic 藍牙標準解決方案是一款用于藍牙連接設備(如智能揚聲器、智能家居設備、可穿戴設備和車載語音助手)的語音識別開發套件。該套件基于 Knowles 的 IA8201 雙核 DSP 芯片,該芯片專為神經網絡處理而設計,功耗遠低于應用處理器。例如,該芯片可以在 50 mW 以下同時處理用于關鍵字定位、源分類、波束形成、聲學回聲消除 (AEC) 和源方向估計的單獨 AI 模型。這是通過在 Tensilica DSP 內核上用于音頻和 AI 處理的近 400 條自定義指令的指令集擴展實現的,這反過來又允許降低時鐘頻率以節省功耗。
語音最終會成為大多數消費類電子產品的默認用戶界面嗎?看起來確實是這樣。先進、高效的 AI 語音控制算法、使開發人員能夠輕松集成語音的開發環境以及不斷增長的能源和成本效益硬件解決方案生態系統的組合已經出現,使這一切成為可能。
審核編輯 黃昊宇
-
算法
+關注
關注
23文章
4646瀏覽量
93717 -
功率
+關注
關注
14文章
2096瀏覽量
70409 -
語音控制
+關注
關注
5文章
491瀏覽量
28374
發布評論請先 登錄
相關推薦
【智能語音交互新標桿】WTK6900HC語音識別芯片:重新定義離線語音控制體驗

網絡語音控制器的原理與應用
【「從算法到電路—數字芯片算法的電路實現」閱讀體驗】+介紹基礎硬件算法模塊
離線語音控制模塊,讓生活更懂你!

人工智能教學實驗箱_國產處理器:5-29 語音識別控制實驗
物聯網系統智能控制產品的語音識別方案_離線語音識別芯片分析

為什么FPGA屬于硬件,還需要搞算法?
車載語音識別系統語音數據采集標注案例

評論