語音控制和語音接口已經(jīng)開始幾乎滲透到所有消費類邊緣設(shè)備類別。語音識別算法和AI加速器硬件的進(jìn)步意味著該技術(shù)甚至可用于功耗和成本受限的應(yīng)用程序,例如智能家居設(shè)備(甚至有些笨拙的設(shè)備)。
從用戶角度來看,智能家居設(shè)備中的語音控制背后的驅(qū)動因素很明確。
Alireza Kenarsari-Anhari(來源:PicoVoice)
PicoVoice首席執(zhí)行官Alireza Kenarsari-Anhari表示:“易用性和便利性是目前的主要驅(qū)動力。”想像一下,想要喝咖啡時,您會從桌子上大聲喊叫到辦公室里的咖啡機(jī),或者拿著一籃濕衣服命令下達(dá)干衣機(jī)的命令。
我們假設(shè)像這樣的智能設(shè)備(不是便攜式設(shè)備)可以永久訪問家庭的WiFi連接-那么為什么不在云中進(jìn)行這種語音處理呢?
在這種情況下,走向邊緣AI的趨勢主要是由隱私驅(qū)動的,Kenarsari-Anhari表示,這是消費者關(guān)注的問題,但對于某些企業(yè)來說是必不可少的。可靠性是另一個驅(qū)動因素:“如果您的WiFi無法正常工作,讓洗衣機(jī)停止工作是否有意義?”他說。
延遲在某些情況下也很重要;有些應(yīng)用程序確實需要對語音工作負(fù)載處理(例如游戲)進(jìn)行實時保證。
成本是語音邊緣處理的另一大推動力,因為在云中處理此語音數(shù)據(jù)需要花費金錢。每次使用云API時都要付費的商業(yè)模式不適用于家用電器和消費電子產(chǎn)品等用例,這些用例的成本較低,并且每天可能使用多次。
PicoVoice的AI語音到文本推理引擎旨在在低于1美元的微控制器上獨立于云運行,旨在實現(xiàn)原本不可行的應(yīng)用程序中的語音控制。這可能包括消費者可穿戴設(shè)備和可聽設(shè)備,它們處于需要通過基于微控制器的語音解決方案實現(xiàn)的電源效率和成本效率的交叉點。Kenarsari-Anhari說,功率和成本優(yōu)化的解決方案還可以釋放工業(yè),安全和醫(yī)療應(yīng)用中的機(jī)會。
該公司最近推出了Shepherd,這是一個用于在微控制器上構(gòu)建語音應(yīng)用程序的無代碼平臺,可與該公司的模型創(chuàng)建軟件PicoVoice Console一起使用。Shepherd支持ST和NXP流行的Arm Cortex-M微控制器,并同時支持其他設(shè)備。
Kenarsari-Anhari說:“我認(rèn)為語音是一種界面-如果您無需編碼即可構(gòu)建GUI或網(wǎng)站,也許使用WordPress,則下一步的邏輯步驟就是以類似的方式構(gòu)建語音界面,” Kenarsari-Anhari說。“牧羊人使產(chǎn)品經(jīng)理和用戶體驗設(shè)計師能夠構(gòu)建原型并快速迭代,但我們的目標(biāo)是擴(kuò)大其目標(biāo)用戶群。如果每個人都可以建立自己的助手怎么辦?命名為他們想要的名稱,而不是Alexa!—賦予他們想要的個性。”
盡管完全有可能開發(fā)自然語言處理模型并在沒有專業(yè)軟件的情況下實現(xiàn)它們,但這條路線并不適合每個人。
他說:“當(dāng)然可以,蘋果,亞馬遜,谷歌和微軟做到了。”“這實際上與企業(yè)是否具有資源,是否致力于圍繞它建立組織以及是否有能力等待幾年有關(guān)。”
未來趨勢
Syntiant首席執(zhí)行官Kurt Busch在去年夏天接受EE Times采訪時說,Voice正在成為下一代技術(shù)用戶的首選界面。
庫爾特·布希(來源:Syntiant)
布希描述了他的最小的孩子,他的孩子雖然可以讀書,但是還太小,不能寫作和拼寫,卻可以通過智能手機(jī)上的語音界面與朋友們發(fā)短信。
“他的哥哥姐姐發(fā)短信,但他那一代人的電話比他們早了幾年,”布希說。“隨著時間的流逝,對于他這一代和更年輕的一代,他們的默認(rèn)界面是與之對話。”
Busch的觀點是,語音將成為“未來的觸摸屏”,其中的設(shè)備內(nèi)處理功能首先會在具有鍵盤或鼠標(biāo)的設(shè)備中提供快速響應(yīng)的界面,然后在白色家電中提供快速響應(yīng)的界面。
Syntiant的芯片是專業(yè)的AI加速器,旨在處理低至極低功耗預(yù)算的消費電子設(shè)備中的語音AI工作負(fù)載。迄今為止,這家初創(chuàng)公司已經(jīng)在全球范圍內(nèi)出貨了超過一千萬個芯片,其中大部分已投入手機(jī)中以實現(xiàn)始終在線的關(guān)鍵字檢測。最新的Syntiant芯片NDP120可以識別諸如“ OK Google”之類的熱門單詞,以在280 μW以下的速度激活Google助手。
將來,Busch還認(rèn)為語音控制將使每個人都可以連接和訪問技術(shù)。
“我們認(rèn)為聲音是技術(shù)的偉大民主化者,”布希說。“世界上有30億人每天的生活費僅為2美元。我的假設(shè)是那些人沒有互聯(lián)網(wǎng)訪問權(quán)限,并且可能沒有通過教育系統(tǒng)。這里的自然界面是[語音]。這就是您將技術(shù)帶入當(dāng)今尚未與技術(shù)互動的世界三分之一的方式。我們已經(jīng)看到發(fā)展中國家對語音優(yōu)先應(yīng)用產(chǎn)生了很大的興趣,不僅是從費用的角度,而且從舒適的角度來看,都希望獲得那些以前可能沒有訪問權(quán)限的社會階層。”
市場碎片化知識
發(fā)展速度如此之快的危險在于,它可能很快變得極度碎片化。Knowles物聯(lián)網(wǎng)高級總監(jiān)Vikram Shirastava告訴EE Times,而不僅僅是硬件方面。
Vikram Shrivastava(來源:Knowles)
“例如,由于使用哪種語音識別引擎,市場變得支離破碎?”舍拉斯塔瓦說。“市場將變得分散,這取決于您是與電視SoC集成還是內(nèi)部是一個簡單的MCU,例如微波爐。您會基于操作系統(tǒng)或基于聲學(xué)環(huán)境而產(chǎn)生碎片–僅僅是家庭嗎?外面是門鈴嗎?不可能有一種萬能的解決方案。您必須找到每個垂直領(lǐng)域的共同點,然后嘗試相應(yīng)地解決語音集成問題。”
Knowles有一個基于DSP的語音控制解決方案,旨在引入針對不同垂直行業(yè)的版本。它的方法是將市場的各個部分劃分為具有共同點的那些部分-例如,家用控件,電視條形音箱和遙控器可能屬于同一類-然后開發(fā)針對該類應(yīng)用程序進(jìn)行了優(yōu)化的解決方案。Shirastava稱這種方法為“交鑰匙工程以下一級”,它提供了交鑰匙工程的可擴(kuò)展性,但又增加了一些靈活性。
他說:“我們必須針對這些碎片的某些方面發(fā)布一些不同的版本,以使我們能夠涵蓋我們想要追求的垂直領(lǐng)域。”
Knowles的最新版本AISonic藍(lán)牙標(biāo)準(zhǔn)解決方案是一種開發(fā)套件,用于在與藍(lán)牙連接的設(shè)備(例如智能揚(yáng)聲器,智能家居設(shè)備,可穿戴設(shè)備和車載語音助手)中進(jìn)行語音識別。該套件基于Knowles的IA8201雙核DSP芯片,該芯片專門針對神經(jīng)網(wǎng)絡(luò)處理而設(shè)計,其功耗遠(yuǎn)低于應(yīng)用處理器。例如,該芯片可以在50 mW以下的同時處理單獨的AI模型,以同時進(jìn)行關(guān)鍵字識別,源分類,波束形成,聲學(xué)回聲消除(AEC)和源方向估計。這是通過Tensilica DSP內(nèi)核上的近400條用于音頻和AI處理的自定義指令的指令集擴(kuò)展實現(xiàn)的,該指令集又可以降低時鐘頻率以節(jié)省功耗。
Sugr的iOttie Aivo Connect車載智能手機(jī)支架將Knowles的IA8201用于車載語音功能。它具有內(nèi)置的Alexa語音助手功能。
語音最終會成為大多數(shù)消費類電子產(chǎn)品的默認(rèn)用戶界面嗎?看起來肯定是這樣。先進(jìn),高效的AI語音控制算法,使開發(fā)人員能夠輕松集成語音的開發(fā)環(huán)境以及不斷發(fā)展的節(jié)能,經(jīng)濟(jì)高效的硬件解決方案生態(tài)系統(tǒng)相結(jié)合,使這一切成為可能。
編輯:hfy
-
智能家居
+關(guān)注
關(guān)注
1928文章
9553瀏覽量
184937 -
語音接口
+關(guān)注
關(guān)注
0文章
10瀏覽量
9902 -
語音控制
+關(guān)注
關(guān)注
5文章
482瀏覽量
28248
發(fā)布評論請先 登錄
相關(guān)推薦
評論