語音在與智能手機、平板電腦和個人輔助系統(tǒng)交互中的廣泛使用,使語音作為其他技術(shù)的首選HMI(人機界面)的使用迅速起步。例如,在當今的智能家居中,用戶可以要求Alexa打開或關(guān)閉燈,鎖門和調(diào)節(jié)恒溫器。隨著這項技術(shù)變得越來越普遍,對使用高精度、緊湊和節(jié)能的基于神經(jīng)網(wǎng)絡(luò)的關(guān)鍵短語檢測解決方案來增加人與機器之間交互的技術(shù)解決方案的需求正在增加。與需要網(wǎng)絡(luò)連接的云連接神經(jīng)網(wǎng)絡(luò) (NN) 關(guān)鍵短語檢測實現(xiàn)不同,基于邊緣的解決方案在邊緣執(zhí)行所有計算,不會記錄或?qū)?shù)據(jù)傳輸?shù)皆啤?/p>
本文將介紹一種專為網(wǎng)絡(luò)邊緣設(shè)計的基于 NN 的關(guān)鍵短語檢測解決方案。這些二值化型號可在低功耗UltraPlus? FPGA上運行。本文將討論當使用包含嘈雜背景(如音樂或聊天噪音)的數(shù)據(jù)集訓練 NN 時,如何在嘈雜環(huán)境中使用關(guān)鍵短語檢測。在這種情況下,神經(jīng)網(wǎng)絡(luò)使用公共數(shù)據(jù)集進行訓練,以檢測單詞“七”。關(guān)鍵短語檢測可用于廣泛的應(yīng)用,而無需個人助理設(shè)備??赡艿膽?yīng)用包括智能燈開關(guān)、智能電視和 AVR,通過音量增大和減小等命令管理設(shè)備。
一、引言
長期以來,使用語音命令來控制人機界面(HMI)一直是系統(tǒng)設(shè)計人員的目標。可追溯到20世紀中葉的流行科幻電視節(jié)目和電影,如“星際迷航”和“星球大戰(zhàn)”,給了我們一個語音世界可能是什么樣子的暗示。但是,為現(xiàn)實生活中的消費應(yīng)用開發(fā)低成本、高能效的解決方案已被證明是難以捉摸的。
然而,在過去幾年中,亞馬遜的Alexa和蘋果的Siri等流行的AI應(yīng)用程序的出現(xiàn)以及它們將語音命令轉(zhuǎn)換為系統(tǒng)操作的能力加速了向基于語音的HMI的遷移。這些快速發(fā)展為越來越多的智能家居解決方案打開了大門,這些解決方案依賴于關(guān)鍵短語檢測。今天,用戶可以要求Alexa通過互聯(lián)網(wǎng)訂購產(chǎn)品,打開燈,鎖門,設(shè)置家庭恒溫器,甚至給草澆水。
通常,這些支持語音的HMI執(zhí)行識別云中的關(guān)鍵短語所需的計算。在許多情況下,設(shè)計師將他們的應(yīng)用程序插入預先存在的基礎(chǔ)設(shè)施中,例如亞馬遜的Alexa。然而,這一發(fā)展戰(zhàn)略面臨一些限制。首先是成本。在云中的服務(wù)器上運行關(guān)鍵短語檢測算法的解決方案每次訪問云中的資源時都必須按分鐘付費。此外,構(gòu)建基于云的邊緣解決方案的開發(fā)人員必須支付 NRE 以針對特定設(shè)備訓練他們的解決方案,然后為他們發(fā)布的每個解決方案支付版稅。將設(shè)計插入預先存在的基礎(chǔ)設(shè)施的設(shè)計人員將看到成本上升,因為他們轉(zhuǎn)向Wi-Fi模型需要更強大的處理器來獲取數(shù)據(jù),分析數(shù)據(jù),將其發(fā)送到邊緣設(shè)備,并通過Wi-Fi收聽命令。
此外,依賴互聯(lián)網(wǎng)連接會帶來額外的風險。如果連接斷開,使用互聯(lián)網(wǎng)連接將數(shù)據(jù)傳輸?shù)皆瓶赡軙е路?wù)中斷。通過互聯(lián)網(wǎng)傳輸數(shù)據(jù)也會帶來潛在的黑客風險。從用戶的角度來看,互聯(lián)網(wǎng)連接為侵犯隱私和安全問題打開了大門。依賴于直接位于設(shè)備上的計算資源的邊緣解決方案可避免這些潛在問題。
二、新方法
本文探討了一種不同的方法,為位于網(wǎng)絡(luò)邊緣的設(shè)備提供更低成本的關(guān)鍵短語檢測。利用在開發(fā)高精度、緊湊和低成本的二值化神經(jīng)網(wǎng)絡(luò) (NN) 模型方面的進步,以及新一代超低功耗現(xiàn)場可編程門陣列 (FPGA) 的改進,設(shè)計人員現(xiàn)在可以構(gòu)建關(guān)鍵短語檢測解決方案,在邊緣執(zhí)行所有計算,從而消除與云連接 NN 關(guān)鍵短語檢測實現(xiàn)相關(guān)的連接、安全和隱私問題。
通過在本地執(zhí)行關(guān)鍵短語檢測,與基于云的解決方案相比,此設(shè)計策略可顯著節(jié)省成本。它也不依賴其他生態(tài)系統(tǒng)來運作。如果在基于云的解決方案中互聯(lián)網(wǎng)連接失敗,系統(tǒng)將失敗。基于邊緣的本地解決方案不會冒此風險。安全和隱私問題不是威脅。本地解決方案更易于用戶設(shè)置和運行。最后,使用萊迪思的超低功耗iCE40 Ultra Plus FPGA,這種方法為設(shè)計人員節(jié)省了大量功耗,這是電池供電設(shè)備的一個重要考慮因素。例如,本演示文稿中描述的解決方案僅消耗7 mW。
將經(jīng)濟實惠的智能家居應(yīng)用推向邊緣的一個關(guān)鍵步驟是開發(fā)能夠在低密度、低功耗 FPGA 上運行的二值化神經(jīng)網(wǎng)絡(luò)模型。在云中使用浮點計算的深度學習技術(shù)對于邊緣的消費者應(yīng)用程序是不切實際的。相反,設(shè)計人員必須開發(fā)計算效率高的解決方案,既要滿足精度目標,又要符合消費市場的成本、尺寸和功耗限制。因此,在邊緣操作的設(shè)計人員必須使用使用盡可能少位的數(shù)學運算。
設(shè)計人員可以簡化計算的一種方法是從浮點切換到定點甚至基本整數(shù)。通過補償浮點到定點整數(shù)的量化,使用二值化 NN 的設(shè)計人員可以開發(fā)訓練速度更快、精度更高的解決方案,并將定點、低精度整數(shù) NN 的性能提高到接近浮點版本的水平。要構(gòu)建簡單的邊緣設(shè)備,訓練必須創(chuàng)建具有 1 位權(quán)重的 NN 模型。這些模型被稱為二值化神經(jīng)網(wǎng)絡(luò)(BNN)。
通過使用 1 位值而不是更大的數(shù)字,BNN 可以消除乘法和除法的使用。這允許使用 XOR 和彈出計數(shù)計算卷積,從而節(jié)省大量成本并節(jié)省高達 16 倍的功耗。借助當今的 FPGA,設(shè)計人員擁有一個高度靈活的平臺,可提供所需的所有存儲器、邏輯和 DSP 資源。
三、NN實施
下面的討論描述了一個關(guān)鍵短語檢測解決方案的示例,該解決方案專為邊緣應(yīng)用而設(shè)計,并在具有BNN軟核的iCE40 UltraPlus FPGA中實現(xiàn)。在正常工作期間,關(guān)鍵短語檢測實現(xiàn)在功耗低于1mW的情況下偵聽聲音。一旦系統(tǒng)檢測到聲音,它就會激活 1 秒的緩沖并調(diào)用 BNN。BNN直接在原始輸入上運行,而不是在傳統(tǒng)的頻譜圖和MFCC預處理上操作。代表 1 秒音頻的 16K 原始樣本通過重疊的一維卷積層,變成 30 張 32x32x3 圖像,每張代表 10 毫秒的音頻樣本。然后將輸出傳遞到主 BNN 進行處理。
BNN 有四層深,每層執(zhí)行如下所示的功能:
二進制卷積是輸入數(shù)據(jù)和 1 位權(quán)重的 1 位乘法。在這種情況下,乘法被 XOR 函數(shù)取代。批量規(guī)范化和縮放使激活規(guī)范化,并在 BNN 訓練階段提供幫助。整流線性單元 (ReLu) 將低于特定閾值的數(shù)據(jù)設(shè)置為 0,高于相同閾值的數(shù)據(jù)設(shè)置為 1。池對圖像的每個相鄰像素執(zhí)行,并選擇概率最高的有意義像素。此函數(shù)減少了后續(xù)步驟中所需的計算量。全連接層通常是最后一層,它占據(jù)了前一層中的每個神經(jīng)元。它在下一層的神經(jīng)元上也有一定的重量。此函數(shù)通常計算成本高昂,因此它是作為神經(jīng)元明顯較少的最后一個操作執(zhí)行的。
BNN使用GPU進行訓練,并運行標準的訓練工具,如Café和TensorFlow。使用的訓練數(shù)據(jù)集是一個公共訓練集,其中包含 1K+ 人 65,000 個 30 個短詞的 1 秒長話語。此階段稱為訓練階段。然后,訓練工具的輸出通過萊迪思半導體的神經(jīng)網(wǎng)絡(luò)編譯器工具進行格式化,以供FPGA設(shè)計使用。您可以將權(quán)重視為在邊緣硬件上進行推理時使用的關(guān)鍵短語的模板。選擇的關(guān)鍵詞是“七”。
四、制度實施
為了演示系統(tǒng)的功能,工程師使用了HiMax HM01B0 UPduino擴展板和iCE40 UltraPlus FPGA。這是一款低成本的Arduino外形電路板,旨在展示FPGA的功能。該板具有兩個直接連接到 FPGA 的 I2S 麥克風、用于 FPGA 設(shè)計的外部閃存和權(quán)重激活存儲。它還具有 LED 以指示關(guān)鍵短語的檢測。用戶可以直接對著麥克風講話。檢測到關(guān)鍵短語后,LED 將亮起。
五、性能
在此應(yīng)用中,F(xiàn)PGA設(shè)計頻率和處理長度可以用功耗來換取。在27MHz時,16K原始樣本相當于1秒的音頻處理,可以在25ms內(nèi)處理,同時消耗7.7mW。當頻率降低到13.5MHz時,功耗降至4.2mW,相同的1秒音頻樣本在50ms內(nèi)處理完畢。
關(guān)鍵短語檢測通常必須在嘈雜的環(huán)境中運行,而無需添加額外的硬件來消除噪聲和回聲。該實現(xiàn)通過使用包含噪聲背景的數(shù)據(jù)集訓練 NN 來實現(xiàn)此目標,而無需定位和波束成形。經(jīng)過訓練的 NN 像人類一樣檢測關(guān)鍵字,但也有類似的限制。添加了具有各種隨機人群噪音水平(咖啡館、會議等)的數(shù)據(jù)集,并添加了關(guān)鍵詞。使用更高噪聲級別訓練的 NN 對噪聲的魯棒性更強,但需要更響亮的關(guān)鍵短語。
BNN 可以檢測多達 10 個 1 秒的關(guān)鍵短語,使其成為通過語音進行 HMI 的理想選擇。為了提高檢測精度,采用時域濾波器僅在發(fā)生連續(xù)檢測時才報告關(guān)鍵短語檢測。該設(shè)計為單個關(guān)鍵短語提供高達 99% 的準確率,為多達 5 個關(guān)鍵短語提供高達 90% 的準確率。
六、結(jié)語
將 AI 帶到邊緣帶來了幾個重大挑戰(zhàn)。然而,它也提供了巨大的機會。正如該項目所證明的那樣,使用實施BNN而不是基于云的資源的FPGA將AI構(gòu)建到設(shè)備中可以大大降低硬件成本,同時加快響應(yīng)時間。同時,將處理保持在本地可提高安全性并節(jié)省寶貴的帶寬和服務(wù)器使用成本。
審核編輯:郭婷
-
智能手機
+關(guān)注
關(guān)注
66文章
18503瀏覽量
180449 -
存儲器
+關(guān)注
關(guān)注
38文章
7514瀏覽量
163990 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100890
發(fā)布評論請先 登錄
相關(guān)推薦
評論