智能音箱、智能家居如今涉足AI領域是個熱門話題,到市場上就體現在這類產品的出貨量以及廠商的宣傳口徑上。比較有趣的是,雖然智能音箱的所謂“主控”芯片制造商總在宣傳自身的AI屬性,絕大部分芯片內部還是鮮有AI專核,或者說神經網絡專用計算單元。大概這類邊緣設備的AI算力需求,靠CPU或可能包含的GPU就可以達成。。.
不過隨著邊緣算力需求提升,智能語音芯片算力加強本身也是這兩年智能家居、智能音箱發展的趨勢。比如面向智能音箱的主SoC中,CPU部分就有算力越來越高的趨勢。不過通用處理器在面向智能音頻設備時,效率并不高,所以我們看到有廠商開始為芯片加DSP與AI專核(NPU)。
這其中相對典型的全志科技近期推出的R329芯片及其智能語音解決方案,借由這顆芯片及對應解決方案,我們大致也能窺見當前智能家居/智能音箱在AI這條路上的發展思路和方向,順便看看在這類芯片真正有了AI專核以后,高算力的AI智能語音芯片是什么樣子。
從配置看R329的定位
全球智能音箱芯片市場的主要玩家包括了高通、Intel、蘋果、全志科技(Allwinner)、瑞芯微(Rockchip)、晶晨半導體(Amlogic)等。我們并不清楚在全球范圍內或者國內,“主控”芯片廠商在智能音箱設備中具體的市場份額——不過從既有智能音箱的主芯片來看,國內的競爭似乎也相當激烈。
就全志來說,天貓精靈、小度在家、小度音箱Play、京東叮咚、小愛音箱Play、小愛音箱mini、騰訊聽聽、網易云音箱、索尼LF-S80D等這些相對較熱的智能音箱都在用全志的主控芯片,這也讓全志R328、R16、R58成為比較知名的智能音箱主控芯片。全志的R系列在定位上是面向邊緣低功耗應用的芯片產品,不只是智能音箱產品:R40/R16另外相對知名的是在Banana Pi上有應用,R16也是石頭科技掃地機系列產品的主控。
R系列產品中的R328去年也得到了Aspencore的“2019全球電子成就獎”音頻處理器產品獎。在去年3月份的中國家電消費電子博覽會上,全志展示過其強噪音環境的識別能力。就產品編號來看,R329似乎是R328的迭代產品,不過全志科技發言人告訴我們,這兩款產品是不同定位的。
其中“R329是高階定位,著力于大算力,3-8麥遠場智能語音交互,可應用于帶電池的超低功耗產品上,且接口豐富”,為當前市場中高端智能音箱提供更好的解決方案;而“R328偏向中端到入門級市場,2-3麥遠場智能語音交互,成本更低”。
全志科技表示,R329的兩大主要特點就是高算力與低功耗。其中高算力的部分,也更多涉及到了DSP與NPU。我們就嘗試從這兩方面來看看R329的產品特色。在此之前首先來全局看一看R329的參數配置與特性:
- 雙核 Cortex-A531.5GHz 主頻;
- DSP:雙核 HIFI 4,400MHz 頻率;
- NPU:周易 AIPU,800MHz, 0.256T;
- 擴展:集成多路音頻ADC和DAC,3路I2S和8通道DMIC,同時集成LDOs。
針對完整的智能音箱方案,全志也提供配套的WiFi與藍牙芯片、音頻ADC芯片等,滿足不同客戶需求。
從這一串配置大致就能看出R329在定位上是預備做高算力的,而且主要針對的是不帶屏幕的智能語音交互產品。通用處理器部分選擇的是Arm Cortex-A53微架構:這部分在整個系統的職能通常是跑操作系統、應用、網絡連接等。全志更早的R系列主流方案用的是A7微架構——這也是市面上不少競品的選擇,還有一些選擇了A35。
A53和A7都屬于高能效比的架構方案,這兩者在渲染管線上有著比較多的相似性,比如順序8級管線。不過前者又有比較顯著的同頻性能提升,包括改用64位Armv8-A指令集架構與擴展,更完整的超標量支持。A53的雙發射有著更強的靈活性,分支預測精度有改進;另外整數、浮點單元、Neon以及存儲性能都有提升。
后續的A35實際更多的著眼于效率,它在性能方面定位于A7同檔,整體微架構與A53也很相似——前端有一些變化,在取指單元上做了重新設計,取指帶寬對能效做了權衡,指令隊列更小;Neon/浮點管線在面積效率上有變化。
全志方面為我們提供了A53相較A35的性能提升數據,除了每個周期整數乘法與浮點單精度與雙精度FLOPS性能,還有一些基準測試。這個數據也基本符合Arm早前官方給出的,基于不同場景A35性能大約是A53的80%左右。具體到R329芯片,相比R328“提供1.58倍整數算力,1.98倍浮點算力”——后者采用的是雙核A7(1.2GHz),所以這個程度的提升也在預期中。
DSP與AI專核
從通用處理器選擇A53就能看出R329的定位,不過在IP選擇上更能凸顯高算力的應該還在于DSP與AI專核。前文就已經提到通用處理器部分跑的是操作系統、應用、網絡連接等;DSP負責信號處理算法、音效;還有AI專核,即NPU專門用于本地ASR(自動語音識別)、NLP(自然語言識別)和TTS(Textto Speech)——都是在本地執行的,也就是我們常說的邊緣計算。
R329的DSP部分是兩個HIFI 4核心——這是CadenceTensilica HiFi DSP系列IP中的一個,在家族定位中也屬于偏向高性能的DSP,在手機、車載、數字電視之類的產品上就有相對廣泛的應用生態。HIFI 4實則本身就支持多通道基于對象的音頻、數字助手前端處理和基于神經網絡的ASR,雖然我們知道全志選擇了將其中的部分特性交給NPU去完成。
從全志發言人了解到這兩個HIFI 4核的其中一個可用作“音頻前處理,如降噪、回音消除、喚醒詞識別”;一個則可用于“音頻后處理,實現音頻解碼、音效增強、錄音等”;配合片上的SRAM可實現“低功耗小模型雙麥降噪算法與小模型深度學習喚醒詞”。從這個描述可見R329的DSP也有典型的輕度AI計算屬性。雙核DSP的設計在全志的其他R系列產品中也相當少見,這種設計本身也是為了針對部分音頻應用場景提供專門的計算單元,獲得更好的能效比,與低功耗相關。有關低功耗的部分還將在后文提及。
不過似乎在全志看來,僅通用處理器+DSP(以及片上SRAM)的設計,在實現更高算力方面仍然不夠,所以R329還選配了一個專門的AI專用處理器:周易AIPU。周易AIPU是Arm中國研發的AI處理器IP。加AI專核在行業的同檔競品中似乎還是比較罕見的。
Arm中國此前有提到過AIPU相比DSP的優勢,加上現在更多的AI專核也有考慮支持可編程性的問題,以適應不同算法。Arm中國能夠利用自身優勢來構建AI軟件生態,而DSP雖然也能做AI處理,但不同架構間始終沒有形成規模生態,對軟件開發而言并沒有那么友好。另外當然也就是AI專核擁有一套AI和神經網絡優化的指令集,在算力和效率上,運行一些專門的負載任務時也會更出色。
Arm中國2018年11月發布的“周易”平臺,主要包括兩部分,一是AIPU,二是Tengine框架。AIPU最大的特點就是擁有一套AI和神經網絡優化指令集,實現包括張量指令、實現定制硬件加速單元的特定AI指令,以及AI計算的標量指令等,另外也支持用戶自定義硬件實現。
支持包括TensorFlow等各種通用框架也是當代AI處理器的標配了,Arm中國的資料提到AIPU“支持用戶一鍵式加載算法”,并且通過高效、靈活的張量處理單元(tensor execution cell)實現編程靈活性。
有關AIPU比較具體的效率,全志也提供了一份算力與功耗對比的數據,如上圖所示:這個程度的效率當然并不令人意外,畢竟AIPU是AI專核。不過在性能上相較600MHz的HIFI 4有25 倍的優勢仍然能夠表現出當代開發AI專用處理器的價值和趨勢。需要注意的是,這里的對比限于單核性能與功耗。
據了解,全志R329是第一款公開發布的采用周易AIPU的芯片,得到了Arm中國的大力支持,說明雙方對未來NPU在智能音箱及人工智能其它領域的應用是非常看重的。所以也比較容易想見R329在面對競品時有著算力上的更大優勢。
至于周易平臺除了AIPU之外的Tengine框架,它實際并不依賴于AIPU,應該算是整個Arm AI生態的組成部分。它能夠對現有Arm架構的芯片算力做提取,所以Tengine也支持Arm CPU、Mali GPU以及第三方AI單元,為AI應用開發提供一個抽象的運行時接口。全志針對R329自己也有為開發者提供全套軟件工具鏈,很大程度應該也是在為周易生態添磚加瓦。
在更具體的應用上,全志表示:“ASR、NLP、TTS等技術對專用AI處理器提出了迫切需求;傳統算法也逐漸被AI算法替代,國內外均有發布,用深度學習做端到端的算法,相對于傳統降噪、回聲消除和關鍵詞識別算法,效果更優,具有更高的識別率。”
所以全志也告訴我們,在R329用上DSP+NPU+2MBSRAM時,讓大模型雙麥降噪算法跑在DSP上,大模型深度學習喚醒詞跑在NPU上,能夠實現低功耗特性。這應該是權衡算力與功耗之后,一種相對合理的搭配方式。
高算力下的功耗
DSP+NPU的搭配,本身就是為了提供更到位的運算效率,理論上自然能夠在達成相同算力的情況下達成明顯更低的功耗,前文Cortex-A7、HIFI 4 DSP以及AIPU的對比就提到專用核心不只是算力上的顯著領先,還在于相同算力下的AI計算單元功耗僅有通用處理器的幾十分之一。
不過在實現低功耗的問題上,R329集成在片上的2MB SRAM也是相當重要的組成部分。這種在片上集成較大容量SRAM的設定,在全志以往的R系列產品及同檔競品中也并不多見——某些競品也有片上SRAM,但同檔的配置通常在256KB這樣的水平上。
較小的SRAM本身是無法運行低功耗降噪算法+喚醒模型的,還是需要搭配更慢的DDR。在 SRAM的配置下,算法模型大部分算力可以放到SRAM中運行。所以全志表示,R329的待機功耗為(1)內置硬件VAD(語音活動檢測),做聲音檢測亦能實現30mW以下的待機;(2)DSP+RAM,實現小模型雙麥降噪算法、小模型深度學習喚醒詞,則為50mW待機功耗;(3)DSP+NPU+ SRAM,讓大模型雙麥降噪算法跑在DSP上,大規模深度學習喚醒詞跑在NPU上,實現60mW待機功耗。所以R329本身適用于做帶電池的方案。
最后,相關I/O部分實則也是值得一提的。R329集成了2路音頻DAC,可以直接外掛模擬功放實現立體聲,1.1聲道輸出,通過I2S則可以實現5.1/7.1聲道的音頻輸出;集成多路音頻ADC——相比競品有更強的音頻接口擴展性,也就能夠提供多麥拾音方案。
未來我們再觀察全志R329的市場表現,大致可以窺見智能語音解決方案的這種高算力是否會成為智能家居市場的趨勢。在全志看來,這個答案還是比較肯定的。全志在接受我們采訪時,就算力需求在時代變遷中的變化舉了個例子:
“比如剛開始通過MP3音頻格式實現multiroom,客戶對于這個功能很驚喜,但隨著客戶逐步習慣智能語音交互這一基本功能后,就提出智能音箱的音質也要跟傳統音箱對標,音頻的傳輸格式就從MP3大幅提升到了AAC,再疊加multiroom,這個功能對應的對AP的算力要求就會出現倍數增加,因為是音頻功能的體驗,還需要確保很高的實時同步性。”
“消費者的要求越來越多,也越來越高,使得對于AP的規格和算力的要求也在同步提升,智能音箱在不斷增加新的功能,比如multiroom、TWS、DLNA、BT MESH、更震撼的音效;客戶逐步不再滿足簡單EQ和DRC的處理,虛擬低音、3D環繞立體聲等高階音效的需求不斷提出。”這大概就是R329出現的契機。
Strategy Analytics發布的研究報告指出,2019年全球智能音箱出貨量總計1.25億臺,比2018年增長了60%。在阿里、百度、小米等推動下,中國智能音箱的出貨量從2018年的2190萬增長到了2019年的5200萬,呈現井噴式增長。
全志科技即是語音主控芯片市場的參與者,智能音箱是該公司重點投入的一個領域。2018年全志在智能音箱的R系列產品已經取得一定突破。2019年全志推出智能語音專用處理器 R328就有不錯的市場成績。R329即是基于R328的升級產品,定位于高算力、低功耗的AI語音專用芯片。
全志發言人表示,2020年全志面向智能音箱會推出多款芯片。除R329之外,目前全志正在規劃下一代無屏智能音箱集成WiFi/BT RTOS系統芯片,面向低成本產品市場迭代需求;而針對帶屏音箱產品迭代,全志即將推出定位高性能的四核A53芯片R818。
評論
查看更多