“AI語音芯片大致分為云端計算語音識別和端側計算語音識別兩種。在早期由于算力限制,端側沒有專用芯片可以解決算力和功耗成本均衡的問題,所以大部分的語音識別功能需要從端側上傳數據到云端完成推斷,再將決策返回端側。但久而久之,人們發現云端語音存在一些弊端,只有在端側實現語音智能計算,才最符合人類日常交流的形態去使用AI語音,同時擁有完整、自主的設備使用權和控制權……
作者 劉于葦轉載自電子工程專輯隨著5G、AIoT等技術的快速發展與應用融合,人工智能(AI)產業及相關業務越來越受政府和產業界的關注與支持,在國家的“十四五”規劃中,人工智能技術已被列為前沿科技領域的“最高優先級”,宏觀環境不斷向好發展。
AI技術中,語音識別、自然語義理解(NLP)、機器學習是人機交互技術的基礎,居于重要地位。語音識別、NLP兩項均與語音交互密切關聯,而語音識別又是在行業中落地最早的AI技術。2010年前后,以神經網絡為代表的AI技術大大提升智能語音識別效果后,各個領域的應用開始了積極嘗試,如今已逐漸走向成熟。
從具體分類來看,AI語音芯片大致分為云端計算語音識別和端側計算語音識別兩種。在早期由于算力限制,端側沒有專用芯片可以解決算力和功耗成本均衡的問題,所以大部分的語音識別功能需要從端側上傳數據到云端完成推斷,再將決策返回端側。
但久而久之,人們發現云端語音存在一些弊端,例如需要穩定的網絡連接,否則無法做到穩定的實時響應;數據上傳云端,用戶有隱私安全的顧慮;需要服務器等各種運維費用,導致整套方案成本居高不下,并直接傳導給消費者……
全球人工智能芯片分類地圖及代表公司
鑒于此,以啟英泰倫為代表的企業,開始研究如何通過專用的AI語音芯片,將語音智能計算在終端實現。這種方式既保障語音功能應用的優點,又解決了云端語音的缺點,讓終端用戶能以最符合人類日常交流的形態去使用AI語音,同時擁有完整、自主的設備使用權和控制權。
01離線方案才是語音識別的最終歸宿?
“多年來,AI語音技術的發展經歷了很多艱與辛,坎與痛?!?成都啟英泰倫科技有限公司創始人,首席執行官何云鵬在接受《電子工程專輯》等媒體采訪時,總結了之前AI語音方案普遍面對的三大難題——首先是用戶個性化,不同用戶擁有不同的口音與方言,表達方式也是豐富多彩,這給語音識別和語義理解帶來了難度;其次是客戶的高要求,對機器而言需要用人甚至超過人的識別標準來要求,同時還要滿足不斷降低成本的預期;最后是AI語音應用場景的復雜化,在家居、推廣和生產環境中,存在各種不同的噪聲干擾,給準確識別帶來了難度。
成都啟英泰倫科技有限公司創始人,首席執行官何云鵬
2016年,啟英泰倫發布國內首款離線語音識別芯片Cl1006后,如今已經過3個大代和3個半代的產品迭代,總計6次。其中半代是在正數代基礎上腦神經網絡處理器核(BNPU)平臺不變,通過功能精簡達到 30%方案成本的下降。第二代產品是2019年的Cl110X系列,第三代產品則分為兩大系列,分別是Cl130X系列智能語音主控(MCU)芯片;Cl230X系列智能語音AIoT芯片。
之所以選擇做離線語音識別芯片,何云鵬給出的理由中有一條是讓“億萬用戶用得起、用得好”。他表示,在語音芯片發展的早期,限于半導體工藝水平和算法先進性等原因,終端用戶對于增加一顆獨立語音芯片是持觀望態度的,因為額外的數據處理器、用于存儲算法的Flash都會增加BoM成本。但隨著摩爾定律的演進,經過6-7年的芯片制造工藝的提升及算法迭代后,獨立AI語音芯片不但性能指數級提升,成本也以每年30-50%的速度下降?!澳壳拔覀兊碾x線語音整體方案成本,最初1代為 50-90 元(CI1006),1.5 代為 30-40 元(CI1102),2 代芯片系列15-25元,來到2.5 代則降低到10-15元之間。高度集成實現單芯片即方案,不再會給端側帶來成本的負擔?!?/p>
反觀云端語音方案,其成本增加是持續存在的。由于需要每時每刻上傳數據、接收指令,網絡傳輸成本一直存在;云端服務器建設的周期長、費用大,通常需要借助第三方平臺,帶來運營成本每年也會攤銷到設備端,如果不續費甚至可能造成語音功能停止——這一點用過智能音箱的人深有體會,當斷網時,智能音箱立馬變成“智障”音箱。
“這些額外的費用,在采用端側語音識別方案后都可以省去。” 何云鵬認為,“語音識別是一種對實時反饋要求極高的技術,相關運算應該放在線下、端側來做,而云端則更應該專注交易、內容服務、非實時大數據運算等協同操作。這才是一個合理的分工?!?/p>
02第三代語音芯片的AI算法優勢
為了更好地滿足用戶需求,啟英泰倫在算法攻關和芯片研發兩個方面同時發力,BNPU是啟英泰倫的核心技術優勢之一,版本也在不斷升級,從BNPU 1.0、BNPU 2.0,一直到今天推出的BNPU 3.0版本。
何云鵬介紹道,第一代BNPU實現的是端側語音識別,是行業首款集成神經網絡處理器的語音AI芯片,也是離線語音產業應用興起的標志。二代系列芯片CI1102/CI1103及CI1122芯片則集成了第二代BNPU,不僅實現了離線語音識別功能,還能實現離線聲紋識別和命令詞自學習等個性化的功能。
前幾代產品在噪音環境下識別度方面已經很不錯,正常安靜家居環境下識別度達到98%以上,對于 65dB 左右中強環境噪聲下也能有較好的識別效果。如今,搭載BNPU 3.0的第三代芯片又將把整個語音識別應用推向新的高點實現了更高算力、高集成度和性能新高的“三個新高”。
算法方面,啟英泰倫三代語音芯片支持幾乎全部信號處理和識別技術。包括單麥自適應降噪/降混響/回聲消除/DOA(語音定向)/波束形成/盲源分離/語音活動檢測等傳統信號技術。BNPU 3.0 除了繼承了 2 代的語音/聲紋識別之外,還支持了基于深度學習的降噪(也稱深度降噪)、人聲分離(也稱深度分離)、命令詞自學習 2.0 版本以及行業首次突破的離線 NLP 技術。
深度降噪技術能在信噪比-5dB 到 -10dB 的環境噪聲下將人聲提取出來,實現良好識別。演示視頻中,油煙機噪聲高達80dB 時,對于70多dB的人聲依然可以良好識別。
在深度人聲分離技術演示中,電視噪聲和干擾人聲離語音設備更近,也就是此時目標人聲分貝數為 0 甚至負的條件下,通過芯片的深度人聲分離技術,語音模塊仍然可以良好識別到。
命令詞自學習 2.0 版本支持離線命令自學習,在 60 到 65 分貝噪聲條件下依然具備良好的識別表現,非常接近大數據訓練模型的效果。用戶即便帶著方言口音,簡單訓練2-3次設備也能學會,支持50多條詞條數。
端側 NLP 技術包含了語音識別和意圖識別,該意圖模型采用聯合規則和統計訓練的模型來實現端側語音識別+語義理解的功能。這使得設備徹底不需要依賴云端,一樣可以具備上下文關聯、多輪對話、意圖理解等云端 NLP 的功能。
此外BNPU 3.0還能運行語義識別模型、端側離線TS等語音相關的算法。對于市面上一些競品號稱也能做到端側離線NLP,何云鵬表示他們有做過對比,發現“(競品)還是要用比較傳統的命令詞,用自然對話就無法識別了。而我們的芯片能達到自然語言識別?!?/p>
03硬核技術及相關參數
前面 5 顆芯片的迭代,不僅是上述算法性能功能不斷提升,集成度也在不斷增加。2 代系列相比1代,集成進了 Audio CODEC、Flash 等單元,以及雙麥陣增強處理能力。據悉,啟英泰倫的第三代語音芯片采用40nm工藝制造,主打性能的同時,相對于二代功耗降低了一半僅為10mA左右(低功耗模式做語音運算時)。
芯片算力方面,三代 13 系列芯片內置 BNPU 3.0 和支持 DSP 指令擴展的 RISC CPU 兩大內核,主頻高達 240MHz,并具有 640KB 系統 SRAM。而 2 代主頻是 160MHz,內置 BNPU2.0,512KB SRAM。
芯片集成度方面,三代 13 系列芯片集成了 Audio Codec 模擬 MIC 接口、數字PDM麥克DMIC 接口、通用 ADC及 MCU 常見的串口/PWM/GPIO 等。還進一步集成了 4 線 NOR Flash、3 路 LDO PMU和高精度RC 振蕩器等。
成本方面,芯片即方案,除了MIC、喇叭外,板級僅需要阻容和PA芯片,多數情況下連晶振都不需要加。極大簡化BoM,但可以通過外設接口擴展各種功能。封裝上,前兩代采用QFN封裝,第三代為適應不同應用及貼片要求,推出了SOP16/SSOP24/QFN40等系列封裝。
23 系列 AIOT 單芯片(CI2305 和 CI2306)在語音功能和性能上與13系列相同,主要增加了 Wi-Fi 和 BLE,形成三合一單芯片。其中CI2305 支持離線語音+IOT,而 CI2306還支持將語音上傳,實現離線語音+在線語音+IOT 功能。
“與一些 Wi-Fi芯片公司推出的用純軟件方式在芯片上跑語音算法低成本方案相比,我們的 23 系列 AIOT 單芯片能夠實現優異的語音處理和識別表現,以及優良的 IOT 連接傳輸性能。”何云鵬說到。
值得注意的是,啟英泰倫的一二代產品都是采用Arm內核,但在2.5代Cl1122這款產品中采用了RISC-V處理器。對于選擇RISC-V還是Arm內核,何云鵬認為兩者各有優點,會在不同產品線上選擇不同的內核?!癆rm生態成熟,而RISC-V的開源特性,帶來了眾人拾柴火焰高的效果。此外RISC-V指令精簡,接口靈活,可以定制加速單元,方便加速設計?!?/p>
第三代產品的主控能力進一步加強,擁有更豐富的IO接口,兼容3.3V和5V;主頻更高,SRAM更大,算力可更充分提供給主控應用。按照啟英泰倫的說法,這顆語音芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的 MCU 主控芯片。
那為什么通用MCU不適合做AI語音?何云鵬解釋到,傳統通用MCU嵌入語音算法,還需要滿足語音識別的大Flash存儲、CPU頻率、專用語音通道和Audio Codec等硬件要求,一般只能用于玩具級的機器學習(Tiny ML),無法用于專業設備。而啟英泰倫第三代語音芯片提供1/2/4MB三種Flash版本供選擇,更大的Flash,可以存放更大的神經網絡模型,這是做離線NLP自然語言交互必須的;而不需要NLP的應用,采用1MB版本的就夠了。
“可能剛開始做語音的同學無法理解,但要把語音真正做好的同時把成本降下來,就要對芯片和算法極致打磨?!焙卧迄i補充道,“通用MCU要想把語音做到接近我們的水平,在處理器頻率和存儲上要增加大量成本,具體取決于算法的好壞。”
04哪些終端設備最需要語音交互技術?
據IDC的統計數據,2021年中國智能家居設備市場出貨量已超2.2億臺,2022年中國智能家居設備市場出貨量則將突破2.6億臺,同比增長為17.1%。
由于智能語音技術和NLP技術不斷加速發展,智能語音的市場空間不斷打開。目前,智能語音已在2C消費級的智能家居、智慧生活、智慧辦公、智能駕駛;2B企業級的智慧醫療、智能客服等多個領域實現場景應用。其中家電行業的滲透率已達到130多個品類,某些品類的滲透率超過50%。
從目前終端客戶的接受程度看,已經從之前大多采用AI語音beside方案(后裝,一般是在電源插座上加裝聲控),轉變為了inside方案(前裝)。據何云鵬介紹,這一點在智能家居、智慧辦公的房地產客戶和家電設備客戶上最明顯,“因為用啟英泰倫的語音AIOT芯片,已經可以直接替換原來的通用MCU。至于后裝則是通過的加裝一個帶語音識別功能的插座來控制設備,僅需搭載一顆語音主控芯片,就能把存量的家電設備通過USB Dongle、2.4G紅外等形式加上語音控制功能?!?/p>
最積極采用語音取代現有操作方式的,首先是使用者和設備之間有一定距離、傳統上用遙控器的設備,例如空調、照明設備等;其次是雖然人和設備距離較近,但是雙手無法解放的,用語音控制效果也較好,例如油煙機、車載操控;最后是功能多、菜單多、組合鍵多的設備,消費者覺得太復雜,這時候直接用語音表達需求更方便,例如微波爐檔位選擇、洗衣機洗衣方式的選擇等。
何云鵬預計,接下來所有家電大廠將布局產品機器人化、智慧化服務。例如空調將不只是調節溫度,還會實時監測空氣溫濕度、氣味、負氧離子等,并提供山林、海邊、鄉間清晨等虛擬環境模擬。而這個過程中的很多服務需要讓機器理解人,就會用到NLP,讓家電成為服務的入口。
“這種服務是時刻發生,需要實時響應的。以往的云上識別方案帶來的傳輸帶寬成本只有抹掉,才能讓這種服務入口落地?!彼f到,“另外一些非實時的功能放在云上,例如固件升級、交易等,實現端云融合?!?/p>
05結語
據悉,啟英泰倫目前已經有5000多客戶,10000多平臺開發者,和10萬多在校學員。整個離線語音及語音AIOT領域應用呈現快速崛起之勢。目前已經達到2000萬年裝機量,正快速向上億年裝機量發展。
啟英泰倫的終極目標是打造跨設備、跨時空,用戶專屬,終身守護的守護精靈。何云鵬將這一目標劃分為三個階段:
第一步,讓人機交互更自然,更具普適性;
第二步,通過更多的數據,讓機器更理解人、更主動地為人類服務;
最終目標,打造專屬的守護精靈,它將是用戶全方位的生活管家、健康安全衛士、百科知識導師和給予心靈陪伴的知己朋友。
如今整個行業正處于終端語音交互應用走向普及、多感知機器人技術芯片和技術研發積累的階段。每個階段都需要埋頭苦干,需要多次迭代和至少 5 到 10 年的堅持。為了更快地實現自身目標,幫助下游客戶實現敏捷開發、快速落地的目標,啟英泰倫正加強生態建設,提升語音AI應用開發平臺,該平臺支持10000用戶同時開發,即時生成NLP模型,提供更自然的語音交互能力。
“在過去20多年的工作時間里,很多人不理解我回國做芯片的選擇,他們認為一個人的力太薄弱,不能改變什么。但我的妻子總是無怨無悔的支持我所有的選擇和追求,最近她對我說,你當初的選擇是對的,我們國家芯片差點被卡了脖子?!焙卧迄i感慨道, “我覺得,一個人的力量是微薄的,但是為追求那些站在民族和人類立場的美好愿望,多一個人的力量也是好的。一個人這么想,就一定會有更多人這么想,最終匯聚成浩浩蕩蕩一往無前的力量!今天,已經有千千萬萬的人投入到了民族的集成電路事業中,中國集成電路崛起之路已經勢不可擋。”
-
芯片
+關注
關注
456文章
51075瀏覽量
425873 -
nlp
+關注
關注
1文章
489瀏覽量
22066
發布評論請先 登錄
相關推薦
評論