電子發(fā)燒友網(wǎng)報道(文/李彎彎)離線語音識別是指不需要依賴網(wǎng)絡,在本地設備實現(xiàn)語音識別的過程,通常以端側(cè)AI語音芯片作為載體來進行數(shù)據(jù)的采集、計算和決策。
離線語音識別技術(shù)在諸多領(lǐng)域都具有廣泛的應用前景,如用戶可以通過語音控制智能家居設備,實現(xiàn)燈光、空調(diào)、電視等的自動化操作;在醫(yī)療設備領(lǐng)域,離線語音識別技術(shù)可以用于控制輪椅、病床等設備,為行動不便的患者提供便利;在車載系統(tǒng)中,離線語音識別技術(shù)可以實時識別駕駛者的語音指令,確保駕駛安全。
但是語音芯片的存儲空間有限,通過傳統(tǒng)的語音算法技術(shù),最多也只能存儲數(shù)百條詞條,導致用戶只能使用固定的詞條來控制設備,大大降低了用戶與設備之間的語音交互體驗。
離線自然說,解決當前語音識別痛點
近日,在啟英泰倫最新語音方案發(fā)布及技術(shù)交流會上,該公司技術(shù)支持總監(jiān)孫振奎介紹了啟英泰倫推出的一種輕量級NLP技術(shù)——離線自然說。
它的實現(xiàn)原理是,通過語義協(xié)議和語音識別構(gòu)圖結(jié)合,在進行語音識別同時對指令包含的意圖和槽位進行解析(NLU),實現(xiàn)設備功能語音指令的理解和泛化。并且支持同時生成控制指令和反饋播報,完成識別、理解、播報的閉環(huán)。通過矩陣分解、權(quán)重共享等技術(shù),保持低資源提高建模能力,支持說法突破萬種。
據(jù)孫振奎介紹,離線自然說,可以很好地解決當前語音識別的諸多痛點,如需要聯(lián)網(wǎng)、不會說、記不住詞、反應慢、詞條太少、普通話不標準、經(jīng)常掉線等。離線自然說的價值在于,用戶無需記憶固定詞條,只需知道功能和喚醒詞,即可語音控制設備,真正做到了自然、方便的人機交互。
具體來看,用戶如果通過傳統(tǒng)離線語音交互來打開空調(diào),他只能說:“打開空調(diào)”。而如果通過離線自然說來打開空調(diào),他可以說:“打開空調(diào)”、“幫我開空調(diào)”、“空調(diào)打開吧”、“開一下空調(diào)”、“我要開空調(diào)”、“空調(diào)開啟”、“啟動空調(diào)”、“吹空調(diào)”……
啟英泰倫認為,相對于手機APP/小程序、紅外遙控器、觸摸按鍵等傳統(tǒng)控制方式而言,自然化的語音交互更便捷、更高效、更人性化。
目前,啟英泰倫離線自然說方案,已經(jīng)在在風扇、吸頂燈、空調(diào)、茶吧機、油煙機、空調(diào)伴侶、窗簾電機、晾曬機、風扇燈等上完成應用,在風扇、取暖器上的應用已經(jīng)非常成熟。另外,離線自然說方案在洗衣機、馬桶、按摩椅、浴霸、微波爐等上的應用也在開發(fā)中。
不斷迭代的語音芯片及全鏈條語音算法技術(shù)
啟英泰倫是一家集語音芯片、語音算法、應用方案、開發(fā)平臺于一體的語音解決方案供應商。其芯片產(chǎn)品已歷經(jīng)三次大迭代,四次小迭代,共計推出15款型號的智能語音芯片,涵蓋AI語音芯片,AI語音Wi-Fi芯片,AI語音BLE芯片,形成系列化的芯片產(chǎn)品布局。
公司芯片產(chǎn)品現(xiàn)已廣泛應用于智慧家居家電、智慧養(yǎng)老、智慧穿戴、智慧醫(yī)療、智慧酒店、智慧安防、智慧教育、智慧汽車和機器人等領(lǐng)域,服務客戶超過5000家。
從發(fā)展歷程來看,2016年,啟英泰倫首度提出腦神經(jīng)網(wǎng)絡處理器(BNPU),發(fā)布全球首款AI語音芯片CI1006;2017年AI語音芯片進入家電巨頭美的供應體系,支持英文語音識別;2018年發(fā)布1.5代AI語音芯片,性能不變,成本降低30%;2019年發(fā)布高性價比2代AI語音芯片(搭載BNPU V2),上線語音AI開發(fā)平臺;2020年發(fā)布2.5代AI語音芯片,成本更低,支持日文等小語種語音識別;
2021年離線NLP算法取得突破,深度人聲分離算法取得突破;2022年量產(chǎn)3代AI語音芯片、AI語音Wi-Fi Combo芯片(搭載BNPU V3),算法算力登上新臺階;2023年AIOT方案成熟,推出AI語音BLE芯片Cl231,預推出語音MCU芯片Cl132。
啟英泰倫第三代CI13系列是一款極具性價比的離線AI語音芯片,包含CI1301、CI1302、CI1303、CI1306、CI1311、CI1312六款型號,據(jù)稱其年裝機達數(shù)千萬臺。
CI13系列基于啟英泰倫自研BNPU 3.0,系統(tǒng)主頻最高可達240MHz,內(nèi)置高達640KByte SRAM,集成PMU電源管理單元和RC振蕩器,集成雙通道高性能低功耗Audio Codec和多路UART、IIC、IIS、PWM、GPIO、PDM等外圍控制接口。芯片僅需少量電阻電容等外圍器件就可以實現(xiàn)各類智能語音產(chǎn)品硬件方案,性價比極高。
CI13系列具有強大的自然語言交互能力,70dB噪聲下,可以做到85%識別率及90%喚醒率(降噪模式),命令詞數(shù)支持10001+詞條,支持離線自然說。
在語音算法上,啟英泰倫擁有完全自主知識產(chǎn)權(quán)的語音交互技術(shù)鏈條,包括語音識別、語音增強、深度降噪、回聲消除、低功耗喚醒、本地語義理解、聲紋識別、本地命令詞自學習等語音算法。
此次交流會上,孫振奎還介紹了啟英泰倫的多個語音算法。如,聲紋識別,基于特定詞條的聲紋識別,可以通過注冊聲紋來區(qū)分講話人,從而提供定制化的服務,如場景1:注冊成人聲紋,防止小孩不當操作導致危險;場景2:不同的人說“打開空調(diào)”,自動設置為不同人喜歡的模式,溫度,檔位等。
男女性別識別,基于聲音特征,區(qū)分男女性別,進行不同的定制化功能開發(fā),如識別到性別后,進行不同聲音的播放;部分產(chǎn)品對性別有要求的,可以進行性別識別并進行個性化展示:例如智能馬桶的洗潔方式。
特定聲音檢測,如鼾聲識別:可用于智能床墊,智能枕頭;嬰兒哭聲識別:嬰兒監(jiān)護產(chǎn)品,嬰兒搖搖床等。
寫在最后
用過語音控制產(chǎn)品的朋友們可能都知道,目前市面上大多數(shù)產(chǎn)品都需要精準通過喚醒詞控制,然而如果一個設備一段時間沒使用,或者其中一些喚醒詞長時間沒用過,當突然需要使用的時候,會忘記這個詞,而無法順利控制設備。而且對于一些功能較復雜的設備,需要記大量的喚醒詞,稍有偏差都可能難以控制。而離線自然說算法技術(shù),則打破了傳統(tǒng)離線語音識別的這種局限性,只需要說出大意,設備就能聽懂,互動更為高效。
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
智能家居
+關(guān)注
關(guān)注
1928文章
9553瀏覽量
184936 -
語音控制
+關(guān)注
關(guān)注
5文章
482瀏覽量
28248 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22033
發(fā)布評論請先 登錄
相關(guān)推薦
評論