在擁擠的語音 AI 芯片賽道,他們擁有自研的全棧式技術能力,先將目標瞄準智能家居市場,通過語音芯片打開人機交互的入口,再鋪向更多的應用場景。
正在播放電視劇的電視機旁,放著一個電路板,即內含探境科技的語音芯片——Voitist 音旋風 611、外圍電路、麥克風,這是一個用于智能家居語音控制的原型系統。
當人對著用于智能家居語音操控的原型系統說話時,該「系統」就會進行回應,它可以根據人的指令做出反饋,比如當你說出「最大風量」時,系統就會復述一句,將抽油煙機調整為最大風量。
在夾雜多聲源的語音環境下,離線不聯網的語音控制系統仍能接聽人發出的指令,并作出反饋。
探境科技副總裁李同治告訴機器之心,家電廠商可以直接使用這個電路板用語音交互來控制家電,比如代替抽油煙機原來需要按按鍵的操作,或者是將板卡與家電廠商的控制模塊,通過串口協議直接相連,不做其它改變,即可升級為一套語音識別控制的智能家電。
由 Marvell 中國芯片研發部門前高管魯勇創立的 AI 芯片公司探境科技,想以此切入廣闊的智能家居市場,通過語音芯片打開人機交互的入口。目前為止,搭載語音芯片的探境語音識別方案已實現百萬級產品出貨。今年營收已經破千萬元。
1 實現百萬級出貨量
2017 年,擔任 Marvell 中國芯片研發部門高管魯勇看到了 AI 芯片熱潮背后,存在著龐大的市場需求和落地場景,便創立了探境科技。
探境科技創始人魯勇
兩年時間,探境科技迅速實現芯片量產出貨,且快速實現商業化落地。
2018 年,探境科技初步完成 SFA 架構雛形,實現語音芯片 Voitist 音旋風 611 的流片;2019 年第一季度 611 一次性流片成功,開始合作首個 alpha 客戶,;2019 年中實現量產供貨。
2 年時間,魯勇透露,搭載語音芯片的探境語音識別方案已實現百萬級產品出貨。未來探境還會將語音產品進行二次升級,推出更多在線離線一體化方案。
截至目前,探境已經合作約 30 家機構,合作廠商包括美的、海爾等智能家居制造廠商。
探境科技在全球有 6 個研發中心,分別是北京、上海、深圳、合肥、杭州、美國硅谷。公司總員工接近 200 人,其中 150 人是研發人員,其骨干研發人員平均工作經驗約 15 年,其中有 50 人擁有碩士、博士學歷。
2 三大「自研降噪」法寶
AI 降噪技術+HONN 神經網絡+端到端雙麥
在智能家居細分門類中,智能燈具、抽油煙機、空氣凈化器、垃圾桶、窗簾等家居設備,均可以通過搭載語音芯片的智能家居語音控制系統實現。
據 Strategy Analytics 發布的研究報告顯示,擁有語音控制的智能家居設備 (不包括智能音箱) 的銷量將從 2018 年的 15.4 萬臺躍升至 2025 年的 3230 萬臺。
在火熱的智能家居語音市場,語音芯片在語音交互中扮演著一個關鍵的角色。因其在語音識別、智能交互等方面的優勢,可以為智能家居提供新的控制入口。
但是目前語音控制技術層面仍面臨諸多挑戰。高噪聲、遠場識別環境造成低信噪比情況。信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數。一般將信噪比低于 15dB 的稱為噪聲環境。信噪比越低,識別難度越大。
非穩態噪聲,即干擾人們休息 、學習和工作的聲音,也會對降噪算法產生影響。另外播放電視劇、音樂造成的多聲源也會影響語音識別。
在語音識別的研發過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環節。
語音識別研發流程
為了順利完成語音識別,探境科技提出,首先在降噪處理方面下功夫,通過自研的 AI 降噪算法,對非穩態的突發性噪聲進行過濾。其次,通過高計算強度神經網絡(HONN)進行語音識別。在這一環節,神經網絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。
在傳統的語音識別算法里,通常采用 DNN 的方法。DNN 即全連接神經網絡,最樸素的神經網絡,網絡參數最多,計算量大。高強度神經網絡的參數量不大,僅為 DNN 的五分之一,用更小的參數量和存儲,即可實現更好的效果。
相比較于全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。
探境將其計算機視覺中的一些經驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經網絡,即 HONN。
結果顯示,HONN 在遠場和高噪聲等環境下的識別率明顯優于 DNN。
基于 AI 降噪技術與 HONN 神經網絡還不足以解決語音識別問題。為了提升超強噪音場景下的語音識別率,探境科技開發了基于 FCSP 的端到端 AI 雙麥算法。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數子空間投影算法的簡稱。
通過這個算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的 AI 算法來處理,不再使用傳統的數字信號處理方法。
李同治表示,在模型訓練期間,采取「注意力增強」的學習方法,能夠靈敏地檢測到喚醒詞和命令詞。「類似于在一個嘈雜的環境里面,如果有人喊自己的名字,一下子就能反應過來。」他比喻道。
探境科技的邏輯是,通過 AI 語音算法+HONN 神經網絡模型來提升識別率,再通過 FCSP「端到端」的雙麥處理算法簡化識別流程,降低最終語音識別的錯誤率。
將這三個「法寶」集結一體,目的是攻克語音識別難題。結合這三大條件,探境科技發布離在線一體的語音識別解決方案,即 Voitist 音旋風 612。
Voitist 音旋風 612 的特點是降低傳統語音設備對多麥的信號處理,相應節省硬件成本;在高噪聲環境下識別率高;有效算力更高。
3 自研全棧式「硬底盤」
與其他公司不同,探境科技更強調自研,在全棧式技術上,提供芯片、軟件、算法、系統一站式整體方案。
存儲優先的芯片架構 SFA(Storage First Architecture) 則成為探境科技搭建「全棧」式服務的基礎。先用 SFA 解決算力的存儲問題,再借助 AI 降噪算法,通過全棧式的解決方案「殺進」市場。
魯勇表示,SFA 是針對 AI 芯片存儲墻問題而設置的芯片架構。所謂存儲墻問題指的是,與數據和存儲相關的帶寬瓶頸、功耗瓶頸問題。同行業其他 AI 芯片設計公司也意識到,AI 芯片的本質不是要解決計算問題,而是要解決數據問題。
「所有運行的深度學習算法和 AI 芯片都面臨一個問題,并不是要做卷積運算的乘法或加法,這并不是最難解決的問題,難點是在于存儲帶寬要求很大,存儲功耗很高。」他指出,大量數據的重復使用,以及數據在存儲器里的位置、相對關系、讀取的性能,會影響到算法運行的性能。
目前常見的芯片類型 CPU、GPU、FPGA、ASIC 都可以運行深度學習算法,都可統稱為 AI 芯片。CPU、GPU 都屬于馮·諾依曼結構,指令譯碼執行、共享內存。用馮·諾依曼結構的處理器處理深度學習算法時,提供算力雖簡單,但當運算部件達到一定的能力,存儲器則無法跟上運算部件消耗的數據。
因此,SFA 架構以存儲來驅動計算,推翻馮·諾依曼架構,設計不同于之前類 CPU 的計算架構。
實測數據表明,在同等條件下,SFA 可帶來超高的能效比,數據訪問可降低 10~100 倍,存儲子系統功耗下降 10 倍;28nm 工藝測試下,系統能效超過 4T OPS/W,計算資源利用率超過 80%,DDR 帶寬占用率降低 5 倍。
基于 SFA 架構,探境科技開辟語音和圖像兩條產品線。
在探境科技的語音芯片產品矩陣中,除了支持 AI 雙麥的 Voitist 音旋風 612 之外,還包括在離線一體的 Voitist 音旋風 621、以及語音芯片的旗艦產品——可支持本地 NLP 的音旋風 7 系列。
探境科技語音產品矩陣
2019 年 8 月,探境自主研發的通用型語音芯片「音旋風」611,能夠支持 200 條的命令詞,能夠做到 99% 的喚醒率和極低的誤喚醒率,已切入智能家居領域,涉及智能空調、空氣凈化器等多個品類。
Voitist 音旋風 611
另外,探境科技搭載的 SFA 架構的圖像芯片 Imagist851 已流片成功,圖像芯片的核心指標 IPS/W 高達 800,瞄準工業視覺、新零售、安防、輔助駕駛等市場。
魯勇稱,SFA 可實現真正的通用型 AI 芯片架構,可支持任意神經網絡。
「不僅適配于終端,也適配于云端、推理、訓練,可組成不同類型的產品形態。」據魯勇透露,探境的云端 AI 芯片也已提上日程,將于 2020 年推出。
他向機器之心表示,現階段會以智能家居為主基點,而后再逐漸加碼至其他場景。
談及未來的發展規劃,他表示,探境科技定位于一家語音、圖像相結合的 AI 芯片公司,基于語音算法、圖像算法,既有面向家具、玩具、智能穿戴等場景的語音系列解決方案,也有面向安防、新零售、輔助駕駛等圖像解決方案。
目前探境科技選擇做終端 AI 芯片,相對云端芯片投入成本較低,離手機、智能音箱這類產品的設計和生產較近。在擁擠的語音 AI 芯片賽道,基于自研的全棧式技術能力,先解決存儲再解決算力,探境走出一條不同尋常的路。
-
人機交互
+關注
關注
12文章
1210瀏覽量
55441 -
智能家居
+關注
關注
1928文章
9581瀏覽量
185596 -
AI芯片
+關注
關注
17文章
1894瀏覽量
35105
發布評論請先 登錄
相關推薦
評論