近日,中國領先的一站式醫療健康生態平臺平安好醫生(01833.HK)宣布,平安好醫生客戶端“聲紋登陸系統”在經過多次模型優化和升級迭代后,登陸成功率接近 99%,達行業一流水準。該系統由云知聲提供聲紋技術支持。
聲紋識別(Voiceprint Recognition,VPR)也稱說話人識別,是一種通過聲音判別說話人身份的技術,分為說話人辨識和說話人確認。前者用以判斷某段語音是若干人中的哪一個所說的,即“ N 選一”;后者用以確認某段語音是否是指定的某人所說,是“1對1匹配”問題。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵范圍時可能需要辨認技術,而銀行交易時則需用到確認技術。
作為國內為數不多具備全棧語音技術能力的人工智能公司,云知聲已在聲紋技術領域深耕多年。團隊多位技術骨干曾在美國國家標準技術署(NIST)主辦的說話人識別技術評測中多次屢次斬獲第一名。
早在 2004 年,尚就職于摩托羅拉公司的云知聲創始人黃偉博士便帶領團隊研發出世界上第一款手機聲紋認證系統,搭載該系統的相關產品總計銷量超 2 億臺。
近年來,伴隨深度學習的興起,云知聲在國內率先將這一技術使用到語音識別中,且后續引入到聲紋識別領域,解決了一系列聲紋技術實用難點,并應用到實際產品上。此次,云知聲和平安好醫生聯手打造的平安好醫生客戶端用戶聲紋登錄系統便是其中一項成功案例。
雖然聲紋識別優勢明顯,但要想準確分辨聲音特征卻并非易事。首先,聲紋識別系統性能會受用戶發聲狀態影響,如用戶的身體狀況、情緒等都會影響識別準確度。其次,環境的嘈雜度,以及采集、傳輸音頻的硬件配置,都會在不同程度上對識別系統行成干擾。
為解決上述問題,云知聲聲紋技術團隊進行了一系列技術攻堅與創新:
首先,依托云知聲強大的語音信號前端處理技術,如 VAD、語音降噪等,準確地捕捉到人聲并進行背景噪聲消除。
其次,云知聲將 DNN 引入到傳統聲紋識別 ivector 技術框架中,并融合最新端到端聲紋識別技術,基于云知聲超算平臺和海量聲紋訓練數據,使得模型得以學習到數萬說話人,每人多種發聲的特性,且在云端針對每個用戶采用說話人自適應技術,達到越用越好的效果。
在信道處理上,采用 PLDA 信道補償技術,可將信道影響降到最小。
與此同時,為保障用戶登陸的“安全性”,云知聲為平安好醫生客戶端聲紋登錄系統提供數字串注冊和登錄的“文本弱相關”技術,工程難度更高,安全性更強。與傳統固定口令登錄方式不同,該系統采用隨機數字串登錄方式,即在用戶進行登錄時,系統會隨機下發 8 位隨機數字串,可有效規避錄音攻擊等安全問題。
在同一賬號下,云知聲聲紋識別產品可支持 6 人注冊。在客戶端云知聲提供封裝好的 SDK,支持聲紋注冊、登錄、解綁等接口,供上層調用 API 實現產品邏輯。同時,云知聲還提供成熟的聲紋服務私有化部署方案,基于在金融、客服、快遞等不同行業豐富的私有云部署經驗,可有效保障客戶數據安全。
在移動醫療領域,云知聲與平安好醫生已建立深度合作關系——2017年12 月,雙方合資成立上海澔醫智能科技有限公司,共同探索以智能語音識別等技術為基礎的家庭智慧醫療服務終端建設。
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238245 -
智能語音
+關注
關注
10文章
782瀏覽量
48758 -
聲紋識別
+關注
關注
3文章
140瀏覽量
21519
發布評論請先 登錄
相關推薦
評論