語音識別下一步發展如何？哪些技術可以使用？哪些價值可以發掘？

2020科大訊飛全球1024開發者節今天正式拉開帷幕，伴隨著AI的發展，我們得以更全面和細致地洞察人們的生活習慣，并為人們提供更加智能和便捷的服務。在人工智能的應用場景中，最重要的一個就是語音交互。針對這一點，科大訊飛AI研究院常務副院長劉聰做了細致的講解，讓我們對當前語音交互技術有了更清晰和深入的了解。

我們知道語音識別是訊飛的傳統強項，從早期的呼叫、導航到2010年發布的訊飛超腦語音云和輸入法，從而開啟了中文語音輸入的新時代。通過深度學習等框架持續的迭代效果，我們又陸續推出了方言識別、遠場交互、多麥克風陣列等相關的功能。2015年，我們又將人機交互的場景拓展到人人對話的場景。為此我們總結出三點，我們將語音聽寫從簡單場景的可用做到了通用。這種場景的好用，語音轉寫從原來的不好用，做到了像演講、會議、庭審等很多復雜場景的好用。像語音控制、命令喚醒，我們也是從簡單場景的可用，做到了復雜場景的好用。

隨著現在語音識別在更多場景的應用，語音識別的下一步發展方向是什么？又有哪些技術可以從實驗室場景走向成熟，還有哪些價值得我們發掘？

首先，我們認為語音識別需要持續的去挑戰更加復雜的場景，去實現從語音到聲音，從單純的文字內容識別到音頻的全場景解析。例如現在我們在泛娛樂當中，直播、短視頻，我們可以看到這里面有很多的更加復雜的聲音場景需要我們去解決。例如在直播的過程中，背景可能是復雜多樣的，可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經常出現多人混疊的對話，這些對我們的語音識別都會有很大的影響。除此之外，這些視頻當中還會包含像笑聲、掌聲、各種音效等聲音，所以我們需要提出一些新的方案。當前的框架已經難以去解決這樣一個復雜的問題。

針對這樣一個場景，我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面，要有針對性的將我們感興趣的聲音提取出來。這里我們也是展示了全場景音頻解析的整體方案。首先我們是通過多分辨率特征提取的聲音檢測方案，再結合我們的序列訓練，對一些相似聲音進行精細建模，可以實現將笑聲、音效等非語音的聲音和語音內容分離。針對包含語音的有效內容，我們也使用了語音降噪和分離的方案，綜合利用我們的聲音、文本、說話等信息，以及在有條件的情況下，還可以使用多模態的唇形、視線以及麥克風陣列的空間位置等信息來進行聯合建模。以上這些才能保證我們能夠持續保持語音合成以及語音識別技術的領先。

與此同時，我們也和合作伙伴一起，不斷提升在直播等復雜場景上的語音識別效果，并且準確率從60%提到了85%。未來我們相關的技術也會在我們的開放平臺——訊飛聽見等上線。未來，我們會做得更好，請大家繼續期待。
責任編輯：PSY

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

智能

智能

+關注

關注
8

文章
1712

瀏覽量
117581
AI

AI

+關注

關注
87

文章
31096

瀏覽量
269417
語音識別技術

語音識別技術

+關注

關注
0

文章
55

瀏覽量
12846

語音識別技術在醫療領域的應用

語音識別技術在醫療領域的應用已經越來越廣泛，為醫療服務帶來了諸多便利和效率提升。以下是對語音識別技術

發表于 11-26 09:35 ?393次閱讀

語音識別技術的應用與發展

語音識別技術的發展可以追溯到20世紀50年代，但直到近年來，隨著計算能力的提升和機器學習技術的進

發表于 11-26 09:20 ?540次閱讀

ASR語音識別技術應用

語音識別技術應用的分析：一、ASR語音識別技術原理

發表于 11-18 15:12 ?795次閱讀

如何限制容器可以使用的CPU資源

默認情況下容器可以使用的主機 CPU 資源是不受限制的。和內存資源的使用一樣，如果不對容器可以使用的 CPU 資源進行限制，一旦發生容器內程序異常使用 CPU 的情況，很可能把整個主機

發表于 10-24 17:04 ?260次閱讀

節能回饋式負載技術創新與發展

。盡管節能回饋式負載技術在創新和發展上取得了顯著的成果，但是其仍然面臨著一些挑戰。例如，如何提高其能量回饋的效率，如何降低其成本，如何提高其穩定性等。這些問題需要我們進一步的研究和探

發表于 10-17 09:46

PPTP(L2TP)如何登陸IPSec VPN網關？

設置PC上的PPTP VPNXP系統連接方式打開網絡連接點擊“創建一個新的連接” 點擊下一步選擇“連接到我的工作場所的網絡” 選擇虛擬專用網絡連接點擊下一步: 公司名為自定義點擊下一

發表于 07-26 07:09

stm32cubemx配置了stm32h743的USB host，運行到第一個if下一步直接就跳到HardFault_Handler了，為什么？

個if下一步直接就跳到 HardFault_Handler了，不知道為什么 USBH_StatusTypeDefUSBH_CDC_Transmit(USBH_HandleTypeDef *phost

發表于 05-20 07:36

STM32F207擦除片內FLASH，退出DEBUG無法執行下一步程序是怎么回事？

由于項目需求，需要擦除片內指定空間，然后從SPI_FLASH中加載程序運行問題如下:: 在DEBUG模式下，執行擦除程序后，則退出DEBUG，無法執行下一步程序擦除代碼如下: 1

發表于 04-23 07:46

車內語音識別數據在智能駕駛中的價值與應用

車內語音識別數據在智能駕駛中的價值與應用一、引言隨著智能駕駛技術的不斷發展，車內

發表于 02-19 11:47 ?615次閱讀

車內語音識別技術在智能駕駛中的應用與前景

一、引言隨著智能駕駛技術的快速發展，車內語音識別技術逐漸成為智能駕駛領域的研究熱點。

發表于 02-19 11:46 ?846次閱讀

車內語音識別技術：智能駕駛的核心要素

一、引言隨著科技的飛速發展，智能駕駛已經成為未來出行的趨勢。作為智能駕駛的關鍵技術之一，車內語音識別

發表于 02-19 11:42 ?803次閱讀

車內語音識別技術：智能駕駛的革新之源

一、引言隨著科技的飛速發展，智能駕駛已經成為現代交通領域的熱門話題。作為智能駕駛的關鍵技術之一，車內語音

發表于 02-19 10:10 ?474次閱讀

Prevayl的下一步是什么

Prevayl的下一步是什么2022年，Prevayl推出了SmartWear——這是世界上第一款采用臨床級心電圖增強的高性能服裝，其準確性無與倫比。生物識別先驅還創建了一個功能齊全的

發表于 02-17 18:10 ?544次閱讀

語音數據集：智能駕駛中車內語音識別技術的基石

一、引言在智能駕駛中，車內語音識別技術發揮著越來越重要的作用。語音數據集作為這一技術的基石，其

發表于 01-31 16:07 ?568次閱讀

車內語音識別數據在智能駕駛中的應用與挑戰

詳細介紹車內語音識別數據在智能駕駛中的應用、面臨的挑戰以及未來的發展趨勢。二、車內語音識別數據在智能駕駛中的應用

發表于 01-26 18:14 ?1130次閱讀

精選推薦
更多

文章

資料

帖子

PCB盜銅工藝：技術與藝術的完美融合

上海為昕科技有限公司
18分鐘前

34 閱讀

承載AI的云南花卉，正在盛開

腦極體
2小時前

134 閱讀

MPS磁性位置傳感器MA600在機器人中的應用

MPS芯源系統
3小時前

210 閱讀

采用 LLC 拓撲結構設計隔離式柵極驅動器電源,低成本 LLC 轉換器的設計指南

eeDesigner
4小時前

219 閱讀

三菱電機超小型全SiC DIPIPM解析

三菱電機半導體
4小時前

222 閱讀

電子工程師DIY：六足機器昆蟲制作全過程

Kelly Yang
2.53 MB

5積分

1195下載

電路板維修教程之如何進行常用電子元器件的檢測詳細技巧大全說明

鄭俊翔
0.03 MB

免費

113下載

witness開源PHP監控擴展

凌流浪
0.04 MB

免費

0下載

DongTai-agent-java洞態IAST的Java應用探針

北冥有熊
1.01 MB

2積分

1下載

定制Jung/Ikea zigbee遙控器

賈飛小
0.03 MB

2積分

3下載

SMT貼片空焊異常

jf_61640453
18小時前

157 閱讀

HarmonyOS NEXT 原生應用開發：社交通訊發現界面實現

李洋水蛟龍
18小時前

136 閱讀

用于課題的無線轉速霍爾傳感器，新人應該從哪里開始學習

jf_48213409
18小時前

172 閱讀

labview怎樣實現成績圖錄入程序圖，還要顯示信息

jf_70720794
18小時前

308 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-初識設備樹之設備樹組成和結構

jf_13411809
18小時前

263 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

語音識別下一步發展如何？哪些技術可以使用？哪些價值可以發掘？

評論

語音識別技術在醫療領域的應用

語音識別技術的應用與發展

ASR語音識別技術應用

如何限制容器可以使用的CPU資源

節能回饋式負載技術創新與發展

PPTP(L2TP)如何登陸IPSec VPN網關？

stm32cubemx配置了stm32h743的USB host，運行到第一個if下一步直接就跳到HardFault_Handler了，為什么？

STM32F207擦除片內FLASH，退出DEBUG無法執行下一步程序是怎么回事？

車內語音識別數據在智能駕駛中的價值與應用

車內語音識別技術在智能駕駛中的應用與前景

車內語音識別技術：智能駕駛的核心要素

車內語音識別技術：智能駕駛的革新之源

Prevayl的下一步是什么

語音數據集：智能駕駛中車內語音識別技術的基石

車內語音識別數據在智能駕駛中的應用與挑戰

搜索歷史

語音識別下一步發展如何？哪些技術可以使用？哪些價值可以發掘？

評論

語音識別下一步發展如何？哪些技術可以使用？哪些價值可以發掘？