其中,整理會議記錄絕對是最讓人無奈的加班原因之一。1個小時的講話內容整理起來卻能耗費3-4小時的時間,然后很多會議都是3小時起步的……
不要悲傷,不要哭泣,因為訊飛開放平臺已經上線了訊飛聽見的明星產品——實時語音轉寫技術啦!
1讓信息錄入即時高效
信息爆發時代,有效率有質量地整理視頻、音頻、文字等信息變得尤為重要。會議,培訓,采訪等場景均需要形成完整的文字記錄材料,音視頻文件也需要配有字幕。
訊飛實時語音轉寫技術通過WebSocket協議,建立應用與語音轉寫核心引擎的長連接,將音頻流數據實時轉換成文字流數據結果。實現即時對語音內容的識別,展現對應文字內容。
同時,訊飛實時語音轉寫技術的識別引擎采用擁有科大訊飛自主研發全新推出的深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional Neural Network)識別框架。使用大量的卷積層直接對整句語音信號進行建模,更好的表達了語音的長時相關性,比學術界和工業界最好的雙向遞歸神經網絡(BRNN,Bi-directional Recurrent Neural Network)的語音識別系統識別率提升了15%以上。同時結合訊飛的HPC平臺和多GPU并行加速技術,訓練速度也優于傳統的雙向LSTM CTC系統。
借助訊飛聽見實時語音轉寫技術,不僅能極大減輕開頭所說的整理會議內容的耗時耗力問題,還能應用在更多場景中:
學術講座:在嘈雜的現場,讓演講者的話可視化;
課程培訓:重點內容隨講隨記,幫助反應理解;
電視直播:生成字幕,使得聽障人士可以了解畫面內容;
客服電話:記錄客戶話語,幫助服務人員更好應答。
2訊飛實時語音轉寫技術優勢
在實時生成文字內容的同時,訊飛實時語音轉寫技術還能滿足你的四個愿望:
我希望有更高的準確率
實時語音轉寫基于深度全序列卷積神經網絡框架,語音識別技術全球領先,在安靜環境,普通話標準下轉寫準確率可達95%以上。
我希望轉寫結果表達清晰
訊飛實時語音轉寫技術具有上下文糾錯功能。在一句話結束之后,針對上下文進行語義理解,將轉寫過程中的語音識別結果進行智能糾錯,確保識別的準確性。
我希望時間和數字等轉寫準確
訊飛實時語音轉寫可以進行文法格式智能轉換: 對結果中出現數字、日期、時間等內容,將它們格式化成規整的文本,例如“五點三十”引擎會識別規整為“5:30”。
我希望文本斷句和加標點更輕松
運用超大規模的語言模型,讓訊飛實時語音轉寫技術可以智能預測語境,提供智能斷句和標點符號的預測。
訊飛聽見APP實時語音轉寫
3訊飛實時語音轉寫技術案例
通過實時語音轉寫技術,訊飛聽見為博鰲亞洲論壇、世界制造者大會、全球INS大會等大型會議、論壇的活動內容的記錄、整理提供了極大的支持。
訊飛聽見支持“博鰲論壇21世紀海上絲綢之路島嶼經濟論壇”
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100838 -
語音識別
+關注
關注
38文章
1742瀏覽量
112691
發布評論請先 登錄
相關推薦
評論