一個月前,微軟的對話語音識別技術在產業標準 Switchboard 語音識別基準測試中實現了詞錯率(word error rate, 簡稱 WER)低至 6.3% 的突破 ,創造當時該領域內錯誤率最低紀錄。
近期,微軟進一步將詞錯率降低至5.9%,首次達成與專業速記員持平而優于絕大多數人的表現。
微軟的語音識別技術可以一次又一次刷新紀錄,在很大程度上要歸功于 CNTK (Computational Network Toolkit) 這個開源工具。
該系統最初是為了研究語音應用而建立,后來拓展發展成為微軟本地化深度學習系統。CNTK 工具包已于一年前在 GitHub 上開源,目前包括微軟人工智能個人助理小娜和 HoloLens 的語音識別都是基于 CNTK 實現的。CNTK 跟其他開源軟件最大的區別是它能做大規模、分布式的機器學習,同時保證強大的性能。
今天,該工具包進行了更新,新增一個被稱為“認知工具包”的測試版。
針對語音識別的研究可以追溯到上個世紀七十年代 DARPA(Defense Advanced Research Projects Agency,美國國防部先進研究項目局,主要致力于美國國防高新技術的研究、開發和應用)資助的一個相關項目。此后幾十年,越來越多研究機構和大型公司陸續加入其中。
“這次突破是過去二十多年語音識別技術不斷積累的結果,”微軟主管語言及對話研究組的研究員 Geoffrey Zweig 稱。
現在微軟達到的 5.9% 的詞錯率是什么概念?
在行業標準 Switchboard 語音識別任務測試中,人類對照組(由專業速記員組成)將對話語音轉錄成文字,目前有記錄的最低詞錯率就是 5.9%,這就意味著微軟的語音識別系統的語音識別能力已經高于世界上絕大多數人而與人類專業高手持平,創造了一項新的世界紀錄。
此次語音識別的里程碑式突破將對消費者和商業產品產生深遠影響,因為語音識別技術能夠顯著增強人們的日常計算體驗。這些產品包括像 XBOX 的娛樂設備、像微軟小娜(Cortana)的生產力工具以及能實現實時語音到文本轉錄的個人人工智能助手。
微軟團隊的詞錯率雖然實現了與人類專業速記員持平的 5.9%,但這并不代表計算機就能完美識別出每一個單詞。如果哪天計算機能完美識別“藍瘦”、“香菇”,那語音識別技術又將達到一個新的高度。
評論
查看更多