很多時候,機器學習和人工智能像是在遠程、復雜的超級計算機上運行的高端技術,以解決棘手的問題。然而最近,我有幸與一群了不起的工程師和科學家合作,共同開展了一個將人工智能融入日常生活的重大項目。
從2019年開始,在ML Commons的支持下成立了一個工作組,旨在通過創建大規模、多樣化和公開許可的語音數據集來增強并普及語音識別技術。迄今為止,該項目已經產生了兩個頂級數據集,涵蓋了全球數十個語種。該小組的成員來自英特爾、哈佛大學、阿里巴巴、甲骨文、Landing AI、密歇根大學、谷歌、百度等。
介紹這些口語數據集的兩份白皮書——《人的語言》和《多語種口語語料庫》,已于12月7日舉辦的NeurIPS大會上發布。其中,《人的語言》主要針對“自動語音識別”任務;《多語種口語語料庫》則包含“關鍵詞識別”。這兩個項目的數據集都貢獻了大量豐富的音頻數據,且每個數據集在同類中都擁有最大的可用體量。
這將會對人們的日常生活產生哪些影響?通過對這些數據集的訓練,計算機或其他設備可以“聽到”口頭語言并采取適當的行動,例如響應用戶的查詢或生成自動轉錄文本。在當今多元化、國際化、多語言的工作環境中,準確轉錄和翻譯的能力愈發重要。
這兩個項目都運用了“多樣化語音”,這意味著它們更好地展現自然環境音,如背景噪音、非正式語言模式、錄音設備混音以及其他聲學環境等。這與諸如有聲讀物之類的高度受控的內容不同,后者產生的聲音更加“純凈”。然而,在實際應用中,多樣化語音訓練有助于提高識別的準確性。
“人的語言”項目內含數萬小時的對話音頻。如今,它是世界上最大的、可免費下載的、用于學術和商用的英語語音識別數據集之一。
“多語種口語語料庫”是一個音頻語音數據集,不僅擁有超過30萬個關鍵字的數十種語言,能夠通過智能設備訪問,還涵蓋了50多億用戶的日常對話,有助于推動全球范圍內受眾語音應用的研發。
開發這些數據集的研究人員來自于一個跨越多個大洲的國際小組。多年來,我們每周通過電話會議會面,每個人都為項目貢獻特定專業知識。
這兩個數據集都將被研究人員和開發者廣泛使用,而且它們包括商用在內的授權許可條款都相對較為寬松。適當開放授權的重要性被無意識地低估了,導致許多有應用前景的數據集在可用性和適用規模方面受到限制。
這兩個數據集將由MLCommons進行長期維護。MLCommons是一個由全球技術提供商、學者和研究人員組成的聯盟,而英特爾是聯盟的創始成員之一。
在語言的人工智能領域,這個項目是一個飛躍,同時它也為未來開啟了諸多可能性。未來,我期待與同事們繼續合作,將其推向新的階段。
原文標題:傾聽世界:人工智能的突破
文章出處:【微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
英特爾
+關注
關注
61文章
9978瀏覽量
171883 -
計算機
+關注
關注
19文章
7511瀏覽量
88100 -
人工智能
+關注
關注
1792文章
47354瀏覽量
238812
原文標題:傾聽世界:人工智能的突破
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論