在本文中,我們描述了Google最新發布的一個用于幫助訓練和評估關鍵詞識別系統的口語詞匯組成的音頻數據集。討論了為什么這個任務是一個有趣的挑戰,以及為什么它需要一個專門的,與用于對完整句子進行自動語音識別的傳統數據集所不同的數據集。
我們提出了一種對該任務進行可重復、可比較的精確度指標度量方法。描述了數據是如何被收集和驗證的,它所包含的內容,以及其以前的版本和屬性。通過報告在該數據集上訓練的模型的基線結果而得出了結論。
一般說來,語音識別研究傳統上需要大學或企業等大型機構的資源來進行。在這些機構工作的人通常可以通過與語言數據聯盟(Linguistic Data Consortium)等組織達成協議,從而自由地訪問并使用學術數據集或者專有的商業數據。
隨著語音技術的成熟,想要訓練和評估識別模型的人數已經不僅只是這些傳統組織群體,但是數據集的可用性并沒有被擴展。正如ImageNet和計算機視覺領域中類似的集合所顯示的那樣,拓寬對數據集的訪問可以鼓勵跨組織的協作,并使得在不同方法之間能夠進行同類比較,幫助整個領域向前發展。
語音命令數據集(Speech Commands dataset)是為一類簡單的語音識別任務構建標準訓練和評估數據集的嘗試。它的主要目標是提供一種方法來構建和測試小模型,這些模型可以從背景噪音或不相關語音中以盡可能少的誤報(false positives),從一組10個或更少的目標單詞中檢測出單個單詞的使用時間,這個任務通常被稱為關鍵詞識別。
為了覆蓋到更廣泛的研究人員和開發人員,該數據集已經在“知識共享”(Creative Commons)4.0許可下被發布了出來。這使該數據集能夠很容易地被納入到教程和其他腳本中,可以被下載和使用,而不需要任何用戶干預(例如,在網站上注冊或向管理員發送電子郵件尋求許可)。該許可證在商業環境中也是眾所周知的,因此通常在需要批準的情況下可以由法律團隊快速處理。
圖1:數據集中每個單詞的記錄數量
▌相關研究
Mozilla的通用語音(Common Voice)數據集擁有2萬名不同的人的超過500個小時的語音,并且可以在“知識共享”Zero許可(類似于公共域)下使用。這個許可證使得構建它非常容易。它由句子對齊,并且是由志愿者通過網絡應用程序閱讀請求的短語而創建的。
LibriSpeech是一個1000小時的閱讀英語演講集,在“知識共享”4.0許可下發布,并使用受到廣泛支持的開源FLAC編碼器進行存儲。它的標簽只在句子級別上對齊,因此缺少詞級的對齊信息。這使得它比起關鍵詞識別更適合全自動語音識別。
TIDIGITS包含由300位不同說話者錄制的25,000位數字序列,由付費的參與者在安靜的房間錄制。該數據集只能在來自語言數據聯盟的商業許可下使用,并且以NIST SPHERE文件格式存儲,這種格式被證實難以使用現代軟件來解碼。我們關于關鍵詞識別的初始實驗是使用該數據集進行的。
CHiME-5擁有在人們家中錄制的50個小時的語音記錄,存儲為16 KHz的 WAV文件,并可以在有限的許可下使用。它在句子級別對齊。
許多語音接口依賴關鍵詞識別來啟動交互。例如,你可能會說”Hey Google"或"Hey Siri”開始查詢或命令你的手機。一旦設備知道你想要進行交互,就可以將音頻發送到Web服務以運行一個僅受商業考慮限制的模型,因為它可以在資源由云服務提供商控制的服務器上運行。雖然交互開始的初始檢測想要作為基于云的服務運行是不切實際的,因為它需要始終從所有設備通過網絡發送音頻數據。這樣維護成本會非常高,并且會增加該技術的隱私風險。
相反,大多數語音接口在手機或其他設備上本地運行識別模塊。這種連續監聽來自麥克風的音頻輸入,并不是通過互聯網將數據發送到服務器,而是他們運行監聽所需觸發短語的模型。一旦聽到可能的觸發信號后,就開始將音頻傳輸到Web服務。由于本地模型在不受Web服務提供商控制的硬件上運行,因此設備模型必須尊重硬資源限制。其中最明顯的是,通常移動處理器所具有的總計算能力比大多數服務器要低得多,因此為了實現交互式響應,近似實時運行,設備模型的計算所需的計算量必須少于其等效云計算量。
更巧妙的是,移動設備的電池續航時間有限,而且持續運行的任何設備都需要非常節能,否則用戶會發現設備的耗電速度太快。這一考慮不適用于插電式家用設備,但這些設備在可以消散多少熱量上存在一定的限制,從而限制了本地模型可用的能源數量,并受到諸如能源之星(EnergyStar)等計劃的鼓勵,盡可能減少其整體用電量。最后需要考慮的是,用戶期望設備能夠做出快速響應,而網絡延遲可能會因環境而變化很大,因此,即使服務器的全部響應延遲,一些命令已收到的初始確認對于獲得良好體驗也很重要。
這些約束意味著,關鍵詞識別的任務與一旦發現交互后在服務器上執行的語音識別是完全不同的:
關鍵詞識別模型必須更小,所涉及的計算量更少。
它們需要以非常節能的方式運行。
它們的大部分輸入是沉默或背景噪聲,而不是言語,所以誤報必須盡量減少。
大部分語音輸入與語音接口無關,因此模型不應觸發任意語音。
識別的重要單位是單個單詞或短語,而不是整個句子。
這些差異意味著設備內關鍵詞識別和一般語音識別模型之間的訓練和評估過程是完全不同的。有一些有發展前景的數據集可以支持通用的語音任務,例如Mozilla的通用語音,但它們不容易適用于關鍵詞識別。
此語音命令數據集旨在滿足構建和測試設備上模型的特殊需求,使模型作者能夠使用與其他模型相媲美的度量標準來演示其架構的精確度,并為團隊提供一種簡單的方法通過對相同數據進行訓練來重現基準模型。希望這將加速進展和協作,并提高可用模型的整體質量。
第二個重要受眾是硬件制造商。通過使用密切反映產品需求的公開可用任務,芯片供應商可以以潛在購買者易于比較的方式展示其產品的精確度和能源使用情況。這種增加的透明度應該會導致硬件更好地滿足產品要求。這些模型還應提供硬件工程師可用來優化其芯片的清晰規范,并可能提出模型更改,以便提供更高效的實現。機器學習和硬件之間的這種協同設計可以是一個良性循環,在各個領域之間增加有用信息的流動,而這對雙方都有幫助。
圖2:使用不同訓練數據的Top-One精確度評估結果
該數據集的版本1于2017年8月3日發布,包含1,881位演講者的64,727條發言。使用V1訓練數據對來自TensorFlow教程(基于卷積神經網絡的小尺寸關鍵詞識別)中的默認卷積模型進行訓練,當對V1的測試集進行評估時,TopOne得分為85.4%。使用本文中所記錄的數據集版本2對相同模型進行訓練,產生了一個模型,該模型在從V2數據中提取的訓練集中Top-One得分為88.2%。在V2數據上進行訓練,但是針對V1測試集進行評估的模型得到89.7%的Top-One得分,這表明V2訓練數據在精確度上比V1大大提高。圖2列出了完整結果。
總而言之,該語音命令數據集對于訓練和評估多種模型來說是非常有用的,而第二個版本顯示了相較于原始數據的等效測試數據的改進結果。
-
語音技術
+關注
關注
2文章
226瀏覽量
21291 -
識別系統
+關注
關注
1文章
138瀏覽量
18818 -
數據集
+關注
關注
4文章
1208瀏覽量
24727
原文標題:Google發布最新「語音命令」數據集,可有效提高關鍵詞識別系統性能
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論