鈦媒體是國內首家TMT公司人社群媒體,最有鈦度的一人一媒體平臺,集信息交流融合、IT技術信息、新媒體于一身的媒體平臺。鈦坦白,作為鈦媒體旗下的微信公開課,匯集行業大牛鈦客,分享行業干貨,發布權威動態,值得關注。
人工智能已有60年的發展歷史,在近兩年,隨著大數據、云計算、深度學習的進一步發展,迎來了又一次發展高潮。越來越多相關公司涌現,越來越多的資本涌入,越來越多聲音說,人工智能是下一個風口,是未來的方向,鈦媒體在成功舉辦26期共86位鈦客的分享后,“AI已來”系列來了!
數據顯示,我國超過70%的人工智能公司主攻圖像或語音識別這兩個分類。在人工智能覆蓋的眾多領域里,語音技術無疑是最接地氣也是落地最快的。鈦坦白“AI已來”系列分享從“語音/語義識別”開始,邀請了思必馳上海交大聯合實驗室副主任/上海交通大學計算機科學與工程系助理教授錢彥旻老師,擔任本次鈦坦白公開課講師,分享《深度學習下的語音識別現狀及有效工具》。
以下為錢彥旻老師分享實錄:
報告內容分為四個部分,分別為語音交互發展現狀、語音識別技術、語音識別技術有效的開源工具、思必馳上海交大實驗室研究成果。
最近三個月,在語音識別領域,國際上包括工業界和研究界的幾個大的新聞,一個是2016年10月,美國微軟雷德蒙研究院在電話語音識別的標準庫Switchboard上報道達到5.9%的錯誤率。在這個庫上,人類的能力大概是5.9%,我們可以看到,機器的性能已經和人類基本達到了持平。第二個大的新聞是今年9月,CHIME4國際多通道語音分離和識別大賽,最好的系統性能報道達到了將近2%的一個錯誤率。第三個新聞是關于中文的,近期百度、搜狗、訊飛開始連續三場的發布會,展示語音交互系統,識別性能達到了97%。
那么,語音識別的性能已經如此之高,我們還有對它進行研究的價值嗎?
那么我們不妨來思考一下,語音識別問題真的解決了嗎?
將以上的三個系統背后的技術應用到我們真實的一些產品中,比如Apple的Siri,Google的Google Now,微軟的Cortana助手,以及亞馬遜的echo,他的性能如何?事實上,這里所列的很多技術都不能很好的工作。這是因為一些相關技術都是針對特定的任務以及在特定的環境下進行的。我們了解到,即使是一個研究比較成熟的英文命令詞識別系統,給它只要添加一點點的麻煩,比如蘇格蘭口音的英語,它的性能就會急速的下降。在這些非配合式的語音交互方面,語音識別的性能遠遠沒有滿足我們的要求,語音識別的路還很長。
語音識別是對語音內容進行提取的一把金鑰匙,它的研究可以追溯到半個世紀以前。在本世紀初,基于語音識別的一些產品也開始問世,最有代表性的是2000年左右,美軍用于伊拉克戰場的語音到語音翻譯機。以及2011年蘋果Apple在Iphone4s上推出了Siri語音助手,之后包括微軟、谷歌、亞馬遜,以及國內的百度、訊飛、思必馳等等也推出了各自基于交互語音的一些產品。國內外的研究機構很多,包括國外的像幾個大公司,微軟、谷歌,IBM,亞馬遜,以及國內的百度、訊飛、思必馳等等,學術界包括劍橋、MIT、JHU,以及國內的清華大學,中國科大、上海交大等等。
語音識別歷來是人工智能和機器學習中的經典難題之一,他的困難主要可以歸結為三個不確定性,也就是說話人、環境和設備。說話人方面,我們不同的人、不同口音、不同方言、不同的說話方式、不同的情感應用。環境方面,如各類噪聲、汽車喇叭聲、其他的人聲、會場的回聲等等。設備方面,我們可以用手持麥克風、領夾麥克風、耳戴麥克風、近場遠場的麥克風等等。各個方面的不確定性都是很大的,真實應用場景下,往往是這三個因素疊加在一起,變得更加的復雜,所以如何設計一套魯棒的性能好的語音識別系統,來很好的處理好這些不確定性,也是非常具有挑戰性。
統計云識別的這個問題,如果從數學上來定義,可以歸結為一個概率公式,給定觀測到的語音,得到最大的詞序列,通過公式展開,這個概率可以歸為兩個概率,對應到我們語音識別中的對應的聲學模型和語言模型。這個概率可進一步分解成四個概率模型,分別是特征提取、聲學模型、字典模型、語言模型,在這四個模塊下,通過一個解碼的過程得到最終的語音識別結果。基于四個概率模型建模,即可在一個龐大的搜索網絡上進行搜索和解碼,實際應用中,搜索網絡十分復雜,在這四個概率的引導下,我們通過最優化的方法將最后的識別結果找出來。
傳統的語音識別經過前端的信號處理、特征提取、聲學模型、語言模型等模塊的優化,來實現系統識別,那么自深度學習以來,語音識別還需要哪些工作呢?
基于深度學習的第一代語音識別系統,將傳統的特征特區模塊和聲學建模模塊完成了DNN部分,將傳統的聲學模型中基于淺層的高斯混合模型替換成了深度神經網絡模型,通過深度神經網絡模型的多層的非線性建模能力直接預測狀態之間的分布函數。同時它通過自身的深度模型的特征引擎能力,可以從比較原始的語音信號中提取中比較具有鑒別能力的特征。語音識別是深度學習方法第一個成功的任務。自2011年深度學習方法提出來以后,包括微軟、谷歌,IBM,在各個任務上,在語音識別方面,包括電話信道、廣播信道、谷歌的移動信道等,基于深度學習方法新的語音識別策略都得到大幅的性能提升。
近五年,深度學習方法又得到了進一步的發展。更強大的深度神經網絡被應用于語音識別,包括卷積神經網絡、遞歸神經網絡、長短時記憶模型等。最近幾年的發展是飛速的,識別性能甚至已經達到了幾乎跟人類持平的水平。
放眼國內,中文語音交互技術又發展到怎樣的水平呢?
根據公開發表的文獻可總結幾家目前的語音識別的技術方案,包括百度、科大訊飛、思必馳,基本上代表了行業語音識別研究的最高水平,因為百度有百度深度研究院,訊飛和中國科學技術大學成立聯合實驗室,思必馳和我們上海交大成立了聯合研究實驗室。
百度使用的是CLDNN的模型,科大訊飛采用的是FSMNN模型,而我們思必馳和上海交大采用的是VDCNN極深卷積神經網絡的模型,相比于傳統語音模型僅使用1至2層卷積層,該模型通過堆疊較小的卷積層和池化層,將語音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細的局部刻畫能力和頻率不變性描述,能夠更好地在語音模型的內部實現了聲學自動降噪的能力。
語音識別目前還面臨很多困境,具體表現在:
首先是噪聲魯棒性。噪聲環境下的魯棒語音識別一直是語音識別大規模應用的絆腳石。針對這個困境,思必馳上海交大實驗室推出了相應的策略,包括環境感知的深度模型以及神經網絡的快速自適應方法,它使一般的深度模型可以對環境進行實時的感知和自適應調整,提高實現系統性能。另外,我們將極深卷積神經網絡用于抗噪的語音識別,使系統性能大幅提升。在這個方面,我們在今年在語音處理的權威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上發表了三篇期刊論文,可供查閱。
在語音識別的權威數據庫,噪聲數據庫Aurora4世界最高水平的幾個研究機構的系統性能的對比,劍橋大學在2012年深度學習方法出來以前最好成績是13.4%的錯誤率,2013年微軟發表的12.4%的錯誤率,2014年IBM達到10%的錯誤率,大部分的研究機構最好的識別性能錯別率也在10%左右,2016年上半年,英國愛丁堡大學8.7%的錯誤率,2016年7月,我們發表了一篇論文,達到7.1%的錯誤率。思必馳算法模型的應用使得系統巨大的性能提升,在抗噪語音識別上得到飛速的進展,這個成果在近幾個月得到廣泛的轉載和報道。
第二個難點是多類復雜性。過去語音識別系統的設計主要是針對單一環境、單一場景下進行,如何做多類別復雜場景下的通用的語音識別是非常困難的。
在這個方面,思必馳上海交大實驗室去年參加了由英國BBC公司和EPSRC組辦的國際挑戰賽,其中我們在四個單項上均列世界第一,且每個單項成績均大幅領先第二名,涉及語音識別、說話人分割聚類、標注對齊、時序漸進語音識別等技術,處于行業領域地位。
第三個困境是低數據資源與多語言。目前大部分語音識別的研究和應用,主要是基于一些大語種,比如英語、漢語、法語等,世界上一共有6900多種語言,雖然實現一套基于任何語言的語言識別系統是非常困難。
目前,構建一套多語言低數據資源的語音識別系統是非常關鍵和具有實際價值的。就此,我們在公開相同的數據環境下,搭建了相關系統,我們和美國約翰霍普金斯大學的性能做了對比,我們在相同數據集合上取得了一個更優的策略。
第四個困境是低計算資源。目前大部分的語音識別的一些應用,背后都是基于云端的在線服務,如何在離線的環境下,基于有限的硬件資源做低功耗的離線的實時的連續性識別是非常困難的。
在這個方面,思必馳上海交大實驗室通過用CTC模型去取代隱馬模型,將系統性能在速度上提升了7倍多,同時我們將傳統的基于幀同步的解碼方案替換成音素同步解碼方案,將系統的實時率進一步提升到20倍,相關的方法也已發表在IEEE/ACMTransactions on ASLP的期刊上了。
開源工具以及參考書
第一個是Kaldi語音識別開源軟件。它是由約翰霍普金斯Dan Povey領導的,由九家著名語音機構13人核心工作組歷時兩年開發完成的語音識別開源軟件,自2011年發布以來,下載量已經超過了兩萬多次,合著的論文已被引用一千多次。(錢彥旻老師為該團隊唯一來自亞洲成員)
第二個工具是HTK-Hiddden Markov Model Toolkit。語音識別歷史上第一個開源的工具包,開發者劍橋大學的前副校長Steve Young及劍橋大學智能語音實驗室的主任Phil Woodland教授均為是英國皇家工程院的院士。
第三個工具是CUED-RNNLM。2015年由劍橋開發,對遞歸神經網絡的語言模型進行了更好的支持,可以很好的用GPU進行加速訓練,同時支持快速的訓練和評估的算法和自適應技術。這套開源工具包也被劍橋應用于近期各類比賽,取得較好成績。
目前也有很多比較流行的開源的深度學習工具,比如微軟的CNTK,谷歌的Tensor flow,以及由dmlc維護的mxnet,來自蒙特利爾大學的Theano,來自伯克利的Caffe以及來自紐約大學的Torch等等。
目前微軟的CNTK,也是上海交大和思必馳所使用的一套深度學習的開源軟件。它是由微軟的雷德蒙研究院黃學東博士領導開發的一套計算網絡工具包,可以很好的支持對各種神經網絡,支持各種新奇算法訓練,對比其他開源工具,CNTK無論在單GPU、單機多卡情況下,還是多機多卡的情況下,在速度上都有一個明顯的性能的優勢。
思必馳上海交大實驗室
思必馳是國內為數不多的擁有完整知識產權的語音公司,從縱向上看,它是國內僅有的兩家擁有全面的語音技術的公司之一,從07年劍橋創立至今已經走過了近十年,擁有豐富的技術積淀,在2015年的年初,思必馳也首個提出了認知智能概念層次。從橫向上看,思必馳是目前國內唯一一家只針對智能硬件領域提供語音支持的公司,我們只針對智能車載、家居、機器人三個領域提供解決方案,保證技術的垂直性和適用性,思必馳不做2C的產品,專注為智能硬件企業企業提供純軟的解決方案和軟硬一體化的解決方案。
思必馳是純技術型的人工智能公司,根據客戶的不同需求去提供各種實用且合適的語音方案。如純軟的解決方案,即AIOS對話操作系統;在軟硬一體化的解決方案方面,思必馳推出了國內首款量產的環形6+1遠場麥克風陣列、四麥線性方案,并與君正、慶科合作推出帶語音功能的芯片模組。
目前思必馳的業務合作領域主要專注在智能硬件領域,包括智能車載、智能家居、智能機器人。目前在智能車載中,思必馳是阿里YunOS的唯一戰略合作伙伴,2015年10月率先推出了AIOS for Car對話操作系統,在后端市場上占有率達到60%,智能后視鏡約為70%,HUD領域約為80%,目前后裝市場占有率是第一。同時,思必馳也與小鵬汽車、智車優行等互聯網汽車也簽署了合作。在智能家居領域,思必馳已與阿里、騰訊、聯想、小米、魅族等建立了深度合作關系,剛剛發布的小米智能音箱即內置了思必馳語音方案。智能機器人領域,目前生態尚早,但未來潛力大,思必馳目前打造了大華小樂機器人、360小巴迪、東方網力、金剛蟻小憶機器人、小蘿卜機器人等多個精品案例。
智能語音未來還有很長的路要走,思必馳將致力于打造更實用、更有趣的人機交互體驗,在未來很長一段時間內,這都將是我們堅持不變的理念和方向。
-
語音識別
+關注
關注
38文章
1742瀏覽量
112690 -
智能語音
+關注
關注
10文章
786瀏覽量
48788 -
思必馳
+關注
關注
4文章
285瀏覽量
14291
發布評論請先 登錄
相關推薦
評論