11月15日訊,在第五屆Kaldi技術交流會上,Kaldi之父Daniel Povey博士與來自北京各大互聯網公司、知名高校的開發者們深入交流下一代Kaldi社區未來的發展。
Daniel Povey博士目前擔任小米集團語音首席科學家,由他開發和維護Kaldi 集成了多種語音識別模型,是業界語音識別框架基石。加入小米一年,Daniel Povey設計并開發出了新一代Kaldi。新一代Kaldi分成三個部分,包括核心算法部分,訓練數據準備部分、示例腳本集合部分。
據介紹,其中,Lhotse(訓練數據準備部分)將替代以前Kaldi中所有數據準備相關的工作,操作各種音頻和文本的元數據。Lhotse除了Kaldi本身,也適用于其他應用。而且Lhotse純Python代碼,方便易用。
Icefall(示例腳本集合部分)將代替Kaldi中的示例腳本集合,并獨立成為一個單獨的子項目。之所以要把示例腳本集合與核心算法分開,是考慮到示例腳本可能會非常龐大,且經常變動。
新一代Kaldi的核心部分叫“k2”。k2可以讓開發者很容易在PyTorch/TensorFlow中實現各種語音識別相關算法,比如CTC、LF—MMI、RNN—T、2nd—pass語言模型等,消除以往語音識別算法中訓練跟解碼不匹配的問題。同時,通過k2可以實現(置信度逐漸提高的)多輪解碼過程。
Daniel Povey博士透露,k2核心代碼已完成。約41000行代碼(主要是C++),本周剛發布0.1版本。他在本次線下活動中強調:“今天有太多人依托Kaldi在做自己的事業,有很多人為Kaldi社區一直在做貢獻,Kaldi會始終堅持開源。”
小米集團副總裁、技術委員會主席崔寶秋指出,擁抱開源是小米工程文化的重要組成部分。崔寶秋在接受藍鯨TMT記者專訪時表示,Kaldi的一些語音技術與代碼已經在一些小米的產品線使用,未來其語音技術將在小米的手機、音箱、電視以及更多智能家居與智能穿戴設備中使用,小米非常重視語音技術。
責任編輯:PSY
-
算法
+關注
關注
23文章
4607瀏覽量
92842 -
核心技術
+關注
關注
4文章
625瀏覽量
19599 -
開源
+關注
關注
3文章
3322瀏覽量
42473 -
小米
+關注
關注
70文章
14349瀏覽量
144092
發布評論請先 登錄
相關推薦
評論