色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

語音識別系統(tǒng)最新實(shí)踐

大小:0.5 MB 人氣: 2017-09-30 需要積分:1

  語音作為最自然便捷的交流方式,一直是人機(jī)通信和交互最重要的研究領(lǐng)域之一。自動語音識別(Automatic Speech Recognition,ASR)是實(shí)現(xiàn)人機(jī)交互尤為關(guān)鍵的技術(shù),其所要解決的問題是讓計(jì)算機(jī)能夠“聽懂”人類的語音,將語音中傳化為文本。自動語音識別技術(shù)經(jīng)過幾十年的發(fā)展已經(jīng)取得了顯著的成效。近年來,越來越多的語音識別智能軟件和應(yīng)用走人了大家的日常生活,蘋果的Siri、微軟的小娜、科大訊飛的語音輸入法和靈犀等都是其中的典型代表。本文將以科大訊飛的視角介紹語音識別的發(fā)展歷程和最新技術(shù)進(jìn)展。

  我們首先簡要回顧語音識別的發(fā)展歷史,然后介紹目前主流的基于深度神經(jīng)網(wǎng)路的語音識別系統(tǒng),最后重點(diǎn)介紹科大訊飛語音識別系統(tǒng)的最新進(jìn)展。

  1

  語音識別關(guān)鍵突破回顧

  語音識別的研究起源于上世紀(jì)50年代,當(dāng)時的主要研究者是貝爾實(shí)驗(yàn)室。早期的語音識別系統(tǒng)是簡單的孤立詞識別系統(tǒng),例如1952年貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了十個英文數(shù)字識別系統(tǒng)。從上世紀(jì)60年代開始,CMU的Reddy開始進(jìn)行連續(xù)語音識別的開創(chuàng)性工作。但是這期間語音識別的技術(shù)進(jìn)展非常緩慢,以至于1969年貝爾實(shí)驗(yàn)室的約翰·皮爾斯(John Pierce)在一封公開信中將語音識別比作“將水轉(zhuǎn)化為汽油、從海里提取金子、治療癌癥”等幾乎不可能實(shí)現(xiàn)的事情。上世紀(jì)70年代,計(jì)算機(jī)性能的大幅度提升,以及模式識別基礎(chǔ)研究的發(fā)展,例如碼本生成算法(LBG)和線性預(yù)測編碼(LPC)的出現(xiàn),促進(jìn)了語音識別的發(fā)展。這個時期美國國防部高級研究計(jì)劃署(DARPA)介入語音領(lǐng)域,設(shè)立了語音理解研究計(jì)劃,研究計(jì)劃包括BBN、CMU、SRI、IBM等眾多頂尖的研究機(jī)構(gòu)。IBM、貝爾實(shí)驗(yàn)室相繼推出了實(shí)時的PC端孤立詞識別系統(tǒng)。上世紀(jì)80年代是語音識別快速發(fā)展的時期,其中兩個關(guān)鍵技術(shù)是隱馬爾科夫模型(HMM)的理論和應(yīng)用趨于完善以及NGram語言模型的應(yīng)用。此時語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展。例如,李開復(fù)研發(fā)的SPHINX系統(tǒng),是基于統(tǒng)計(jì)學(xué)原理開發(fā)的第一個“非特定人連續(xù)語音識別系統(tǒng)”。其核心框架就是用隱馬爾科模型對語音的時序進(jìn)行建模,而用高斯混合模型(GMM)對語音的觀察概率進(jìn)行建模。基于GMM-HMM的語音識別框架在此后很長一段時間內(nèi)一直是語音識別系統(tǒng)的主導(dǎo)框架。上世紀(jì)90年代是語音識別基本成熟的時期,主要進(jìn)展是語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法的提出。這個時期劍橋語音識別組推出的HTK工具包對于促進(jìn)語音識別的發(fā)展起到了很大的推動作用。此后語音識別發(fā)展很緩慢,主流的框架GMM-HMM趨于穩(wěn)定,但是識別效果離實(shí)用化還相差甚遠(yuǎn),語音識別的研究陷入了瓶頸。

  關(guān)鍵突破起始于2006年。這一年辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮。2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。2011年,微軟研究院俞棟、鄧力等發(fā)表深度神經(jīng)網(wǎng)絡(luò)在語音識別上的應(yīng)用文章,在大詞匯量連續(xù)語音識別任務(wù)上獲得突破。從此基于GMM-HMM的語音識別框架被打破,大量研究人員開始轉(zhuǎn)向基于DNN-HMM的語音識別系統(tǒng)的研究。

  2

  基于深度神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)

  基于深度神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)主要采用如圖1所示的框架。相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對語音的觀察概率進(jìn)行建模。最初主流的深度神經(jīng)網(wǎng)絡(luò)是最簡單的前饋型深度神經(jīng)網(wǎng)絡(luò)(Feedforward Deep Neural Network,F(xiàn)DNN)。DNN相比GMM的優(yōu)勢在于:1. 使用DNN估計(jì)HMM的狀態(tài)的后驗(yàn)概率分布不需要對語音數(shù)據(jù)分布進(jìn)行假設(shè);2. DNN的輸入特征可以是多種特征的融合,包括離散或者連續(xù)的;3. DNN可以利用相鄰的語音幀所包含的結(jié)構(gòu)信息

  語音識別系統(tǒng)最新實(shí)踐

  圖1 基于深度神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)框架

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?
      主站蜘蛛池模板: 99久久精品费精品国产一区二| 韩国女人高潮嗷嗷叫视频| 亚洲三级在线看| 强壮的公次次弄得我高潮韩国电影| 国产一区精选播放022| HEYZO精品无码一区二区三区| 亚洲精品午睡沙发系列| 全黄h全肉短篇禁乱np| 快播电影官方网站| 国产永久免费视频| 国产69精品9999XXXX| beeg日本老师按摩| 最近2019中文字幕MV免费看| 亚洲bt区| 午夜福利理论片在线播放| 青青久在线| 免费看的一级毛片| 久久99亚洲热最新地址获取| 国产精品青草久久福利不卡| music radio在线收听| 131美女爱做视频午夜剧场| 亚洲精品偷拍影视在线观看| 色视频色露露永久免费观看| 欧美多人群p刺激交换电影| 久久精品男人影院| 精品一区二区三区在线成人| 国产欧美一区二区三区视频| 高傲教师麻麻被同学调教123| seba51久久精品| adc我们的永久网址| 91看片淫黄大片.在线天堂| 伊人热人久久中文字幕| 亚洲人成77777在线视频| 亚洲高清在线精品一区| 亚洲 自拍 偷拍 另类综合图区| 色翁荡熄月月| 四虎国产精品免费观看视频 | 文中字幕一区二区三区视频播放| 欧美夜夜噜2017最新| 秋霞影院福利电影| 青娱乐极品视觉盛宴国产视频|