色综合视频,香蕉久久夜色精品国产2020,在线观看理论福利片

作者：侯藝馨

前言

總結(jié)目前語(yǔ)音識(shí)別的發(fā)展現(xiàn)狀，dnn、rnn/lstm和cnn算是語(yǔ)音識(shí)別中幾個(gè)比較主流的方向。2012年，微軟鄧力和俞棟老師將前饋神經(jīng)網(wǎng)絡(luò)FFDNN（Feed Forward Deep Neural Network）引入到聲學(xué)模型建模中，將FFDNN的輸出層概率用于替換之前GMM-HMM中使用GMM計(jì)算的輸出概率，引領(lǐng)了DNN-HMM混合系統(tǒng)的風(fēng)潮。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory）可以說(shuō)是目前語(yǔ)音識(shí)別應(yīng)用最廣泛的一種結(jié)構(gòu)，這種網(wǎng)絡(luò)能夠?qū)φZ(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模，從而提高識(shí)別正確率。雙向LSTM網(wǎng)絡(luò)可以獲得更好的性能，但同時(shí)也存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題，尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用。

回顧近一年語(yǔ)音識(shí)別的發(fā)展，deep cnn絕對(duì)稱得上是比較火的關(guān)鍵詞，很多公司都在這方面投入了大量研究。其實(shí) CNN 被用在語(yǔ)音識(shí)別中由來(lái)已久，在 12、13 年的時(shí)候 Ossama Abdel-Hamid 就將 CNN 引入了語(yǔ)音識(shí)別中。那時(shí)候的卷積層和 pooling 層是交替出現(xiàn)的，并且卷積核的規(guī)模是比較大的，CNN 的層數(shù)也并不多，主要是用來(lái)對(duì)特征進(jìn)行加工和處理，使其能更好的被用于 DNN 的分類(lèi)。隨著CNN在圖像領(lǐng)域的發(fā)光發(fā)熱，VGGNet，GoogleNet和ResNet的應(yīng)用，為CNN在語(yǔ)音識(shí)別提供了更多思路，比如多層卷積之后再接 pooling 層，減小卷積核的尺寸可以使得我們能夠訓(xùn)練更深的、效果更好的 CNN 模型。

1、語(yǔ)音識(shí)別為什么要用CNN

通常情況下，語(yǔ)音識(shí)別都是基于時(shí)頻分析后的語(yǔ)音譜完成的，而其中語(yǔ)音時(shí)頻譜是具有結(jié)構(gòu)特點(diǎn)的。要想提高語(yǔ)音識(shí)別率，就是需要克服語(yǔ)音信號(hào)所面臨各種各樣的多樣性，包括說(shuō)話人的多樣性(說(shuō)話人自身、以及說(shuō)話人間)，環(huán)境的多樣性等。一個(gè)卷積神經(jīng)網(wǎng)絡(luò)提供在時(shí)間和空間上的平移不變性卷積，將卷積神經(jīng)網(wǎng)絡(luò)的思想應(yīng)用到語(yǔ)音識(shí)別的聲學(xué)建模中，則可以利用卷積的不變性來(lái)克服語(yǔ)音信號(hào)本身的多樣性。從這個(gè)角度來(lái)看，則可以認(rèn)為是將整個(gè)語(yǔ)音信號(hào)分析得到的時(shí)頻譜當(dāng)作一張圖像一樣來(lái)處理，采用圖像中廣泛應(yīng)用的深層卷積網(wǎng)絡(luò)對(duì)其進(jìn)行識(shí)別。

從實(shí)用性上考慮，CNN也比較容易實(shí)現(xiàn)大規(guī)模并行化運(yùn)算。雖然在CNN卷積運(yùn)算中涉及到很多小矩陣操作，運(yùn)算很慢。不過(guò)對(duì)CNN的加速運(yùn)算相對(duì)比較成熟，如Chellapilla等人提出一種技術(shù)可以把所有這些小矩陣轉(zhuǎn)換成一個(gè)大矩陣的乘積。一些通用框架如Tensorflow，caffe等也提供CNN的并行化加速，為CNN在語(yǔ)音識(shí)別中的嘗試提供了可能。

下面將由“淺”入“深”的介紹一下cnn在語(yǔ)音識(shí)別中的應(yīng)用。

2、CLDNN

提到CNN在語(yǔ)音識(shí)別中的應(yīng)用，就不得不提CLDNN（CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS）[1]，在CLDNN中有兩層CNN的應(yīng)用，算是淺層CNN應(yīng)用的代表。CNN 和 LSTM 在語(yǔ)音識(shí)別任務(wù)中可以獲得比DNN更好的性能提升，對(duì)建模能力來(lái)說(shuō)，CNN擅長(zhǎng)減小頻域變化，LSTM可以提供長(zhǎng)時(shí)記憶，所以在時(shí)域上有著廣泛應(yīng)用，而DNN適合將特征映射到獨(dú)立空間。而在CLDNN中，作者將CNN，LSTM和DNN串起來(lái)融合到一個(gè)網(wǎng)絡(luò)中，獲得比單獨(dú)網(wǎng)絡(luò)更好的性能。

CLDNN網(wǎng)絡(luò)的通用結(jié)構(gòu)是輸入層是時(shí)域相關(guān)的特征，連接幾層CNN來(lái)減小頻域變化，CNN的輸出灌入幾層LSTM來(lái)減小時(shí)域變化，LSTM最后一層的輸出輸入到全連接DNN層，目的是將特征空間映射到更容易分類(lèi)的輸出層。之前也有將CNN LSTM和DNN融合在一起的嘗試，不過(guò)一般是三個(gè)網(wǎng)絡(luò)分別訓(xùn)練，最后再通過(guò)融合層融合在一起，而CLDNN是將三個(gè)網(wǎng)絡(luò)同時(shí)訓(xùn)練。實(shí)驗(yàn)證明，如果LSTM輸入更好的特征其性能將得到提高，受到啟發(fā)，作者用CNN來(lái)減小頻域上的變化使LSTM輸入自適應(yīng)性更強(qiáng)的特征，加入DNN增加隱層和輸出層之間的深度獲得更強(qiáng)的預(yù)測(cè)能力。

2.1 CLDNN網(wǎng)絡(luò)結(jié)構(gòu)

Fig 1. CLDNN Architecture

網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1，假設(shè)中心幀為，考慮到內(nèi)容相關(guān)性，向左擴(kuò)展L幀，向右擴(kuò)展R幀，則輸入特征序列為[, . . . ,]，特征向量使用的是40維的log梅爾特征。

CNN部分為兩層CNN，每層256個(gè)feature maps，第一層采用9x9 時(shí)域-頻域濾波器，第二層為4x3的濾波器。池化層采用max-pooling策略，第一層pooling size是3，第二層CNN不接池化層。

由于CNN最后一層輸出維度很大，大小為feature-mapstimefrequency，所以在CNN后LSTM之前接一個(gè)線性層來(lái)降維，而實(shí)驗(yàn)也證明降維減少參數(shù)并不會(huì)對(duì)準(zhǔn)確率有太大影響，線性層輸出為256維。

CNN后接2層LSTM，每個(gè)LSTM層采用832個(gè)cells，512維映射層來(lái)降維。輸出狀態(tài)標(biāo)簽延遲5幀，此時(shí)DNN輸出信息可以更好的預(yù)測(cè)當(dāng)前幀。由于CNN的輸入特征向左擴(kuò)展了l幀向右擴(kuò)展了r幀，為了確保LSTM不會(huì)看到未來(lái)多于5幀的內(nèi)容，作者將r設(shè)為0。最后，在頻域和時(shí)域建模之后，將LSTM的輸出連接幾層全連接DNN層。

借鑒了圖像領(lǐng)域CNN的應(yīng)用，作者也嘗試了長(zhǎng)短時(shí)特征，將CNN的輸入特征作為短時(shí)特征直接輸入給LSTM作為部分輸入，CNN的輸出特征直接作為DNN的部分輸入特征。

2.2 實(shí)驗(yàn)結(jié)果

針對(duì)CLDNN結(jié)構(gòu)，我們用自己的中文數(shù)據(jù)做了一系列實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為300h的中文有噪聲語(yǔ)音，所有模型輸入特征都為40維fbank特征，幀率10ms。模型訓(xùn)練采用交叉熵CE準(zhǔn)則，網(wǎng)絡(luò)輸出為2w多個(gè)state。由于CNN的輸入需要設(shè)置l和r兩個(gè)參數(shù)，r設(shè)為0，l經(jīng)過(guò)實(shí)驗(yàn)10為最優(yōu)解，后面的實(shí)驗(yàn)結(jié)果中默認(rèn)l=10,r=0。

其中LSTM為3層1024個(gè)cells，project為512 ，CNN+LSTM和CNN+LSTM+DNN具體的網(wǎng)絡(luò)參數(shù)略有調(diào)整，具體如下圖，另外還增加一組實(shí)驗(yàn)，兩層CNN和三層LSTM組合，實(shí)驗(yàn)驗(yàn)證增加一層LSTM對(duì)結(jié)果有提高，但繼續(xù)增加LSTM的層數(shù)對(duì)結(jié)果沒(méi)有幫助。

Fig 2. CLDNN實(shí)驗(yàn)結(jié)構(gòu) 詳解卷積神經(jīng)網(wǎng)絡(luò)（CNN）在語(yǔ)音識(shí)別中的應(yīng)用

Table 1 測(cè)試集1結(jié)果詳解卷積神經(jīng)網(wǎng)絡(luò)（CNN）在語(yǔ)音識(shí)別中的應(yīng)用

Table 2 測(cè)試集2結(jié)果

3、deep CNN

在過(guò)去的一年中，語(yǔ)音識(shí)別取得了很大的突破。IBM、微軟、百度等多家機(jī)構(gòu)相繼推出了自己的Deep CNN模型，提升了語(yǔ)音識(shí)別的準(zhǔn)確率。Residual/Highway網(wǎng)絡(luò)的提出使我們可以把神經(jīng)網(wǎng)絡(luò)訓(xùn)練的更深。嘗試Deep CNN的過(guò)程中，大致也分為兩種策略：一種是HMM 框架中基于 Deep CNN結(jié)構(gòu)的聲學(xué)模型，CNN可以是VGG、Residual 連接的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)、或是CLDNN結(jié)構(gòu)。另一種是近兩年非常火的端到端結(jié)構(gòu)，比如在 CTC 框架中使用CNN或CLDNN實(shí)現(xiàn)端對(duì)端建模，或是最近提出的Low Frame Rate、Chain 模型等粗粒度建模單元技術(shù)。

對(duì)于輸入端，大體也分為兩種：輸入傳統(tǒng)信號(hào)處理過(guò)的特征，采用不同的濾波器處理，然后進(jìn)行左右或跳幀擴(kuò)展。

Fig 3.Multi-scale input feature. Stack 31140

第二種是直接輸入原始頻譜，將頻譜圖當(dāng)做圖像處理。

Fig 4. Frequency bands input

3.1 百度deep speech

百度將 Deep CNN 應(yīng)用于語(yǔ)音識(shí)別研究，使用了 VGGNet ，以及包含Residual 連接的深層 CNN等結(jié)構(gòu)，并將 LSTM 和 CTC 的端對(duì)端語(yǔ)音識(shí)別技術(shù)相結(jié)合，使得識(shí)別錯(cuò)誤率相對(duì)下降了 10% (原錯(cuò)誤率的90%)以上。

此前，百度語(yǔ)音每年的模型算法都在不斷更新，從 DNN ，到區(qū)分度模型，到 CTC 模型，再到如今的 Deep CNN ?；?LSTM-CTC的聲學(xué)模型也于 2015 年底已經(jīng)在所有語(yǔ)音相關(guān)產(chǎn)品中得到了上線。比較重點(diǎn)的進(jìn)展如下：1)2013 年，基于美爾子帶的 CNN 模型 2)2014年，Sequence Discriminative Training(區(qū)分度模型) 3)2015 年初，基于 LSTM-HMM的語(yǔ)音識(shí)別 4)2015 年底，基于 LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別 5)2016 年，Deep CNN 模型，目前百度正在基于Deep CNN 開(kāi)發(fā)deep speech3，據(jù)說(shuō)訓(xùn)練采用大數(shù)據(jù)，調(diào)參時(shí)有上萬(wàn)小時(shí)，做產(chǎn)品時(shí)甚至有 10 萬(wàn)小時(shí)。

Fig5. 百度語(yǔ)音識(shí)別發(fā)展

百度發(fā)現(xiàn)，深層 CNN 結(jié)構(gòu)，不僅能夠顯著提升 HMM 語(yǔ)音識(shí)別系統(tǒng)的性能，也能提升 CTC 語(yǔ)音識(shí)別系統(tǒng)的性能。僅用深層 CNN 實(shí)現(xiàn)端對(duì)端建模，其性能相對(duì)較差，因此將如 LSTM 或 GRU的循環(huán)隱層與 CNN結(jié)合是一個(gè)相對(duì)較好的選擇?？梢酝ㄟ^(guò)采用 VGG 結(jié)構(gòu)中的 3*3 這種小 kernel ，也可以采用 Residual 連接等方式來(lái)提升其性能，而卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)、濾波個(gè)數(shù)等都會(huì)顯著影響整個(gè)模型的建模能力，在不同規(guī)模的語(yǔ)音訓(xùn)練數(shù)據(jù)庫(kù)上，百度需要采用不同規(guī)模的 DeepCNN 模型配置才能使得最終達(dá)到最優(yōu)的性能。

因此，百度認(rèn)為：1)在模型結(jié)構(gòu)中，DeepCNN 幫助模型具有很好的在時(shí)頻域上的平移不變性，從而使得模型更加魯棒(抗噪性) 2)在此基礎(chǔ)上，DeepLSTM 則與 CTC 一起專注于序列的分類(lèi)，通過(guò) LSTM 的循環(huán)連接結(jié)構(gòu)來(lái)整合長(zhǎng)時(shí)的信息。3)在 DeepCNN 研究中，其卷積結(jié)構(gòu)的時(shí)間軸上的感受野，以及濾波的個(gè)數(shù)，針對(duì)不同規(guī)模的數(shù)據(jù)庫(kù)訓(xùn)練的語(yǔ)音識(shí)別模型的性能起到了非常重要的作用。4)為了在數(shù)萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)庫(kù)上訓(xùn)練一個(gè)最優(yōu)的模型，則需要大量的模型超參的調(diào)優(yōu)工作，依托多機(jī)多 GPU 的高性能計(jì)算平臺(tái)，才得以完成工作。5)基于 DeepCNN 的端對(duì)端語(yǔ)音識(shí)別引擎，也在一定程度上增加了模型的計(jì)算復(fù)雜度，通過(guò)百度自研的硬件，也使得這樣的模型能夠?yàn)閺V大語(yǔ)音識(shí)別用戶服務(wù)。

3.2 IBM

2015 年，IBM Watson 公布了英語(yǔ)會(huì)話語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重大里程：系統(tǒng)在非常流行的評(píng)測(cè)基準(zhǔn) Switchboard 數(shù)據(jù)庫(kù)中取得了 8% 的詞錯(cuò)率（WER）。到了2016年 5 月份，IBM Watson 團(tuán)隊(duì)再次宣布在同樣的任務(wù)中他們的系統(tǒng)創(chuàng)造了6.9% 的詞錯(cuò)率新紀(jì)錄，其解碼部分采用的是HMM，語(yǔ)言模型采用的是啟發(fā)性的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。聲學(xué)模型主要包含三個(gè)不同的模型，分別是帶有maxout激活的循環(huán)神經(jīng)網(wǎng)絡(luò)、3*3卷積核的深度卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)，下面我們來(lái)具體看看它們的內(nèi)部結(jié)構(gòu)。

Fig 6. IBM Deep CNN 框架

非常深的卷積神經(jīng)網(wǎng)絡(luò)的靈感來(lái)自2014ImageNet參賽的VGG網(wǎng)絡(luò)，中心思想是使用較小的3*3卷積核來(lái)取代較大的卷積核，通過(guò)在池化層之前疊加多層卷積網(wǎng)絡(luò)，采取ReLU激活函數(shù)，可以獲得相同的感知區(qū)域，同時(shí)具備參數(shù)數(shù)目較少和更多非線性的優(yōu)點(diǎn)。

如上圖所示，左1為最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)，只使用了兩個(gè)卷積層，并且之間包含一個(gè)池化層，卷積層的卷積核也較大，99和43，而卷積的特征面也較多，512張卷積特征面。

左2、左3、左4均為深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，可以注意到與經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)所不同的是，卷積的特征面由64個(gè)增加到128個(gè)再增加到256個(gè)，而且池化層是放在卷積的特征面數(shù)增加之前的；卷積核均使用的是較小的33卷積核，池化層的池化大小由21增加到2*2。

最右邊10-conv的參數(shù)數(shù)目與最左邊的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)參數(shù)數(shù)目相同，但是收斂速度卻足足快了5倍，盡管計(jì)算復(fù)雜度提高了一些。

3.3 微軟

2016年9月在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別任務(wù)上，微軟研究者取得了產(chǎn)業(yè)中最低的 6.3% 的詞錯(cuò)率（WER）?；谏窠?jīng)網(wǎng)絡(luò)的聲學(xué)和語(yǔ)言模型的發(fā)展，數(shù)個(gè)聲學(xué)模型的結(jié)合，把 ResNet 用到語(yǔ)音識(shí)別。

而在2016年的10月，微軟人工智能與研究部門(mén)的團(tuán)隊(duì)報(bào)告出他們的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯(cuò)率（WER），達(dá)到了5.9%。5.9% 的詞錯(cuò)率已經(jīng)等同于人速記同樣一段對(duì)話的水平，而且這是目前行Switchboard 語(yǔ)音識(shí)別任務(wù)中的最低記錄。這個(gè)里程意味著，一臺(tái)計(jì)算機(jī)在識(shí)別對(duì)話中的詞上第一次能和人類(lèi)做得一樣好。系統(tǒng)性地使用了卷積和 LSTM 神經(jīng)網(wǎng)絡(luò)，并結(jié)合了一個(gè)全新的空間平滑方法（spatial smoothing method）和 lattice-free MMI 聲學(xué)訓(xùn)練。

雖然在準(zhǔn)確率的突破上都給出了數(shù)字基準(zhǔn)，微軟的研究更加學(xué)術(shù)，是在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)——口語(yǔ)數(shù)據(jù)庫(kù) switchboard 上面完成的，這個(gè)數(shù)據(jù)庫(kù)只有 2000 小時(shí)。

3.4 Google

根據(jù) Mary Meeker 年度互聯(lián)網(wǎng)報(bào)告，Google以機(jī)器學(xué)習(xí)為背景的語(yǔ)音識(shí)別系統(tǒng)，2017年3月已經(jīng)獲得英文領(lǐng)域95%的字準(zhǔn)確率，此結(jié)果逼近人類(lèi)語(yǔ)音識(shí)別的準(zhǔn)確率。如果定量的分析的話，從2013年開(kāi)始，Google系統(tǒng)已經(jīng)提升了20%的性能。

Fig 7. Google 語(yǔ)音識(shí)別性能發(fā)展

從近幾年google在各類(lèi)會(huì)議上的文章可以看出，google嘗試deep CNN的路徑主要采用多種方法和模型融合，如Network-in-Network (NiN)，Batch Normalization (BN)，Convolutional LSTM (ConvLSTM)方法的融合。比如2017 icassp會(huì)議中g(shù)oogle所展示的結(jié)構(gòu)

Fig 8. [5] includes two convolutional layer at the bottom andfollowed by four residual block and LSTM NiN block. Each residual blockcontains one convolutional LSTM layer and one convolutional layer.

3.5 科大訊飛DFCNN

2016年,在提出前饋型序列記憶網(wǎng)絡(luò)FSMN (Feed-forward Sequential Memory Network) 的新框架后，科大訊飛又提出了一種名為深度全序列卷積神經(jīng)網(wǎng)絡(luò)（Deep Fully Convolutional Neural Network，DFCNN）的語(yǔ)音識(shí)別框架，使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模，更好地表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。

DFCNN的結(jié)構(gòu)如下圖所示，它輸入的不光是頻譜信號(hào)，更進(jìn)一步的直接將一句語(yǔ)音轉(zhuǎn)化成一張圖像作為輸入，即先對(duì)每幀語(yǔ)音進(jìn)行傅里葉變換，再將時(shí)間和頻率作為圖像的兩個(gè)維度，然后通過(guò)非常多的卷積層和池化（pooling）層的組合，對(duì)整句語(yǔ)音進(jìn)行建模，輸出單元直接與最終的識(shí)別結(jié)果比如音節(jié)或者漢字相對(duì)應(yīng)。

Fig 9. DFCNN框架

首先，從輸入端來(lái)看，傳統(tǒng)語(yǔ)音特征在傅里葉變換之后使用各種人工設(shè)計(jì)的濾波器組來(lái)提取特征，造成了頻域上的信息損失，在高頻區(qū)域的信息損失尤為明顯，而且傳統(tǒng)語(yǔ)音特征為了計(jì)算量的考慮必須采用非常大的幀移，無(wú)疑造成了時(shí)域上的信息損失，在說(shuō)話人語(yǔ)速較快的時(shí)候表現(xiàn)得更為突出。因此DFCNN直接將語(yǔ)譜圖作為輸入，相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次，從模型結(jié)構(gòu)來(lái)看，DFCNN與傳統(tǒng)語(yǔ)音識(shí)別中的CNN做法不同，它借鑒了圖像識(shí)別中效果最好的網(wǎng)絡(luò)配置，每個(gè)卷積層使用3x3的小卷積核，并在多個(gè)卷積層之后再加上池化層，這樣大大增強(qiáng)了CNN的表達(dá)能力，與此同時(shí)，通過(guò)累積非常多的這種卷積池化層對(duì)，DFCNN可以看到非常長(zhǎng)的歷史和未來(lái)信息，這就保證了DFCNN可以出色地表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性，相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色。最后，從輸出端來(lái)看，DFCNN還可以和近期很熱的CTC方案完美結(jié)合以實(shí)現(xiàn)整個(gè)模型的端到端訓(xùn)練，且其包含的池化層等特殊結(jié)構(gòu)可以使得以上端到端訓(xùn)練變得更加穩(wěn)定。

4、總結(jié)

由于CNN本身卷積在頻域上的平移不變性，同時(shí)VGG、殘差網(wǎng)絡(luò)等深度CNN網(wǎng)絡(luò)的提出，給CNN帶了新的新的發(fā)展，使CNN成為近兩年語(yǔ)音識(shí)別最火的方向之一。用法也從最初的2-3層淺層網(wǎng)絡(luò)發(fā)展到10層以上的深層網(wǎng)絡(luò)，從HMM-CNN框架到端到端CTC框架，各個(gè)公司也在deep CNN的應(yīng)用上取得了令人矚目的成績(jī)。

總結(jié)一下，CNN發(fā)展的趨勢(shì)大體為：

1 更加深和復(fù)雜的網(wǎng)絡(luò)，CNN一般作為網(wǎng)絡(luò)的前幾層，可以理解為用CNN提取特征，后面接LSTM或DNN。同時(shí)結(jié)合多種機(jī)制，如attention model、ResNet 的技術(shù)等。

2 End to End的識(shí)別系統(tǒng)，采用端到端技術(shù)CTC ， LFR 等。

3 粗粒度的建模單元，趨勢(shì)為從state到phone到character，建模單元越來(lái)越大。

但CNN也有局限性，[2,3]研究表明，卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集或者數(shù)據(jù)差異性較小的任務(wù)上幫助最大，對(duì)于其他大多數(shù)任務(wù)，相對(duì)詞錯(cuò)誤率的下降一般只在2%到3%的范圍內(nèi)。不管怎么說(shuō)，CNN作為語(yǔ)音識(shí)別重要的分支之一，都有著極大的研究?jī)r(jià)值。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100712
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1739

瀏覽量
112634
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238245
科大訊飛

科大訊飛

+關(guān)注

關(guān)注
19

文章
800

瀏覽量
61238

評(píng)論

相關(guān)推薦

嵌入式和人工智能究竟是什么關(guān)系?

與人工智能的結(jié)合，無(wú)疑是科技發(fā)展中的一場(chǎng)革命。在人工智能硬件加速中，嵌入式系統(tǒng)以其獨(dú)特的優(yōu)勢(shì)和重要性，發(fā)揮著不可或缺的作用。通過(guò)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等算法，嵌入式系統(tǒng)能夠高效地處理大量數(shù)

發(fā)表于 11-14 16:39

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

幸得一好書(shū)，特此來(lái)分享。感謝平臺(tái)，感謝作者。受益匪淺。在閱讀《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后，我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這一

發(fā)表于 10-14 09:27

AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

很幸運(yùn)社區(qū)給我一個(gè)閱讀此書(shū)的機(jī)會(huì)，感謝平臺(tái)。《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分，為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

周末收到一本新書(shū)，非常高興，也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。這是一本挺好的書(shū)，包裝精美，內(nèi)容詳實(shí)，干活滿滿。《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》這本書(shū)的第一章，作為整

發(fā)表于 10-14 09:12

risc-v在人工智能圖像處理應(yīng)用前景分析

RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景十分廣闊，這主要得益于其開(kāi)源性、靈活性和低功耗等特點(diǎn)。以下是對(duì)RISC-V在人工智能圖像處理應(yīng)用前景的詳細(xì)分析：一、RISC-V的基本特點(diǎn) RISC-V

發(fā)表于 09-28 11:00

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

！《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》這本書(shū)便將為讀者徐徐展開(kāi)AI for Science的美麗圖景，與大家一起去了解： 人工智能究竟幫科學(xué)家做了什么？ 人工智能

發(fā)表于 09-09 13:54

報(bào)名開(kāi)啟！深圳（國(guó)際）通用人工智能大會(huì)將啟幕，國(guó)內(nèi)外大咖齊聚話AI

呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于一體的世界級(jí)人工智能合作交流平臺(tái)。本次大會(huì)暨博覽會(huì)由工業(yè)和信息化部政府采購(gòu)中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市工信局等單位指導(dǎo)，深圳市人工智能產(chǎn)業(yè)協(xié)會(huì)主辦

發(fā)表于 08-22 15:00

FPGA在人工智能中的應(yīng)用有哪些？

FPGA（現(xiàn)場(chǎng)可編程門(mén)陣列）在人工智能領(lǐng)域的應(yīng)用非常廣泛，主要體現(xiàn)在以下幾個(gè)方面：一、深度學(xué)習(xí)加速訓(xùn)練和推理過(guò)程加速：FPGA可以用來(lái)加速深度學(xué)習(xí)的訓(xùn)練和推理過(guò)程。由于其高并行性和低延遲特性

發(fā)表于 07-29 17:05

人工智能神經(jīng)元的基本結(jié)構(gòu)

人工智能神經(jīng)元的基本結(jié)構(gòu)是一個(gè)復(fù)雜而深入的話題，涉及到計(jì)算機(jī)科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等多個(gè)領(lǐng)域的知識(shí)。引言 人工智能（Artificial Intelligence，簡(jiǎn)稱AI）是計(jì)算機(jī)科

發(fā)表于 07-11 11:19 ?1327次閱讀

人工智能神經(jīng)網(wǎng)絡(luò)系統(tǒng)的特點(diǎn)

人工智能神經(jīng)網(wǎng)絡(luò)系統(tǒng)是一種模擬人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的計(jì)算模型，具有高度的自適應(yīng)性、學(xué)習(xí)能力和泛化能力。本文將介紹人工智能神經(jīng)

發(fā)表于 07-04 09:42 ?462次閱讀

人工智能神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是什么

人工智能神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)網(wǎng)絡(luò)的計(jì)算模型，其結(jié)構(gòu)和功能非常復(fù)雜。引言 人工智能神經(jīng)

發(fā)表于 07-04 09:37 ?559次閱讀

神經(jīng)網(wǎng)絡(luò)和人工智能的關(guān)系是什么

神經(jīng)網(wǎng)絡(luò)和人工智能的關(guān)系是密不可分的。神經(jīng)網(wǎng)絡(luò)是人工智能的一種重要實(shí)現(xiàn)方式，而人工智能則是神經(jīng)

發(fā)表于 07-03 10:25 ?1087次閱讀

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開(kāi)發(fā)（SC171開(kāi)發(fā)套件V1）

課程類(lèi)別課程名稱視頻課程時(shí)長(zhǎng) 視頻課程鏈接課件鏈接 人工智能 參賽基礎(chǔ)知識(shí)指引 14分50秒 https://t.elecfans.com/v/25508.html *附件：參賽基礎(chǔ)知識(shí)指引

發(fā)表于 04-01 10:40

嵌入式人工智能的就業(yè)方向有哪些?

嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下，嵌入式人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下，眾多名企也紛紛在嵌入式人工智能

發(fā)表于 02-26 10:17

如何優(yōu)化PLC的網(wǎng)絡(luò)結(jié)構(gòu)？

優(yōu)化PLC的網(wǎng)絡(luò)結(jié)構(gòu)可以提高通信的效率和穩(wěn)定性。以下是一些優(yōu)化PLC網(wǎng)絡(luò)結(jié)構(gòu)的方法：（1）設(shè)計(jì)合理的拓?fù)?b class='flag-5'>結(jié)構(gòu)：根據(jù)應(yīng)用需求和設(shè)備分布情況，設(shè)計(jì)合理的

發(fā)表于 12-23 08:15 ?688次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一文讀懂人工智能CLDNN網(wǎng)絡(luò)結(jié)構(gòu)

評(píng)論

嵌入式和人工智能究竟是什么關(guān)系?

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

risc-v在人工智能圖像處理應(yīng)用前景分析

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

報(bào)名開(kāi)啟！深圳（國(guó)際）通用人工智能大會(huì)將啟幕，國(guó)內(nèi)外大咖齊聚話AI

FPGA在人工智能中的應(yīng)用有哪些？

人工智能神經(jīng)元的基本結(jié)構(gòu)

人工智能神經(jīng)網(wǎng)絡(luò)系統(tǒng)的特點(diǎn)

人工智能神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是什么

神經(jīng)網(wǎng)絡(luò)和人工智能的關(guān)系是什么

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開(kāi)發(fā)（SC171開(kāi)發(fā)套件V1）

嵌入式人工智能的就業(yè)方向有哪些?

如何優(yōu)化PLC的網(wǎng)絡(luò)結(jié)構(gòu)？