語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域。 語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發(fā)展技術之一。 語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。
語音識別原理:
語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng)。它與一般的模式識別系統(tǒng)類似,包括語音預處理、語音特征提取、語音模式庫和語音模式匹配等基本單元,如圖1所示。
1)語音預處理:包括預加重、反混疊濾波、端點檢測、噪聲濾波等處理過程,用以去除聲門激勵、口鼻輻射、高于1/2 采樣頻率的高頻和噪聲信號的影響,實現(xiàn)語音信號的數(shù)字化。
2)語音特征提取:對經(jīng)過預處理后的語音信號進行特征參數(shù)分析。該過程就是從原始語音信號中抽取出能夠反映語音本質(zhì)的特征參數(shù),形成特征矢量序列。可選擇的語音特征參數(shù)包括: 時域參數(shù)、頻域參數(shù)、聲道的形狀函數(shù)、隨機模型的概率函數(shù)、量化矢量和超音段信息函數(shù)等。
3)語音模式庫:即聲學參數(shù)模板,它是用聚類分析等方法,從一個講話者或多個講話者多次重復的語音參數(shù)中經(jīng)過長時間訓練得到的。
4)語音模式匹配:將輸入語音的特征參數(shù)同訓練得到的語音模式庫進行比較分析,從而得到識別結果。
? ?隨著信息技術的飛速發(fā)展,人們尋求一種更為直接的人機對話方式,聲控電腦就是再此基礎上發(fā)展起來的。聲控電腦使用語音識別技術,而語音識別是目前一種熱門技術。電腦語音識別系統(tǒng),可以用聲音直接控制電腦工作,是人機接口中最具有人性化的方式。
聲控電腦原理
聲控電腦是由人的聲音發(fā)出指令來控制電腦工作的,可是電腦本身不能識別人的聲音,因此必須讓電腦先了解熟悉人講話的聲音及腔調(diào)來建立參考樣本,將原先訓練好的聲音特色保存為語音參考樣本存入電腦。原理流程如圖1所示。
DSP組成及控制
(1)組成
DSP語音識別芯片;數(shù)字/模擬轉換電路;語音提示語ROM;參數(shù)存儲SRAM。
數(shù)字/模擬轉換電路是將語音模擬信號轉換成數(shù)字信號,交DSP芯片做分析處理,然后將其存儲在SRAM中。如果要說出所講的聲音,同樣是經(jīng)過數(shù)字/模擬轉換電路將其轉換為模擬信號,經(jīng)驅動電路,可以將聲音還原。
(2)控制
SETUSER選取某一使用者(最多支持8人)。
GETSTATVS取回主控CPU狀態(tài)值。
TRAIN語音參考樣本輸入。
RECOG語音識別對比。
SAVESTATVS存儲主控CPU狀態(tài)值。
COMPARE識別對比找出最相近的一組樣本。
聲控系統(tǒng)硬件電路
將20PIN排針插座,連接至8051單片機控制板上,DSP和8051的信號傳輸都由此總線來完成。8051用于主控系統(tǒng),主要做聲控系統(tǒng)的人機接口處理,所用到的接口包括鍵盤及LCD信息顯示,并以8051單片機來控制DSP芯片用于語音識別。如果將RS232與PC機連接,便可以將信息傳回PC而顯示在屏幕上。除可以顯示信息外,還可以做程序設計時修改錯誤,在系統(tǒng)開發(fā)時相當有用。系統(tǒng)組成原理如圖2所示。
本系統(tǒng)采用DSP控制芯片,使硬件成本降低,可以獨立操作,不必靠個人電腦來做語音識別的控制,最主要的是其語音識別效果佳且穩(wěn)定
AP70032單片機語音識別電路設計
新型單片語音識別電路HL7003-02,電路結構簡單、外圍元器件少,設計、制作、調(diào)式及操作十分容易,適合愛好者制作各種由語控制的游藝機、家電控制、智能玩具、語音門鎖、門鐘等等方面。它是根據(jù)用戶自己的聲音輸入而識別的音晶片識音辯識的單片IC,它能識別12個不同的字句,可控制不同的輸出開關,完成指定的功能。
電路特點:內(nèi)置麥克風放大器,內(nèi)置A/D轉換器,12個1.5秒長的字句識別。多功能I/O口,2個普通輸入腳,4個觸發(fā)輸入腳,2個輸出端口,包含一個4輸出口及一個輸出口,2個LED輸出驅動動,不同的編碼方式,可做成專用的線路,2.4V~3.3V工作電壓,低功耗,自動斷電功能。
單片語音識別電路HL7003-02
1、通電后,先按①鍵,LED1和POA1(LED3)同時亮,此時立刻對著話筒發(fā)話(語音長度不超過1.5秒),POA1滅,LED1亮,再對著話筒進行“學習”,LED2、POA1同時亮,表示“學習”成功。接著再按②鍵,LED1、POA2同時亮。依此類推,直至1~12鍵全部學習完畢。也可以對某一鍵或某幾個鍵進行無序輸入和學習。
2、學習完畢,即可進行語音識別操作,12路輸出可分別控制不同的電器(或動作),12路語音識別可任意操作,即喊一句便控制一種電器的開或關。第11鍵為輸出轉換鍵,每轉換控制一種電器都需按一下該鍵。
3、若需清除“學習”內(nèi)容,應按清除鍵“C”,再次輸入時,須重新按照第1步方法進行“學習”。
4、PIM1接“1”(高電平),為12鍵模式,應用電路見圖。PIM1接“0”(低電平),為8鍵模式,應用電路見圖2。POSL接“0”,POA1~POA12輸出為低電平,POSL接“1”,POA1~POA12輸出為高電平。
評論
查看更多