tI的OMAP平臺為開發個人手持設備的語音應用提供完美的解決方案。這種低功耗的OMAP架構把用于語音的DSP信號處理功能與RISC處理器的通用系統性能融合在了一起。設計了開放式軟件架構,以鼓勵開發語音引擎、語音應用和多媒體等補充應用。包括語音識別器和原型應用等開發支持,可幫助開發商快速建立其自己的產品并縮短產品上市時間。OMAP平臺可確保開發商能夠通過輕松、靈活添加語音應用牢牢把握個人手持設備的增長機遇。
語音技術的應用正在不斷增加,從而為應用開發商在手持設備、移動設備和無線個人設備中增加高價值的功能帶來了難得的機會。今天的個人手持設備語音大多時候僅僅局限于語音撥號,但是已經出現了適用于更廣泛開發語音識別和文本到語音應用的技術。打算增加語音功能的開發商需要熟知語音技術的方方面面。這些問題不但包括處理和內存要求,而且還包括特定的平臺架構和支持如何促進開發過程并縮短上市時間。??
利用語音應用增值可帶來豐厚的潛在利益。根據各種市場研究公司的估計,未來兩年個人手持設備的綜合年增長率預計能達到 20%,到2004年全球的總設備交貨量將達到7億件。為了利用增值語音應用敲開這個巨大的市場,開發商必須求助于能夠給他們帶來高性能、低功耗的底層技術以及能夠幫助他們迅速推出新產品的支持。??
語音功能為用戶提供自然的輸入和輸出方式,它比其他形式的I/O更安全,尤其是當用戶在開車期間。在大多應用中,語音都是鍵盤和顯示器的理想補充,而并不是它們的替代品。例如,在非常嘈雜的環境中,聽和說可能都不現實,因此用戶可能就必須依賴鍵盤輸入和顯示閱讀。類似,用戶通常喜歡用鍵盤輸入某些東西,如:PIN號碼和密碼,而不愿意大聲說出來讓別人也聽到。??
語音撥號是當今個人無線設備中最常用的語音技術。語音撥號通常無需手和耳朵即可打電話,這是在開車時尤為重要的功能。語音撥號包括名字撥號,即按通訊簿上的名字打電話,另外還包括號碼撥號,即說出電話號碼。如圖1所示,其他潛在的語音應用包括:??
1.語音電子郵件?D?D 包括瀏覽郵箱、利用語音輸入寫電子郵件以及收聽電子郵件的讀出。??
2.信息檢索?D?D股票價格、標題新聞、航班信息、天氣預報等都可通過語音從互聯網收聽。例如,用戶不用先進入某個網址并輸入股票名字或者瀏覽預定義的列表,便可以命令:"我的股票報價,德州儀器。"??
3.個人信息管理?D?D允許用戶通過語音指定預約、查看日歷、添加聯絡信息等等。??
4.語音瀏覽?D?D利用語音程序菜單,用戶可以在網上沖浪、添加語音收藏夾并收聽網頁內容的讀出。??
5.語音導航?D?D在自動和眼不夠用的條件下獲取導航的完全語音輸入/輸出駕駛系統。??
??
語音技術問題??
語音系統必須滿足某些基本使用要求。很顯然,語音輸出必須清晰,使用戶能夠聽懂。在給定應用用途中,ASR還必須支持自然語音。何為自然可謂變化無常,包括從逐字發出的簡單名字和指令、到說出大量詞匯的連續語句。另外,各人的自然語音以及發音方式也不同,因此系統應該能夠靈活接受不同說話人說話。識別引擎必須準確,否則用戶不會使用這種技術。??
語音的系統要求是需要進行大量處理,有可能包含巨大的內存,這取決于所支持的詞庫。就基于服務器的應用而言,無線帶寬的使用會有所增加。這些因素也會影響其他系統考慮。應用的MIPS和傳輸要求越高,給定系統的功耗就越高,因此會縮短電池壽命或導致更頻繁的充電。當應用需要采用處理器外置存儲器時,響應時間也有可能增加。??
某些應用權衡考慮有助于通過放棄手持設備不必要的功能來降低系統要求。只識別少量詞語、分散語音的基于說話人的系統會比識別大型詞庫、連續語音的基于說話人的系統要求少很多的資源。對其他語言的支持會增加處理要求并且使應用所需要的內存加倍。抗噪音和抗干擾性是重要的特性,但是會增加復雜性和內存要求。??
很顯然,開發商在增加說話人依賴性、連續語音、詞庫規模和語言支持等功能時希望盡可能少地降低基本應用的性能。有某些選項有助于減少語音技術中的性能降低,如:分布式語音識別(DSR)。DSR把識別任務分割開,這樣手持設備可以把原始語音轉換成頻譜特性向量,同時服務器執行識別過程。這種方法以及類似的分布式TTS方法依賴于處理方法和傳輸協議的標準化。盡管這些技術頗有前途,但是,開發商仍然面臨個人手持設備中語音應用的有限資源。??
因此,為語音等高性能應用選擇適當的平臺與精心設計應用的功能同樣重要。這種平臺必須具有強大的處理能力,同時可以實現高水平的功效,不僅僅是在內核操作中,而且在處理內存中也應如此。應該有足夠的MIPS來支持多媒體、安全和其他補充應用。提供集成新算法能力的可編程性也很重要。最后,這種平臺必須包含為支持模塊化應用開發所設計的軟件架構,以幫助開發商快速把產品推向市場。??
OMAP技術:卓越的語音平臺??
TI的OMAP平臺為在個人手持設備中開發語音應用提供卓越的解決方案。 OMAP1510和OMAP5910處理器的雙內核架構集成了高功效的TMS320C55x?數字信號處理器(DSP)和高性能ARM9RISC微處理器。因此,這些OMAP處理器可提供語音所需要的算術集中的信號處理能力,同時還可提供系統層操作所需要的通用性能。OMAP710處理器是高度集成的單芯片解決方案,帶有用于無線通訊處理的、基于DSP的GSM/GPRS基帶、以及可低功耗執行多媒體應用的專用TI增強ARM925處理器。 OMAP1510、OMAP5910和OMAP710處理器可支持基于低端ARM的語音應用。它們還具有編碼兼容性,從而使開發商能夠把軟件應用集成到針對不同市場的個人產品。OMAP1510和OMAP5910具有DSP處理能力,可處理更集中的語音應用。??
雙核硬件架構??
OMAP1510 和OMAP5910的雙核硬件平臺設計用于最大化系統性能和最小化功耗。在用于個人手持設備時,DSP和RISC內核的結合給這些處理器提供了無與倫比的性能和功耗優勢。RISC極其適合處理控制代碼,如:用戶界面、OS和高級應用。另一方面,DSP更適合語音應用所需要的實時信號處理功能。??
如圖2所示,OMAP1510架構包含用于兩個處理器的片上高速緩沖存儲器,可降低到外部存儲器的平均發送次數,同時消除不必要的外部存取的功耗。兩個內核的內存管理單元(MMU)提供虛擬物理內存轉換。低功耗操作模式可保存不使用或者很少使用處理器期間的能力。??
OMAP1510 架構還包含兩個外部存儲器接口和單個內存端口。這三個存儲器接口彼此完全獨立,可同時從任何一個內核或者從DMA單元進行存取。每個處理器都具有自己的外設接口,其不但支持到外圍設備的直接連接同時還支持從處理器DMA單元的DMA連接。定時器、通用I/O、UART及監視定時器等在內的片上外設以及彩色 LCD控制器均支持OS一般的要求。??
OMAP5910架構不但提供了片上系統功能同時還帶有諸如192KbytesRAM、USB1.1主機和客戶機、MMC/SD卡接口、多通道緩沖串口、實時時鐘、GPIO及UART、LCD接口、SPI、uWire及i2s等在內的外圍設備。與 OMAP1510類似,OMAP5910也包含內置的處理器間通訊機制,其提供與DSP連接的透明接口,以實現更輕松的代碼開發。??
??
為OMAP平臺設計語音應用??
在OMAP 開發商網絡中,TI正與多家正在開發ASR、TTS、DSR和語者驗證等在內的語音技術的主要第三方開發商展開合作。這些公司在市場中都有自己獨到的優勢,而且他們還可以把這些優勢帶給OMAP用戶。同時,TI內部開發了充分利用了OMAP平臺的雙內核架構優勢的、專門用于小詞庫以及小型語音識別等的語音識別軟件。TI嵌入式語音識別器(TIESR)可提供如下功能:與說話人無關的指令以及控制功能與說話人無關的連續數字識別與說話人無關的連續語音識別與說話人有關的名稱撥號、指令以及控制動態語法和詞匯功能,可提高語音瀏覽等應用噪音環境中的抗擾性用于增強性能的可選說話人適配功能??
語音應用示例??
InfoPhone 是基于這種嵌入式架構的語音應用的一個典型示例,它由TI開發,專門用于無線領域。InfoPhone是一個可實現語音功能的Java應用程序,同時它還可實現有用信息的語音檢索。TI為InfoPhone開發了三種原型的基于語音的信息服務,諸如為用戶提供股票報價、航班信息和天氣預報。每種服務都包含 50個詞語的詞庫,因為具有動態詞庫功能,系統可以在詞庫間完美切換。應用設計使鍵盤輸入在說話期間一直保持有效狀態,從而在環境中斷或者用戶需要進行私密輸入時提供靈活性。圖3說明InfoPhone示例中的語音識別架構。??
??
開發支持??
TI的OMAP軟件和開發支持服務可幫助開發商快速向市場推出語音應用。開發商可自行采用TI的包括DSP/BIOS實時操作系統(RTOS)、 Code Composer Studio IDE、以及可確保現場軟件的模塊化開發的TI算法標準等在內的eXpressDSP?實時DSP技術進行DSP開發。用于OMAP平臺的Code Composer Studio在統一環境中集成了所有主機以及包括用于ARM9RISC內核等在內的目標工具,以便實現輕松配置及優化。為了進一步簡化開發過程,設計了 OMAP5910和OMAP1510處理器的內置處理器間通訊機制,可用來消除開發商獨立編程RISC以及DSP的需要,從而極大縮短編程時間并降低編程復雜性。??
另外,TI還為OMAP平臺開發了Innovator成套開發工具。創新開發工具包提供個人系統的硬件和關鍵軟件,以促進在現實用戶條件下開發語音應用。
語音技術的應用正在不斷增加,從而為應用開發商在手持設備、移動設備和無線個人設備中增加高價值的功能帶來了難得的機會。今天的個人手持設備語音大多時候僅僅局限于語音撥號,但是已經出現了適用于更廣泛開發語音識別和文本到語音應用的技術。打算增加語音功能的開發商需要熟知語音技術的方方面面。這些問題不但包括處理和內存要求,而且還包括特定的平臺架構和支持如何促進開發過程并縮短上市時間。??
利用語音應用增值可帶來豐厚的潛在利益。根據各種市場研究公司的估計,未來兩年個人手持設備的綜合年增長率預計能達到 20%,到2004年全球的總設備交貨量將達到7億件。為了利用增值語音應用敲開這個巨大的市場,開發商必須求助于能夠給他們帶來高性能、低功耗的底層技術以及能夠幫助他們迅速推出新產品的支持。??
語音功能為用戶提供自然的輸入和輸出方式,它比其他形式的I/O更安全,尤其是當用戶在開車期間。在大多應用中,語音都是鍵盤和顯示器的理想補充,而并不是它們的替代品。例如,在非常嘈雜的環境中,聽和說可能都不現實,因此用戶可能就必須依賴鍵盤輸入和顯示閱讀。類似,用戶通常喜歡用鍵盤輸入某些東西,如:PIN號碼和密碼,而不愿意大聲說出來讓別人也聽到。??
語音撥號是當今個人無線設備中最常用的語音技術。語音撥號通常無需手和耳朵即可打電話,這是在開車時尤為重要的功能。語音撥號包括名字撥號,即按通訊簿上的名字打電話,另外還包括號碼撥號,即說出電話號碼。如圖1所示,其他潛在的語音應用包括:??
1.語音電子郵件?D?D 包括瀏覽郵箱、利用語音輸入寫電子郵件以及收聽電子郵件的讀出。??
2.信息檢索?D?D股票價格、標題新聞、航班信息、天氣預報等都可通過語音從互聯網收聽。例如,用戶不用先進入某個網址并輸入股票名字或者瀏覽預定義的列表,便可以命令:"我的股票報價,德州儀器。"??
3.個人信息管理?D?D允許用戶通過語音指定預約、查看日歷、添加聯絡信息等等。??
4.語音瀏覽?D?D利用語音程序菜單,用戶可以在網上沖浪、添加語音收藏夾并收聽網頁內容的讀出。??
5.語音導航?D?D在自動和眼不夠用的條件下獲取導航的完全語音輸入/輸出駕駛系統。??
語音技術問題??
語音系統必須滿足某些基本使用要求。很顯然,語音輸出必須清晰,使用戶能夠聽懂。在給定應用用途中,ASR還必須支持自然語音。何為自然可謂變化無常,包括從逐字發出的簡單名字和指令、到說出大量詞匯的連續語句。另外,各人的自然語音以及發音方式也不同,因此系統應該能夠靈活接受不同說話人說話。識別引擎必須準確,否則用戶不會使用這種技術。??
語音的系統要求是需要進行大量處理,有可能包含巨大的內存,這取決于所支持的詞庫。就基于服務器的應用而言,無線帶寬的使用會有所增加。這些因素也會影響其他系統考慮。應用的MIPS和傳輸要求越高,給定系統的功耗就越高,因此會縮短電池壽命或導致更頻繁的充電。當應用需要采用處理器外置存儲器時,響應時間也有可能增加。??
某些應用權衡考慮有助于通過放棄手持設備不必要的功能來降低系統要求。只識別少量詞語、分散語音的基于說話人的系統會比識別大型詞庫、連續語音的基于說話人的系統要求少很多的資源。對其他語言的支持會增加處理要求并且使應用所需要的內存加倍。抗噪音和抗干擾性是重要的特性,但是會增加復雜性和內存要求。??
很顯然,開發商在增加說話人依賴性、連續語音、詞庫規模和語言支持等功能時希望盡可能少地降低基本應用的性能。有某些選項有助于減少語音技術中的性能降低,如:分布式語音識別(DSR)。DSR把識別任務分割開,這樣手持設備可以把原始語音轉換成頻譜特性向量,同時服務器執行識別過程。這種方法以及類似的分布式TTS方法依賴于處理方法和傳輸協議的標準化。盡管這些技術頗有前途,但是,開發商仍然面臨個人手持設備中語音應用的有限資源。??
因此,為語音等高性能應用選擇適當的平臺與精心設計應用的功能同樣重要。這種平臺必須具有強大的處理能力,同時可以實現高水平的功效,不僅僅是在內核操作中,而且在處理內存中也應如此。應該有足夠的MIPS來支持多媒體、安全和其他補充應用。提供集成新算法能力的可編程性也很重要。最后,這種平臺必須包含為支持模塊化應用開發所設計的軟件架構,以幫助開發商快速把產品推向市場。??
OMAP技術:卓越的語音平臺??
TI的OMAP平臺為在個人手持設備中開發語音應用提供卓越的解決方案。 OMAP1510和OMAP5910處理器的雙內核架構集成了高功效的TMS320C55x?數字信號處理器(DSP)和高性能ARM9RISC微處理器。因此,這些OMAP處理器可提供語音所需要的算術集中的信號處理能力,同時還可提供系統層操作所需要的通用性能。OMAP710處理器是高度集成的單芯片解決方案,帶有用于無線通訊處理的、基于DSP的GSM/GPRS基帶、以及可低功耗執行多媒體應用的專用TI增強ARM925處理器。 OMAP1510、OMAP5910和OMAP710處理器可支持基于低端ARM的語音應用。它們還具有編碼兼容性,從而使開發商能夠把軟件應用集成到針對不同市場的個人產品。OMAP1510和OMAP5910具有DSP處理能力,可處理更集中的語音應用。??
雙核硬件架構??
OMAP1510 和OMAP5910的雙核硬件平臺設計用于最大化系統性能和最小化功耗。在用于個人手持設備時,DSP和RISC內核的結合給這些處理器提供了無與倫比的性能和功耗優勢。RISC極其適合處理控制代碼,如:用戶界面、OS和高級應用。另一方面,DSP更適合語音應用所需要的實時信號處理功能。??
如圖2所示,OMAP1510架構包含用于兩個處理器的片上高速緩沖存儲器,可降低到外部存儲器的平均發送次數,同時消除不必要的外部存取的功耗。兩個內核的內存管理單元(MMU)提供虛擬物理內存轉換。低功耗操作模式可保存不使用或者很少使用處理器期間的能力。??
OMAP1510 架構還包含兩個外部存儲器接口和單個內存端口。這三個存儲器接口彼此完全獨立,可同時從任何一個內核或者從DMA單元進行存取。每個處理器都具有自己的外設接口,其不但支持到外圍設備的直接連接同時還支持從處理器DMA單元的DMA連接。定時器、通用I/O、UART及監視定時器等在內的片上外設以及彩色 LCD控制器均支持OS一般的要求。??
OMAP5910架構不但提供了片上系統功能同時還帶有諸如192KbytesRAM、USB1.1主機和客戶機、MMC/SD卡接口、多通道緩沖串口、實時時鐘、GPIO及UART、LCD接口、SPI、uWire及i2s等在內的外圍設備。與 OMAP1510類似,OMAP5910也包含內置的處理器間通訊機制,其提供與DSP連接的透明接口,以實現更輕松的代碼開發。??
為OMAP平臺設計語音應用??
在OMAP 開發商網絡中,TI正與多家正在開發ASR、TTS、DSR和語者驗證等在內的語音技術的主要第三方開發商展開合作。這些公司在市場中都有自己獨到的優勢,而且他們還可以把這些優勢帶給OMAP用戶。同時,TI內部開發了充分利用了OMAP平臺的雙內核架構優勢的、專門用于小詞庫以及小型語音識別等的語音識別軟件。TI嵌入式語音識別器(TIESR)可提供如下功能:與說話人無關的指令以及控制功能與說話人無關的連續數字識別與說話人無關的連續語音識別與說話人有關的名稱撥號、指令以及控制動態語法和詞匯功能,可提高語音瀏覽等應用噪音環境中的抗擾性用于增強性能的可選說話人適配功能??
語音應用示例??
InfoPhone 是基于這種嵌入式架構的語音應用的一個典型示例,它由TI開發,專門用于無線領域。InfoPhone是一個可實現語音功能的Java應用程序,同時它還可實現有用信息的語音檢索。TI為InfoPhone開發了三種原型的基于語音的信息服務,諸如為用戶提供股票報價、航班信息和天氣預報。每種服務都包含 50個詞語的詞庫,因為具有動態詞庫功能,系統可以在詞庫間完美切換。應用設計使鍵盤輸入在說話期間一直保持有效狀態,從而在環境中斷或者用戶需要進行私密輸入時提供靈活性。圖3說明InfoPhone示例中的語音識別架構。??
開發支持??
TI的OMAP軟件和開發支持服務可幫助開發商快速向市場推出語音應用。開發商可自行采用TI的包括DSP/BIOS實時操作系統(RTOS)、 Code Composer Studio IDE、以及可確保現場軟件的模塊化開發的TI算法標準等在內的eXpressDSP?實時DSP技術進行DSP開發。用于OMAP平臺的Code Composer Studio在統一環境中集成了所有主機以及包括用于ARM9RISC內核等在內的目標工具,以便實現輕松配置及優化。為了進一步簡化開發過程,設計了 OMAP5910和OMAP1510處理器的內置處理器間通訊機制,可用來消除開發商獨立編程RISC以及DSP的需要,從而極大縮短編程時間并降低編程復雜性。??
另外,TI還為OMAP平臺開發了Innovator成套開發工具。創新開發工具包提供個人系統的硬件和關鍵軟件,以促進在現實用戶條件下開發語音應用。
評論
查看更多