1 智能語音技術發展與siri
智能語音技術發展過程可以理解為兩個階段,第一是輸入和輸出階段,即識別與合成,第二是理解和思考階段,即語義理解、對話系統、人工智能反饋。并且每一個細分領域均為單獨研究,例如語音識別、自然語言處理、聲紋處理,語義解析等等。
siri 目前最大的優勢在于語義單項理解的算法,在一個限定的領域下,siri表現確實很好,但在整個語音領域內,尤其不限定領域和語音識別不穩定的情況下,顯得有些后勁不足,這也與目前技術有關。而思必馳與siri不同的地方在與交互的理論,目前思必馳以任務型對話為目標,并專注于此。
2 一體化綜合解決技術增強用戶體驗
目前的智能語音基本是單獨模塊定義單獨的功能,例如語義理解、語音識別模塊,彼此之間沒有控制與調度,這也是造成目前語音延遲現象的部分原因,而造成延遲另外的原因是語音的處理、理解、交互系統設計方式。
用戶最希望的是智能語音界面能像人與人的交流一樣,語音能夠迅速反饋。但目前,雖然單獨語音識別很多單位都能做的很快,但組裝成交互系統之后就大都無法做到這一點了。目前思必馳推出的一體化解決方案,針對利于用戶體驗方面進行優化,達到端到端的用戶體驗,優化整個控制流程,在識別的基礎上同時進行輸出,達到一個快速智能反饋的效果。我們是面向終端用戶體驗去做語音交互優化,而不僅僅提供一個模塊而已。
3 人性化交互的智能語音方向
未來的智能語音交互發展方向一定是混合發展模式,將以用戶為中心,綜合應用全面的語音技術,而不僅僅是單純的語音識別。第一,智能語音技術會與環境、語境自適應的結合;第二,語音的發展在自然場景下應用會越來越多,例如在高噪聲環境中的處理是未來的一個方向;第三,結合上下文的語義理解以及端到端的語音交互解決。目前單獨的識別以不能解決所有問題與滿足用戶需求,將識別、理解、對話的交互控制等融合,提供整套的解決方案才是最終的方向。
人工智能層面的語音技術中,單純的識別率是以科研指標為中心,而人工智能角度與工程科研指標在某些方面截然不同。而我們一直以用戶為中心,面向指標是令人工智能語音真正人性化,在多類環境下準確識別并反饋,以個性化色彩進行交流。語音交互的未來應當是面向用戶,人性化的智能交互,而非過去模塊化的交互。
俞凱博士背景:擁有劍橋大學語音識別專業的學術背景,也是國內學術界“青年***”里唯一一位來自智能語音技術行業領域的語音專家,曾多次獲得美國國家標準局和美國國防部語音識別評測冠軍,是國際最早的認知型人機口語對話系統原型的主要實現者,在上海交通大學創建了智能語音實驗室。
-
人工智能
+關注
關注
1791文章
47314瀏覽量
238626 -
智能語音
+關注
關注
10文章
785瀏覽量
48779 -
思必馳
+關注
關注
4文章
285瀏覽量
14288
發布評論請先 登錄
相關推薦
評論