《IT經理世界》雜志專訪思必馳CEO高始興,2016年06月出版。
語音作為人機交互的重要方式,要能夠形成一個閉環——信息搜索,服務獲取,任務達成。
除了調侃解悶,語音作為人與智能設備的交互方式之一,現在能做什么?
思必馳創始人、CEO高始興拿起手機,沒有直接解鎖屏幕,而是按下一個語音鍵說,“給浩然發短信”,一秒鐘左右,手機里傳來溫柔女聲“短信內容寫什么”,“告訴他我已經到北京了,明天會到深圳,我們見個面,幫我訂機票”。
原本我們發短信或者打電話,都得先解屏手機,再點擊“短信”或撥號,數個步驟后才能完成,而思必馳提供的這個針對智能硬件的解屏語音產品,即便設備沒有可觸摸的屏,發短信/打電話也相當便捷。
“你再想想,未來搜索會怎么‘搜’?”高始興很有興趣采訪先從這個話題開始。在他看來,會影響到未來搜索的主要因素有幾個:
一是整個硬件時代的迭代,從PC互聯網到智能手機移動互聯網,再到智能硬件的物聯網,硬件端已經發生了翻天覆地的變化;相應地,人機交互的媒介也變化巨大,從鍵盤、鼠標,到觸屏,再到語音、手勢、虹膜等;在這樣的大背景下,未來用戶的搜索會越發的場景化,搜索的目的從傳統的信息查詢,轉變為服務的獲取、任務的完成。
思必馳希望能夠實現的是,語音作為人機交互的重要方式,要能夠形成一個閉環——信息搜索,服務獲取,任務達成。
裝上“大腦”
高始興相信,搜索再往下走,特別在智能硬件端、在物聯網上,語音交互一定是核心人機交互手段之一。“語音是唯一能傳遞復雜信息的交互手段,人臉、虹膜、手勢,現在來看還只能夠作為身份驗證,或者做一個簡單的搜索,要輸入復雜的信息一定是通過語音。”
在感知智能時代,語音交互更多的是簡單的語音識別,加自然語言理解,能夠實現簡單的搜索和控制;在認知智能時代,人機交互時機器更懂用戶,懂用戶的歷史、懂用戶的上下文,而且機器聽不懂可以去問,允許用戶打斷,允許用戶糾正,機器既有耳朵又有嘴巴更有大腦。這些是在感知智能時代做不到的。
高始興和思必馳團隊認為,在垂直領域里面,機器的認知智能應該能做到,聽不懂會問、知道怎么問、問什么,核心目的是幫用戶快速地完成任務,這是人機對話的下一個階段,也是思必馳要做到的事情。
高始興介紹,思必馳現在主要做兩款產品:
一是AIOS(AISpeech Operating System)人機對話的智能操作系統,把思必馳全面的語音技術整合到操作系統里,把人機對話邏輯整合進去,把后端服務比如高德導航、音樂、天氣、聊天等服務整合進去,基于現在主流的操作系統,開發者(智能硬件方向上的合作伙伴)基于思必馳AIOS的標準化接口再做相應開發,讓智能硬件產品能說會道,擁有了人機交互的能力;
一是核心硬件模組的研發,比如智能芯片、麥克風陣列,這樣能配合思必馳的AIOS軟件,因為有些場景里的語音交互需要硬件的配合,才能讓交互的體驗、交互的效率更好。比如聲源定位,就需要環形麥克風陣列這樣的硬件支持。
去年10月,蘋果收購了一家英國軟件創業公司VocalIQ,加強Siri語音助手服務。高始興稱其為“全球做人機對話最棒的公司”。而該創業公司的創始人之一俞凱,就是高始興創業思必馳的搭檔。
“蘋果為什么要收購它,為了加強對話。未來通過語音和智能硬件物聯網之間進行人機交互的體驗,就應該像在智能手機上一樣。”高始興說,不恰當地把智能硬件物聯網的爆發類比做智能手機,手機在功能機時只是通信的工具,打電話發短信,交互非常難,但是在智能機時代,觸摸交互非常爽,在智能手機上可以聽音樂看視頻可以購物,能夠承載豐富的場景,更多的服務涉及到生活的方方面面,“人機能夠對話起來,是實現這種美妙體驗的第一步”。
力出一孔
語音交互技術不可能一蹴而就地去到那美麗新世界。
高始興認為,語音交互技術的發展需要經歷:基礎的語音技術的提升,比如語音識別技術如何能夠解決降噪、遠場等問題,在場景化里的語音技術還需要提升,如何更準確地聲源定位,做到更好的回聲消除等;全面的語音技術的應用,人性化的語音合成比如名人的聲音、家人的聲音,基于語音的情緒識別等,讓人機的語音交互更加友好;多模態的交互技術的結合,比如如何結合人臉識別、虹膜識別、手勢識別等。
這三個語音交互技術的發展方向,思必馳都在做,不敢也不能對任一個方向有所放松,這是智能硬件物聯網時代,實現真正具有認知能力的人機交互界面所必須具備的。
對于思必馳這樣的創業公司來說,它的專注體現在,專注于智能硬件的語音交互,主要是針對車載、智能家居、機器人等智能硬件產品做垂直領域下的對話式交互。
思必馳已于2015年10月和12月,相繼推出針對車載產品的AIOS For Car智能對話操作系統和針對機器人的環形“6+1”遠場麥克風陣列。思必馳的合作代表型案例包括小米藍牙語音體感遙控器、海爾馨廚冰箱、樂橙“小樂”機器人、捷渡中國“遠界”智能后視鏡等。
一個創業公司要成功必須要專注,力出一孔。高始興介紹,劍橋商學院管理學碩士畢業后,曾從事過基于語音技術的漢語語音糾正、英語語音測試等方向的創業,也就是之前的思必馳。2014年把教育事業部分拆出去,成立了“馳聲科技”,2015年被網龍全資收購。2014年全面轉型之后,思必馳將精力和資源主要放在智能硬件領域的語音交互技術方面。
在車載、智能家居、機器人三個智能硬件方向上,是均勻著墨,還是看市場成熟速度?高始興認為,從底層技術上,這些語音交互技術的應用場景有很多共同的問題要解決,當然在不同場景里應用是有差異化,產品化速度和市場成熟速度也會不太一樣,車載市場會更快成熟一些,智能家居次之,機器人未來市場很大但是現在落地比較難。
高始興相當推崇亞馬遜的智能音箱Echo,亞馬遜視為“家中的智能語音中心”型產品,其戰略重要性堪比Kindle。高推崇Echo,一方面是其語音交互技術已經做得很棒;二是它已經打通了服務,能做一些人機對話;三是它已經初步構成了一些交易閉環,已經可以聲紋支付。今年亞馬遜在美國超級碗大賽期間的廣告,主角就是Echo。
高始興和思必馳團隊想做的,就是,讓中國一個個智能硬件設備,都能成為Echo,給每一款智能硬件裝上耳朵嘴巴和大腦。而現在,是剛剛開始。
-
物聯網
+關注
關注
2909文章
44561瀏覽量
372800 -
智能語音
+關注
關注
10文章
782瀏覽量
48758 -
語音交互
+關注
關注
3文章
286瀏覽量
28002
發布評論請先 登錄
相關推薦
評論