由B12、觀數·涂子沛頻道主辦,智東西、良倉加速器、騰訊大浙網、創享基金聯合主辦的第二屆萬物互聯創新大會「創業下一潮水:大數據與智能時代」在杭州召開。本次大會邀請國內外的尖端大腦,用一場盛大的跨界聚會,帶你突破人類延伸的極限,探索人工智能的未來,創造腦洞大開的生產力。
圖1 思必馳VP雷雄國演講現場
你一定有所意識,人工智能的應用已經逐漸滲透到生活的方方面面,并開始影響、改變人們的各種習慣。在人工智能覆蓋的眾多應用里,語音識別無疑是最接地氣也是落地最快的,例如,語音助手已經成為了智能手機的標配。
不過,語音識別的下一個戰場并不是智能手機行業,國內外企業已經紛紛把目光投向了市場空間更大的物聯網領域,這是語音識別乃至人工智能領域的一個最新的動向。在昨天的第二屆萬物互聯創新大會上,思必馳副總裁雷雄國分享了語音識別公司的下一個突破口以及面臨的挑戰。
語音識別將成為萬億級的物聯網設備的標配
其實上午有聊到很多的例子,訊飛聽見的語音識別其實已經達到一個很高的水平。怎么樣才能讓未來機器為人服務,能夠幫人完成任務這件事情,事實上還有很長的路要走。我們回頭來看互聯網以及交互方式的發展,能夠看到一個比較清晰的脈絡。
我們已經完成了從PC互聯網到移動互聯網的跨越,下一個階段將是物聯網(IoT),而在這個發展過程中,用戶數基數是呈倍數增長的。雷雄國認為,圍繞硬件形態以及聯網的形態,在上述轉變過程中,交互模式也在不斷的發生變化。
傳統的PC端,無外乎網頁的搜索,文字形的。再到手機端是通過觸屏的方式,甚至有一些帶語音交互的APP,甚至包括手機自帶的一些語音服務,都逐步從實驗室走向大眾消費者。舉個例子,蘋果早在iPhone 4s上就加入了語音工具siri,在此之后,siri在每一代iPhone中都有質的提升。從最開始命令式的控制,到最后聊天式,再到現在蘋果未來大的方向,它真正能夠達到一個助理、個人秘書的產品發展方向。
不過,智能手機市場已經遇到了天花板,語音識別公司也必須做出戰略上的改變。那么手機之后,還有什么設備會集成語音識別的功能呢?
雷雄國給出的答案是所有物聯網設備,小至智能音響,大到汽車、風力發電機,這些設備的交互方式都會因語音識別在未來得到改變。而這樣的改變也是必然趨勢,“因為它可能沒有屏幕,或者屏幕非常小,這個時候語音的交互顯得尤為重要。”
毫無疑問,如果每一臺物聯網設備都植入語音識別功能,那么以萬億級出貨量的物聯網市場來算,這將會是一個巨大的市場空間。
挑戰:如何從聽見到聽懂?
這和語音交互密不可分,可以說語音交互第一個入口就是語音識別,語音交互能夠得到快速的發展得益于聲學模型、語言模型以及聲學處理這三個核心技術的逐步成熟,以及移動互聯網時代收集的大量數據。
不過,雷雄國也坦言,雖然語音識別已經達到非常高的可用化程度,但要從聽見到聽懂,還有很多挑戰要克服。例如,對于人說話習慣的適應,以及在人使用這個設備時不同的場景,不同的噪音環境都會有比較大的條件。在這些深入垂直領域需要更多的技術人員,以及創業的團隊,甚至像BAT這些大公司投入比較大的力量,把這些核心技術攻關掉。
從學術角度講,有一種語義不確定性,即同一句話,它能夠代表的意思根據上下文,根據你所在的用戶使用場景,會是非常大的不一樣。
雷雄國表示,圍繞這個不確定性,在學術界語音識別公司要從語義,以及從多輪交互上,甚至在統計模型上做一些比較深入的解決方案出來,才能準確的識別信息;另外,深度神經網絡也將在語音識別問題上發揮重要作用。
除此之外,在機器人以及其它形態的智能硬件中,因為交互距離會比手機更遠,所以還需要加入一些遠場降噪的核心技術,同時在應用場景上需要把一些回聲對消做上去,這樣使得整個交互場景更加的人性化,體驗會更好。
具體來講,從聽見到聽懂的過程就是人機對話。雷雄國表示,人機對話可以分成三類:第一類,閑聊式的,舉個例子,用戶說“我餓了”,siri會跟你說,你餓了就去吃飯唄,它的應用場景非常有限;第二是問答式對話,例如,用戶問現在是幾點鐘了,語音助手就會給出確定的回答;第三類是最熱的任務式對話,它會結合你個人很多信息,然后綜合去判斷接下來怎么樣去做歸零,完成一個任務。
這是一個完全不同的場景,例如你還是說我餓了,任務式對話會問你要吃什么菜,什么口味,大概是什么價位,以及你能夠承受送貨的時間是多少,等等這一系列的對話,通過這種對話式交互之后,最后才幫你解決問題,這是對話式交互核心要素。
雷雄國介紹,在任務對話模式下,要完成“我餓了”到實現定餐的閉環,有兩個核心點:第一是語義,一定要理解“我餓了”,他并沒有說要買什么東西,一定要理解他在這個情景下需要定餐;第二,對于這個意圖的跟蹤,多輪次的交互要結合上下文,甚至在縱向緯度需要結合你的日常,例如,未來我們可能會和阿里后臺一些數據做一些對接,對于你餓了的習慣做一些多緯度的決策依據,做更人性化的自然語言交互。
這和傳統一輪式的語音交互(語音輸入進去,理解后給一個反饋)有很大的區別,我們需要有關于對話的管理,以及對于環境和當前對話所在的知識理解更為系列的后臺知識庫,圍繞這些知識庫做不同的反饋。最終的效果就是,不同的人說相同的話,機器也能給出不同的反饋。
??中國為何造不出Echo??
在眾多語音識別和智能硬件的結合案例里,亞馬遜的Echo無疑是最受追捧的一個產品。但遺憾的是,中國有大量的智能硬件公司,也有不少優秀的語音識別企業,卻并沒有一款像Echo這樣的產品。
雷雄國認為這主要有兩個原因:
其中一個很重要的原因是交互并沒有做好,我們知道亞馬遜在做Echo這件事情上面投入非常大,第一是2C產品本身的事情上。萬眾創新,雙創的這兩年里死了非常多的創業企業,這里說明一件事情,要把硬件2C產品做好是非常難的一件事。
第二,人工智能整個語音交互,以及它背后不僅僅是語音識別,包括語義,包括你們聽懂它之后,里面的內容和服務都是非常大的挑戰。我們能夠欣喜的看到國內有出類似的產品,但是并沒有把這個熱潮,把這個產品做成一個爆款。
綜合這兩個原因,我們可以理解為語音識別的落地需要以模式創新和技術創新為基礎,盡管要做到這兩點道阻且長,但可以確定的是,未來語音識別將無處不在,也是最有效地交互方式之一。
-
物聯網
+關注
關注
2909文章
44701瀏覽量
373962 -
語音識別
+關注
關注
38文章
1742瀏覽量
112691 -
人工智能
+關注
關注
1791文章
47350瀏覽量
238753
發布評論請先 登錄
相關推薦
評論