現(xiàn)在在汽車行駛過程中,通過喚醒車載語音助手實(shí)現(xiàn)導(dǎo)航、播放音樂、開關(guān)車窗等這些的簡(jiǎn)單操作對(duì)用戶已經(jīng)沒有多少吸引力了。
或許是受到智能音箱、手機(jī)、機(jī)器人的語音交互功能帶來的人性化、趣味性體驗(yàn)的影響,又或是在自動(dòng)駕駛、智能汽車風(fēng)潮的大力推動(dòng)下,用戶從最初對(duì)車載語音只要求能聽到聽懂就好變成希望它能夠像真正的人工智能助手一樣,不只是一問一答的簡(jiǎn)單人機(jī)對(duì)話,而是真正傾聽他們的需求,給與情感上的反饋。
這樣的要求好像對(duì)于現(xiàn)在發(fā)展還不夠健全的車載語音交互來說,有點(diǎn)困難。當(dāng)我們暫且拋開車載語音交互,單純談?wù)撜Z音交互的應(yīng)用,會(huì)發(fā)現(xiàn)它其實(shí)已經(jīng)在其他的場(chǎng)景中得到了較為成熟的應(yīng)用。
比如智能家居就是一個(gè)很明顯的例子,諸如國(guó)外的谷歌、亞馬遜、蘋果,國(guó)內(nèi)的百度、小米等公司他們都可以使用旗下的智能音箱或是在手機(jī)端下載APP來實(shí)現(xiàn)對(duì)家居、電器下達(dá)語音指令實(shí)現(xiàn)語音控制。
一般討論的語音交互包括三個(gè)模塊,語音識(shí)別ASR(將聲音轉(zhuǎn)化為文字)、自然語言處理NLP(機(jī)器理解人類表達(dá)的意思,并給與反饋)和語音合成TTS(將文字轉(zhuǎn)化為聲音)。
語音識(shí)別對(duì)于國(guó)內(nèi)外具有一定技術(shù)研發(fā)實(shí)力和積累的公司已經(jīng)不是一個(gè)緊迫的問題,真正現(xiàn)在困擾供應(yīng)商和用戶的是自然語言處理部分,即語義理解,不僅是識(shí)別到用戶的語音指令,更重要的是理解用戶指令的含義。
比如對(duì)Siri說,今天下午五點(diǎn)幫我預(yù)約XX餐廳,這句話識(shí)別起來比較容易,但Siri卻無法理解該句話表達(dá)的意思,因?yàn)樗姓Z義上的歧義。語音交互其實(shí)最終也是消解歧義和模糊的表達(dá),來達(dá)到理解對(duì)話目的和用途。
智能化和情感化的車載語音
車載語音也遵循同樣的原理,只是發(fā)展困境顯然比其他類型終端的語音交互艱難得多。汽車無人駕駛級(jí)別的不斷遞推,也是車載語音交互持續(xù)進(jìn)化的一個(gè)過程,它們是一個(gè)相輔相成的關(guān)系。
2000年寶馬推出了第一款具有語音識(shí)別的汽車,當(dāng)時(shí)這款汽車語音識(shí)別能力非常有限,根本無法滿足用戶車內(nèi)的交互需求,之后隨著人工智能、AI、大數(shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,車載語音也實(shí)現(xiàn)了一次華麗的蛻變。
今年9月份,外媒報(bào)道,新梅賽德斯-奔馳A級(jí)車的車載語音角將很快可以實(shí)現(xiàn)駕駛員與汽車的深度融合,利用本地?cái)?shù)據(jù)和云端數(shù)據(jù)解鎖更多豐富的場(chǎng)景和功能。例如,當(dāng)用戶餓了,可以向語音助手尋求有關(guān)餐廳的建議,包括食物種類、餐廳風(fēng)格等個(gè)性化需求。
這其實(shí)才是用戶對(duì)車載語音真正的期待——向智能和情感方向的演進(jìn)。在這方面科幻電影倒是發(fā)揮的淋漓盡致,在電影《Her》中,主人公西奧多愛上了人工智能系統(tǒng)OS1的化身薩曼莎,薩曼莎是基于深度學(xué)習(xí)算法而形成的,雖然是個(gè)虛擬的女友,但她對(duì)人類情感的洞察卻絲毫不亞于真實(shí)的人類,不僅可以精確地捕捉到主人公語言表達(dá)的意圖,還能分析出當(dāng)時(shí)的情緒狀態(tài)和變化。
對(duì)車載語音來說這種智能和情感是如何體現(xiàn)的呢?
試想一個(gè)場(chǎng)景:在下班開車過程中,對(duì)車載語音助手說一句,“XX,下班了來首音樂”,基于對(duì)下班這個(gè)詞的語義理解,它推測(cè)出用戶現(xiàn)在需要的是舒緩、安神類的歌曲,而不用再次詢問用戶,播放什么歌曲。減少了無意義的對(duì)話,增加了交互和溝通的效率。
語音交互是車載人機(jī)交互的主入口
人機(jī)交互的本質(zhì)是人與機(jī)器的交流,而交流必定是雙方之間有互動(dòng)有反饋,人對(duì)機(jī)器發(fā)出指令,機(jī)器也要能在極快的時(shí)間內(nèi)做出回應(yīng),這才稱得上是優(yōu)質(zhì)的人機(jī)交互體驗(yàn)。從物理按鍵、觸控、語音交互、手勢(shì)控制,車內(nèi)交互方式的更迭與共存是一個(gè)體驗(yàn)升級(jí)的過程。
車載語音能夠不斷的進(jìn)化變得越來越懂用戶,這與它自身具有優(yōu)勢(shì)條件密不可分。車內(nèi)的交互大部分時(shí)間都處于汽車行駛狀態(tài)下,安全駕駛成為交互的首要考慮選項(xiàng),這也是為什么在中控屏幕上采用觸控而被大家吐槽。
因?yàn)橛|控意味著用戶需要頻繁低頭看屏幕來確認(rèn)自己的操作是否正確,畢竟在中控屏上實(shí)現(xiàn)盲操作還是一件挺困難的事情。雖然對(duì)于部分經(jīng)驗(yàn)豐富的老司機(jī)來說,使用物理按鍵能夠?qū)崿F(xiàn)部分功能的盲操作,但絕大多數(shù)的普通司機(jī)并沒有掌握這一項(xiàng)技能。
與之相對(duì)比,語音控制就成為了車內(nèi)交互的首選方案。它只需要用戶發(fā)出語音指令就可以完成相關(guān)操作,不用低頭、不用動(dòng)手,全程確保駕駛員的注意力集中在駕駛上。
此外,語音交互增加了用戶與汽車之間的互動(dòng),并且這一互動(dòng)是具有趣味性和新鮮感的,它能夠用更加人性化的方式給予用戶反饋,而不是冰冷的機(jī)械觸感。這也契合了近年來智能座艙的內(nèi)涵,讓汽車從出行工具轉(zhuǎn)變?yōu)橹悄艿纳钇脚_(tái)。
現(xiàn)階段已經(jīng)有很多科技公司在語音交互上取得了新的突破,在2018年Google I/O 大會(huì)上,展示了谷歌的語音助手Google Assistant是如何模仿人類與電話另一端的人工客服人員進(jìn)行問答交流。
有意思的是,語音助手在流暢的表達(dá)了自己的意圖后,還模仿人類的口語,發(fā)出了enmm這種表示停頓的語氣,當(dāng)人工客服在回答“稍等,我查詢一下”之后,谷歌語音助手試圖去理解這句話的含義,發(fā)出了表示疑問的嗯哼。
盡管這種“高仿人類”的人機(jī)對(duì)話還無法進(jìn)行商業(yè)落地,但它清晰地向外界傳輸了一個(gè)信號(hào)——未來的語音交互應(yīng)該具備什么樣的能力。
另一大語音科技巨頭亞馬遜旗下在今年9月發(fā)布了車載語音產(chǎn)品Echo Auto,將旗下的語音助手Alexa整合到汽車中,拓展出行使用場(chǎng)景,為駕駛員提供更加自然、流暢的語音交互體驗(yàn)。
Echo Auto不僅可以播放音樂、查看新聞、打電話、設(shè)提醒、管理日歷等常規(guī)操作,還能夠與智能家居相連接,行駛過程中可以命令A(yù)lexa關(guān)閉家中的電器或是關(guān)閉車庫大門等。
不管是技術(shù)發(fā)展的趨勢(shì),還是用戶的需求導(dǎo)向,可以肯定的是,未來的車載語音交互必定是在人工智能浪潮的推動(dòng)下朝向更智能、更人性的方向邁進(jìn)。
-
智能化
+關(guān)注
關(guān)注
15文章
4895瀏覽量
55428 -
車載語音
+關(guān)注
關(guān)注
0文章
19瀏覽量
10375
原文標(biāo)題:車載語音的下半場(chǎng):智能化和情感化 | GGAI頭條
文章出處:【微信號(hào):ilove-ev,微信公眾號(hào):高工智能汽車】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論