智能音箱從能聽到會看,多模態交互將成為趨勢。
8 個月時間,在天貓精靈 X1 智能音箱從發售到銷量 200 萬后,阿里巴巴人工智能實驗室舉行了 2018 年的第一場發布會(3 月 22 日),而這一次發布的核心產品,有點出乎大家意料。
用一個 49 元的手機支架,和幾乎人人都有的智能手機,天貓精靈進行了一次變身,不但變得比以前更加聰明,還擁有了全新的“多模態感知系統”。作為 2017 年的行業黑馬,本次發布會上讓人激動的這件新品不再是硬件,而是重量級的系統升級——AliGenie 2.0,我們不妨先來看看這段官方視頻演示:
AI 變奏曲:智能音箱從能聽到會看
毫無疑問,當天發布會上的主角正是阿里巴巴人工智能實驗室的 AliGenie 2.0,它加入了最新的 AI 視覺系統,并嘗試去融入更多情感操作。阿里巴巴人工智能實驗室負責人淺雪稱之為“天貓精靈火眼”。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本從原本能聽能說,變成了如今的能看能聽能說。
能看是系統升級的重點,“從觸覺到聽覺,再到視覺,最后是情感反饋,多模態交互是 AliGenie 2.0 的核心”,對于此次系統升級,淺雪認為它最大的不同是人機交互的變化,尤其是因此產生的與眾不同的用戶體驗。
阿里巴巴人工智能實驗室負責人 淺雪
搭載“火眼”的天貓精靈,在原本的天貓精靈 X1 上增加了一個手機支架,通過把手機連接到天貓精靈 App,手機屏幕出現了一只可以交互的“天貓”,通過手觸摸,它可以簡單和人互動。
這只“寵物貓”擁有 AI 識圖能力。依靠手機前置攝像頭,天貓精靈有了能“看懂”周圍事物的“眼睛”,它可以識別 2D 和 3D 信息。具體來說,有三個重要能力加入。
第一,當你手拿兒童故事書,或者識字卡靠近,詢問天貓精靈“這是什么”時,它可以“看到”并立即為你朗讀卡片和故事書的內容。
其次,通過連接阿里健康的數據信息,天貓精靈有了“判斷”藥品的能力,可以迅速識別 40000 種中國家庭常用藥。當你手拿藥品盒子在手機攝像頭前詢問時,這只“貓”會手拿藥盒,告訴你它的名稱,功效甚至有效周期。
第三,同時也是最讓人驚訝的能力,天貓精靈具備了基礎的 3D 圖像識別的能力。當手持蔬菜、水果等物品靠近攝像頭詢問時,它可以很快告訴你這是什么物品。
和前兩種的 2D 圖像識別不同,3D 識別物體要做到的是不論你用何種角度拿著物品靠近攝像頭,它都能判斷出物體是什么,按照產品總監釋空的解釋,這(難度)要比 2D 識別大得多。
因為 3D 識別不僅在考驗系統對周圍環境光線的適應、同時也要對你手持物體角度進行準確把握,還要有足夠的數據信息可以搜尋出物體。比如在你拿著一個已經發霉變色的西蘭花時,要想被識別出來,就必須知道這還是西蘭花,這對于機器來說并不容易。所以目前,天貓精靈能識別出的蔬菜水果不多,只有幾十種,但這種能力卻對于將來識別更多物品(包括商品),甚至于人臉都具有重要意義。
此外,發布會很重要的一部分在于天貓精靈的邊界擴展,看到前面幾個功能也許有人能猜到,閱讀故事書,教人讀書寫字,這是面向兒童的能力。而幫你識別藥品,告訴你藥品功效,再告訴你還有多久會過期,這是更貼近老人的能力。
因此天貓精靈不但聯合了國內 12 家少年兒童出版社,對市面上 117 套兒童讀物以及繪本進行了有聲讀物化,還將通過馬云公益基金會將天貓精靈帶到更多偏遠地區,為當地學校教育以及兒童陪伴問題提供新的解決思路。
盡管發布會還另外帶來了阿里巴巴人工智能實驗室的路由器、投影儀以及迷你版天貓精靈,但最核心的主角無疑就是全新升級的 AliGenie 2.0 系統。這不由得令人好奇,當國內外廠商紛紛升級了帶屏幕的智能音箱時,為何阿里巴巴選擇了這樣一個“非常規”的升級方式?不是通過賣新的產品,而是用 App 和用戶自己的手機,這樣一個更加“軟著陸”的方式來使用新產品(也是新系統)呢?
殊途同歸的多模態交互
一個現狀是,帶有屏幕的智能音箱價格與人們期望存在差距。市面上帶屏幕的智能音箱,少則近千元,多則數千元。可以說在目前階段,當用戶考慮用數千元買一個帶屏幕的智能音箱時,他們會猶豫,并會和一些其它成熟產品(如 iPad 等)比較其是否值得?
這也是擺在包括淺雪在內的團隊成員面前同樣的問題,因此需要考慮的就是:如何用極低的成本,盡量做到現階段能實現的最優體驗?團隊內部對此曾出現過分歧,用釋空的說法,最終他們認為,由于目前階段帶屏幕的智能音箱產品不具有足夠的議價,因此就做出了用手機來完成這些的方案。
這讓人想起了谷歌在 VR 推進早期曾大力推行的產品“CardBoard”。
紙板做的廉價 VR 眼鏡——Google CardBoard
在 VR 產業剛剛起步階段,市面上 VR 產品不但價格貴,體驗也并不優秀,于是谷歌采取了用廉價紙盒做 VR 眼鏡的策略,滿足了大家在好奇期的想法,并成功向大眾普及了 VR 這一概念,這種方式不得不說是有其必要性的。
“我們最關注的事情是如何讓每個用戶用最低的成本入門就能完全體驗。”淺雪說,這種觀點最終指向的目標是給每個人做有用有價值的人工智能,所以嘗試出這樣的方案在意料之中。
但在大方向上,智能音箱不應該僅僅只有語音交互,應該是語音、視覺、情感多模態交互的觀點,這卻是 AliGenie 系統,乃至整個智能音箱領域目前達成的一個基礎共識。
的確,智能音箱優點很多,但嘗試過的用戶都會認為它不夠完美,聲音交互的特性讓它在很多場景中不夠靈活,而要解決這個問題,利用屏幕也許是一個途徑,今年開年來,伴隨 CES 2018 展會,我們見到了國內外眾多帶有屏幕的智能音箱,谷歌甚至組建了一個“Smart Display”聯盟,想要讓這一趨勢迅速蔓延開來。
從左到右,LG、聯想、JBL 的 Smart Diaplay 產品
在淺雪看來,阿里人工智能系統 AliGenie 2.0 系統升級,它的“能力比一塊屏幕更重要”。目前階段下,通過一個 App 和手機就能體驗到的事情,既能讓用戶擁有更好的心理預期,又能在吸取經驗進一步打磨未來產品,這樣的嘗試能讓更多用戶理解,有了屏幕交互的智能音箱不同于 iPad,語音控制和屏幕觸控也不是互相替代,而是互補關系。
一旦有了這種體驗,大家就會發掘出自己真正需要的到底是怎樣的智能音箱。如發布會現場演示的功能一樣,教育兒童,可以通過看到卡片和圖書來給孩子講故事;幫助老人,可以通過看到藥品盒子就說出功能功效和截止日期。這種輕度體驗能在生活中慢慢培養人們對于智能音箱的新的認知。
如果說 2017 年是國內智能音箱競賽元年,那么站在賽道上的阿里巴巴無疑通過雙 11 的 100 萬臺銷量成為了行業黑馬。而隨著 AliGenie 2.0 的推出,2018 年人工智能產品將更具擴展性,多模態,讓人更自如的交互無疑將成為接下來各大廠商關注的重點。
-
谷歌
+關注
關注
27文章
6173瀏覽量
105639 -
vr
+關注
關注
34文章
9641瀏覽量
150419 -
智能音箱
+關注
關注
31文章
1783瀏覽量
78662
發布評論請先 登錄
相關推薦
評論