2020年AI多模態(tài)交互技術將會迎來較大爆發(fā)。12月19日,在炬芯科技第四屆Techlife炬芯2019多模態(tài)交互技術開發(fā)者大會上,來自喜馬拉雅、達摩院、玩瞳科技、IP方CEVA的行業(yè)大咖們,從內(nèi)容賦能、語音賦能到視覺算法賦能、IP加速等多角度,共同探討多模態(tài)交互在教育上的落地情況。
多模態(tài)交互技術賦能新智能硬件
喜馬拉雅今年的用戶突破6億,擁有7000萬以上的主播,其中100萬以上是認證主播,在整個音頻行業(yè)的覆蓋率73%,每個用戶平均每天的播放時長超過170分鐘,喜馬拉雅硬件生態(tài)事業(yè)部總經(jīng)理余濤表示,“我們的目標是,提供高度粘性,給用戶提供有價值的產(chǎn)品。”
喜馬拉雅硬件生態(tài)事業(yè)部總經(jīng)理余濤
硬件生態(tài)事業(yè)部主要做內(nèi)容賦能,喜馬拉雅希望通過內(nèi)容賦能,讓大家能夠把產(chǎn)品的體驗做得更好。在余濤看來,人們擁有很多碎片化的時間,從古代到現(xiàn)代,人本質(zhì)上的需求是不會變的,而變的是我們以怎樣的方式去實現(xiàn)人們的需求。就像喜馬拉雅現(xiàn)在做的音頻的產(chǎn)業(yè)一直是存在的,而必須求變的是,需要通過怎樣的交互,生意模式,去給大家?guī)砀嗟乃伎肌?/p>
為此,喜馬拉雅接下來將會基于場景化,給大家?guī)聿煌瑘鼍盎臇|西。怎么做呢?即基于場景,讓人們在不同的碎片時間,可以有不同碎片時間的音頻的享受。所以我們在各種場景下,對內(nèi)容做了篩選,比如從現(xiàn)在的故事維度到教課維度,把所有的內(nèi)容分為10個大類,包括博學、英語到科普,從不同維度輸出內(nèi)容。
實際上,所有的硬件廠商,未來也是一樣。如何讓用戶把愛不釋手的硬件拿到手,那就是要能為這些用戶提供更多的價值。
喜馬拉雅正在打造深圳硬件生態(tài),已經(jīng)為很多頭部廠商輸出內(nèi)容,比如為阿里、天貓、小米里面的喜馬專區(qū),小米、小天才、華為的手表,三星、聯(lián)想的手機的內(nèi)容。此外,喜馬拉雅硬件事業(yè)創(chuàng)業(yè)部2020年提出了一個雙百計劃,即三年內(nèi),有一百個年收入分成超過一百萬的企業(yè),這是接下來的目標。
相信,喜馬拉雅的內(nèi)容在更多的智能產(chǎn)品中出現(xiàn),豐富的內(nèi)容體系將在多模態(tài)交互技術賦能的新智能硬件中煥發(fā)更蓬勃的生命力。
“阿里巴巴在語音助手方面,比谷歌更好。”
“談到達摩院語音實驗室的時候,經(jīng)常有朋友很驚訝的問到,阿里巴巴還做語音嗎,那做得怎么樣呢?”阿里巴巴達摩院語音實驗室資深算法專家高杰在會上說到。事實上,阿里巴巴達摩院的語音技術的表現(xiàn)已經(jīng)相當優(yōu)秀,今年MIT Technology Review中講到2019年十大技術突破,有一點提到語音助手技術,是這么說的,“阿里巴巴在語音助手方面,比谷歌更好。”這個評論是針對,阿里菜鳥送貨電話機器人去做的。高杰表示,在我們擅長的小小領域,比如電商客服,送貨,人工智能對話方面是實實在在做得最好的。
圖:阿里巴巴達摩院語音實驗室資深算法專家高杰
圖:MIT Technology Review 2019提到“阿里巴巴在語音助手方面,比谷歌更好。”
高杰還從三個方面談到了達摩院的語音能力和優(yōu)勢,他說,“數(shù)據(jù)積累、算法和計算能力是語音AI三大基石。在數(shù)據(jù)積累方面,達摩院語音技術連續(xù)4年,每年識別阿里巴巴集團內(nèi)超過1億通的電話,還提供手機淘寶、支付寶、手機高德等阿里巴巴集團內(nèi)所有App的語音識別相關功能,具有電視、車載、兒童教育、公共空間等多領域的語音交互數(shù)據(jù),具備多語音、重口音、方言能力;在算法方面,具有三國五地精英齊聚的百人精英團隊,具備信號處理、語音識別、語音合成、對話處理的能力;在計算能力方面,背靠阿里云,彈性計算百萬并發(fā)經(jīng)受雙十一考驗,語音識別使業(yè)內(nèi)最先進的CTC-LFR建模技術提速3倍以上。”
在會上,高杰重點介紹兩款產(chǎn)品,語音原子產(chǎn)品和語音交互產(chǎn)品。語音原子產(chǎn)品,包含語音識別和語音合成,具有自學習、彈性計算、穩(wěn)定、方便接入的特點。語音交互產(chǎn)品旨在讓每臺設備都能聽會說懂你,該產(chǎn)品從2015年到2018年,已經(jīng)在手機、汽車、電視、智能家居等場景中應用,包括支付寶、蝦米音樂、多模態(tài)地鐵售票機、手機高德APP、兒童機器人、榮威系列、海爾遠場景語音電視等等。
高杰表示,達摩院語音實驗室的愿景是為阿里巴巴經(jīng)濟體提供無處不在的語音交互能力。語音技術作為多模態(tài)中發(fā)展最成熟,也是最重要的一環(huán),我們期待語音技術在多模態(tài)交互場景中有著更多的亮眼表現(xiàn)。
視覺將是下一代機器人的基本能力
玩瞳科技VisionTal專注于實體學習桌面的智能視覺分析,旨在打造多模態(tài)的智能學習體驗。在會上,玩瞳科技CTO潘鑫表示,政策利好產(chǎn)業(yè)發(fā)展,2018年,中國發(fā)布的《教育信息2.0行動計劃》強調(diào)“智慧教育創(chuàng)新發(fā)展行動”要加強智能教學助手、教育機器人、智能學伴、語音文字信息化等關鍵技術研究與應用。教育機器人作為機器人應用于教育領域的代表,將成為智慧學習環(huán)境的重要組成部分。
玩瞳科技CTO潘鑫
在談到下一代機器人的發(fā)展方向時,潘鑫認為,視覺將是下一代機器人的基本能力。視覺的能力將使機器人改變以往的被動服務形式,邁向主動服務。從而為使用者提供更好的服務體驗。
玩瞳科技在教育視覺領域深耕多年,在視覺識別算法上走在行業(yè)前列,在完整的技術體系支持下,推出了多款視覺識別的教育硬件產(chǎn)品,并且和機器人/故事機、教育電子、互聯(lián)網(wǎng)巨頭、垂直教育多領域合作,積累了豐富的實踐經(jīng)驗。
讓教育硬件從聽到到看,多模態(tài)的交互趨勢,玩瞳已做好準備。
CEVA DSP一站式解決方案助力極速開發(fā)產(chǎn)品
CEVA是一家以色列的IP授權(quán)公司,在DSP領域處于領先地位,客戶遍布全球各地,行業(yè)應用覆蓋非常廣,包括計算機視覺、AI、通訊等領域。CEVAKeyAccountsMananger田元在會上表示,CEVA每年出貨量非常可觀,有CEVAinside的終端產(chǎn)品出貨超過10億臺。
CEVA Key Accounts Mananger 田元
在會上,田元重點談到音頻相關的應用,重點講到智能音箱和TWS耳機,調(diào)研機構(gòu)數(shù)據(jù)顯示,接下來幾年,TWS耳機每年都有500—800 milion的出貨量,智能音箱市場表現(xiàn)更為穩(wěn)定,接下來幾年會維持大概200 milion的出貨量,在田元看來,未來幾年,整個市場需求相當可觀。
那么,面對如此大的市場需求,為什么用DSP而不是通用處理器來處理跟語音相關的東西?田元解釋道,DSP,即數(shù)字信號處理器,語音作為數(shù)字信號,天然需要用DSP處理。那么又為什么用CEVA的DSP?田元說,“CEVA可以同時提供低功耗產(chǎn)品和高性能產(chǎn)品,此外,還和軟件合作伙伴們一起,打造非常完備的生態(tài)系統(tǒng),可以保證開發(fā)者、芯片客戶、終端用戶,快速開發(fā)產(chǎn)品,快速落地。CEVA除了提供DSPIP本身之外,還提供整套一站式解決方案,涵蓋DSP IP、跟音頻相關的軟件等等。”
CEVA還會陣對不同的場景需求,提供不同的解決方案,這樣,IC設計公司可以有更多的選擇。以炬芯的芯片為例,超低功耗的解決方案對應炬芯ATS283X平臺,高性能解決方案對應ATS3609D平臺,優(yōu)質(zhì)的芯片集成的優(yōu)質(zhì)IP,可為終端智能硬件的產(chǎn)生做好充足準備。
AI多模態(tài)交互技術智啟新教育
人機交互正在從鍵盤鼠標的交互轉(zhuǎn)變成語音視覺等多模態(tài)交互。交互門檻的不斷降低,給交互體驗帶來了明顯提升。炬芯科技產(chǎn)品總監(jiān)肖凱平表示,語音和視覺是AI交互主要的交互手段,語音方面,不同的產(chǎn)品,要求會有不同,但體驗一定要“過門檻”,2mic是入門級要求,需要在本地完成AFE+WMC所有的計算;視覺方面,算法的計算量很大,本地化NN的性價比不夠,在本地完成一部分計算,大部分工作在“云”完成。
炬芯科技產(chǎn)品總監(jiān)肖凱平
為實現(xiàn)更優(yōu)質(zhì)交互體驗,炬芯作為一家芯片設計廠商的也在持續(xù)深耕技術,希望用更優(yōu)質(zhì)產(chǎn)品給智能機器賦能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模態(tài)智能交互芯片,充足的算力、超低的功耗、強大的可擴展性,將賦予機器更多的可能性。
圖:炬芯多模態(tài)交互AI芯片平臺ATS3609D
據(jù)肖凱平介紹,炬芯多模態(tài)交互AI芯片平臺ATS3609D,具有語音+圖像智能、音視頻能力、教育內(nèi)容等,其中語音+圖像智能更適用“重”語音,“輕”圖像雙模交互的場景;音視頻能力雙向視頻通話,應用在線教育產(chǎn)品;教育+AI,可以給傳統(tǒng)教育提供不一樣的體驗。
圖:炬芯多MIC語音芯片平臺ATS3607D,可應用于車載、家電、辦公領域
-
AI
+關注
關注
87文章
30746瀏覽量
268896 -
阿里巴巴
+關注
關注
7文章
1614瀏覽量
47169 -
炬芯科技
+關注
關注
2文章
109瀏覽量
10732
發(fā)布評論請先 登錄
相關推薦
評論