午夜一区二区三区,天天搞天天爽,亚洲精品高清视频

2020年AI多模態(tài)交互技術將會迎來較大爆發(fā)。12月19日，在炬芯科技第四屆Techlife炬芯2019多模態(tài)交互技術開發(fā)者大會上，來自喜馬拉雅、達摩院、玩瞳科技、IP方CEVA的行業(yè)大咖們，從內(nèi)容賦能、語音賦能到視覺算法賦能、IP加速等多角度，共同探討多模態(tài)交互在教育上的落地情況。

多模態(tài)交互技術賦能新智能硬件

喜馬拉雅今年的用戶突破6億，擁有7000萬以上的主播，其中100萬以上是認證主播，在整個音頻行業(yè)的覆蓋率73%，每個用戶平均每天的播放時長超過170分鐘，喜馬拉雅硬件生態(tài)事業(yè)部總經(jīng)理余濤表示，“我們的目標是，提供高度粘性，給用戶提供有價值的產(chǎn)品。”

喜馬拉雅硬件生態(tài)事業(yè)部總經(jīng)理余濤

硬件生態(tài)事業(yè)部主要做內(nèi)容賦能，喜馬拉雅希望通過內(nèi)容賦能，讓大家能夠把產(chǎn)品的體驗做得更好。在余濤看來，人們擁有很多碎片化的時間，從古代到現(xiàn)代，人本質(zhì)上的需求是不會變的，而變的是我們以怎樣的方式去實現(xiàn)人們的需求。就像喜馬拉雅現(xiàn)在做的音頻的產(chǎn)業(yè)一直是存在的，而必須求變的是，需要通過怎樣的交互，生意模式，去給大家?guī)砀嗟乃伎肌?/p>

為此，喜馬拉雅接下來將會基于場景化，給大家?guī)聿煌瑘鼍盎臇|西。怎么做呢？即基于場景，讓人們在不同的碎片時間，可以有不同碎片時間的音頻的享受。所以我們在各種場景下，對內(nèi)容做了篩選，比如從現(xiàn)在的故事維度到教課維度，把所有的內(nèi)容分為10個大類，包括博學、英語到科普，從不同維度輸出內(nèi)容。

實際上，所有的硬件廠商，未來也是一樣。如何讓用戶把愛不釋手的硬件拿到手，那就是要能為這些用戶提供更多的價值。

喜馬拉雅正在打造深圳硬件生態(tài)，已經(jīng)為很多頭部廠商輸出內(nèi)容，比如為阿里、天貓、小米里面的喜馬專區(qū)，小米、小天才、華為的手表，三星、聯(lián)想的手機的內(nèi)容。此外，喜馬拉雅硬件事業(yè)創(chuàng)業(yè)部2020年提出了一個雙百計劃，即三年內(nèi)，有一百個年收入分成超過一百萬的企業(yè)，這是接下來的目標。

相信，喜馬拉雅的內(nèi)容在更多的智能產(chǎn)品中出現(xiàn)，豐富的內(nèi)容體系將在多模態(tài)交互技術賦能的新智能硬件中煥發(fā)更蓬勃的生命力。

“阿里巴巴在語音助手方面，比谷歌更好。”

“談到達摩院語音實驗室的時候，經(jīng)常有朋友很驚訝的問到，阿里巴巴還做語音嗎，那做得怎么樣呢？”阿里巴巴達摩院語音實驗室資深算法專家高杰在會上說到。事實上，阿里巴巴達摩院的語音技術的表現(xiàn)已經(jīng)相當優(yōu)秀，今年MIT Technology Review中講到2019年十大技術突破，有一點提到語音助手技術，是這么說的，“阿里巴巴在語音助手方面，比谷歌更好。”這個評論是針對，阿里菜鳥送貨電話機器人去做的。高杰表示，在我們擅長的小小領域，比如電商客服，送貨，人工智能對話方面是實實在在做得最好的。

圖：阿里巴巴達摩院語音實驗室資深算法專家高杰

圖：MIT Technology Review 2019提到“阿里巴巴在語音助手方面，比谷歌更好。”

高杰還從三個方面談到了達摩院的語音能力和優(yōu)勢，他說，“數(shù)據(jù)積累、算法和計算能力是語音AI三大基石。在數(shù)據(jù)積累方面，達摩院語音技術連續(xù)4年，每年識別阿里巴巴集團內(nèi)超過1億通的電話，還提供手機淘寶、支付寶、手機高德等阿里巴巴集團內(nèi)所有App的語音識別相關功能，具有電視、車載、兒童教育、公共空間等多領域的語音交互數(shù)據(jù)，具備多語音、重口音、方言能力；在算法方面，具有三國五地精英齊聚的百人精英團隊，具備信號處理、語音識別、語音合成、對話處理的能力；在計算能力方面，背靠阿里云，彈性計算百萬并發(fā)經(jīng)受雙十一考驗，語音識別使業(yè)內(nèi)最先進的CTC-LFR建模技術提速3倍以上。”

在會上，高杰重點介紹兩款產(chǎn)品，語音原子產(chǎn)品和語音交互產(chǎn)品。語音原子產(chǎn)品，包含語音識別和語音合成，具有自學習、彈性計算、穩(wěn)定、方便接入的特點。語音交互產(chǎn)品旨在讓每臺設備都能聽會說懂你，該產(chǎn)品從2015年到2018年，已經(jīng)在手機、汽車、電視、智能家居等場景中應用，包括支付寶、蝦米音樂、多模態(tài)地鐵售票機、手機高德APP、兒童機器人、榮威系列、海爾遠場景語音電視等等。

高杰表示，達摩院語音實驗室的愿景是為阿里巴巴經(jīng)濟體提供無處不在的語音交互能力。語音技術作為多模態(tài)中發(fā)展最成熟，也是最重要的一環(huán)，我們期待語音技術在多模態(tài)交互場景中有著更多的亮眼表現(xiàn)。

視覺將是下一代機器人的基本能力

玩瞳科技VisionTal專注于實體學習桌面的智能視覺分析，旨在打造多模態(tài)的智能學習體驗。在會上，玩瞳科技CTO潘鑫表示，政策利好產(chǎn)業(yè)發(fā)展，2018年，中國發(fā)布的《教育信息2.0行動計劃》強調(diào)“智慧教育創(chuàng)新發(fā)展行動”要加強智能教學助手、教育機器人、智能學伴、語音文字信息化等關鍵技術研究與應用。教育機器人作為機器人應用于教育領域的代表，將成為智慧學習環(huán)境的重要組成部分。

玩瞳科技CTO潘鑫

在談到下一代機器人的發(fā)展方向時，潘鑫認為，視覺將是下一代機器人的基本能力。視覺的能力將使機器人改變以往的被動服務形式，邁向主動服務。從而為使用者提供更好的服務體驗。

玩瞳科技在教育視覺領域深耕多年，在視覺識別算法上走在行業(yè)前列，在完整的技術體系支持下，推出了多款視覺識別的教育硬件產(chǎn)品，并且和機器人/故事機、教育電子、互聯(lián)網(wǎng)巨頭、垂直教育多領域合作，積累了豐富的實踐經(jīng)驗。

讓教育硬件從聽到到看，多模態(tài)的交互趨勢，玩瞳已做好準備。

CEVA DSP一站式解決方案助力極速開發(fā)產(chǎn)品

CEVA是一家以色列的IP授權(quán)公司，在DSP領域處于領先地位，客戶遍布全球各地，行業(yè)應用覆蓋非常廣，包括計算機視覺、AI、通訊等領域。CEVAKeyAccountsMananger田元在會上表示，CEVA每年出貨量非常可觀，有CEVAinside的終端產(chǎn)品出貨超過10億臺。

CEVA Key Accounts Mananger 田元

在會上，田元重點談到音頻相關的應用，重點講到智能音箱和TWS耳機，調(diào)研機構(gòu)數(shù)據(jù)顯示，接下來幾年，TWS耳機每年都有500—800 milion的出貨量，智能音箱市場表現(xiàn)更為穩(wěn)定，接下來幾年會維持大概200 milion的出貨量，在田元看來，未來幾年，整個市場需求相當可觀。

那么，面對如此大的市場需求，為什么用DSP而不是通用處理器來處理跟語音相關的東西？田元解釋道，DSP，即數(shù)字信號處理器，語音作為數(shù)字信號，天然需要用DSP處理。那么又為什么用CEVA的DSP？田元說，“CEVA可以同時提供低功耗產(chǎn)品和高性能產(chǎn)品，此外，還和軟件合作伙伴們一起，打造非常完備的生態(tài)系統(tǒng)，可以保證開發(fā)者、芯片客戶、終端用戶，快速開發(fā)產(chǎn)品，快速落地。CEVA除了提供DSPIP本身之外，還提供整套一站式解決方案，涵蓋DSP IP、跟音頻相關的軟件等等。”

CEVA還會陣對不同的場景需求，提供不同的解決方案，這樣，IC設計公司可以有更多的選擇。以炬芯的芯片為例，超低功耗的解決方案對應炬芯ATS283X平臺，高性能解決方案對應ATS3609D平臺，優(yōu)質(zhì)的芯片集成的優(yōu)質(zhì)IP，可為終端智能硬件的產(chǎn)生做好充足準備。

AI多模態(tài)交互技術智啟新教育

人機交互正在從鍵盤鼠標的交互轉(zhuǎn)變成語音視覺等多模態(tài)交互。交互門檻的不斷降低，給交互體驗帶來了明顯提升。炬芯科技產(chǎn)品總監(jiān)肖凱平表示，語音和視覺是AI交互主要的交互手段，語音方面，不同的產(chǎn)品，要求會有不同，但體驗一定要“過門檻”，2mic是入門級要求，需要在本地完成AFE+WMC所有的計算；視覺方面，算法的計算量很大，本地化NN的性價比不夠，在本地完成一部分計算，大部分工作在“云”完成。

炬芯科技產(chǎn)品總監(jiān)肖凱平

為實現(xiàn)更優(yōu)質(zhì)交互體驗，炬芯作為一家芯片設計廠商的也在持續(xù)深耕技術，希望用更優(yōu)質(zhì)產(chǎn)品給智能機器賦能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模態(tài)智能交互芯片，充足的算力、超低的功耗、強大的可擴展性，將賦予機器更多的可能性。

圖：炬芯多模態(tài)交互AI芯片平臺ATS3609D

據(jù)肖凱平介紹，炬芯多模態(tài)交互AI芯片平臺ATS3609D，具有語音+圖像智能、音視頻能力、教育內(nèi)容等，其中語音+圖像智能更適用“重”語音，“輕”圖像雙模交互的場景；音視頻能力雙向視頻通話，應用在線教育產(chǎn)品；教育+AI，可以給傳統(tǒng)教育提供不一樣的體驗。

圖：炬芯多MIC語音芯片平臺ATS3607D，可應用于車載、家電、辦公領域

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30746

瀏覽量
268896
阿里巴巴

阿里巴巴

+關注

關注
7

文章
1614

瀏覽量
47169
炬芯科技

炬芯科技

+關注

關注
2

文章
109

瀏覽量
10732

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

發(fā)表于 12-20 10:39 ?145次閱讀

高通與智譜推動多模態(tài)生成式AI體驗的終端側(cè)部署

此前，驍龍峰會首日，智譜與高通技術公司宣布合作將GLM-4V端側(cè)視覺大模型，面向驍龍8至尊版進行深度適配和推理優(yōu)化，支持豐富的多模態(tài)交互方式，進一步推動

發(fā)表于 11-08 09:55 ?172次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態(tài)之間的關聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)

發(fā)表于 10-18 09:39 ?413次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術的浩瀚星海中，多模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心

發(fā)表于 08-27 15:20 ?387次閱讀

慕尼黑電子展回顧：啟明智顯多模態(tài)硬件智能體引領科技潮流

人流如織，熱鬧非凡。多模態(tài)硬件智能體：未來科技的集大成者展會現(xiàn)場，啟明智顯隆重推出了其自主研發(fā)的多模態(tài)硬件智能體。這一創(chuàng)新產(chǎn)品融合了HMI（

發(fā)表于 07-10 16:17 ?364次閱讀

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

豐富外設配件配套多模態(tài)應用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應用板載 DAPLINK 調(diào)試器，外接一條USB 線即可實現(xiàn)燒錄、調(diào)試、串口日志查看板載網(wǎng)絡模組

發(fā)表于 06-18 17:33

Build 2024發(fā)布多項Azure AI Speech全新多模態(tài)功能

客戶們持續(xù)使用 Azure OpenAI 和 Azure AI Speech 進行創(chuàng)新，為企業(yè)引入新的效率，并構(gòu)建新的多模態(tài)體驗。

發(fā)表于 05-28 09:08 ?565次閱讀

谷歌發(fā)布多模態(tài)AI新品，加劇AI巨頭競爭

在全球AI競技場上，谷歌與OpenAI一直穩(wěn)居領先地位。近日，谷歌在I/O開發(fā)者大會上掀起了一股新的技術浪潮，發(fā)布了多款全新升級的多

發(fā)表于 05-16 09:28 ?446次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進 AI 在終端的場景應用 ? 4月18日，2024中國生成式AI

發(fā)表于 04-18 17:01 ?592次閱讀

NVIDIA Edify多模態(tài)架構(gòu)升級，引領視覺生成式AI新紀元

NVIDIA近日宣布，其用于視覺生成式AI的多模態(tài)架構(gòu)Edify迎來重大更新，為開發(fā)者和視覺內(nèi)容提供商帶來前所未有的新功能。其中，3D資產(chǎn)生成功能的引入，極大地提升了

發(fā)表于 03-27 10:22 ?453次閱讀

谷歌推出多模態(tài)VLOGGER AI

谷歌最新推出的VLOGGER AI技術引起了廣泛關注，這項創(chuàng)新的多模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容，VLOGGER

發(fā)表于 03-22 10:45 ?835次閱讀

MWC2024：高通推出全新AI Hub及前沿多模態(tài)大模型

2024年世界移動通信大會（MWC）上，高通再次展現(xiàn)其技術領導力，通過發(fā)布全新的高通AI Hub和展示前沿的多模態(tài)大模型

發(fā)表于 02-26 16:59 ?1256次閱讀

韓國Kakao宣布開發(fā)多模態(tài)大語言模型“蜜蜂”

韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語言模型。這種創(chuàng)新模型能夠同時理解和處理圖像和文本數(shù)據(jù)，為更豐富的交互和查詢響應提供了可能性。

發(fā)表于 01-19 16:11 ?683次閱讀

多模態(tài)加持芯底座，大模型提速AI未來，星宸科技2023開發(fā)者大會暨產(chǎn)品發(fā)布會圓滿落幕

2023年12月22日，星宸科技2023開發(fā)者大會暨產(chǎn)品發(fā)布會在深圳成功舉辦，此次大會以“Leading AI Everywhere”為主題，賦予“引領

發(fā)表于 01-05 15:13 ?1572次閱讀

語音識別技術最新進展：視聽融合的多模態(tài)交互成為主要演進方向

電子發(fā)燒友網(wǎng)報道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)

發(fā)表于 12-28 09:06 ?3845次閱讀