智能體已經(jīng)能像人一樣刷視頻了?國內(nèi)知名大模型獨(dú)角獸級(jí)別公司,資深AI玩家聯(lián)匯科技退出了OmAgent智能體,已經(jīng)開啟試用。
當(dāng)你正在觀看一部緊張刺激的動(dòng)作電影,忽然好奇:
“那個(gè)角色到底是在哪一集說的那句話?”
“這里的背景音樂是什么?”
又或者在一場(chǎng)足球比賽中,你錯(cuò)過了那個(gè)決定性的進(jìn)球,卻又想再次回放。諸如此類的需求,如果僅憑人力尋找,無疑存在極大的工作量。
但是 AI 能夠?yàn)闄C(jī)器配置雙眼與大腦,讓它們能夠看懂視頻、理解劇情,對(duì)于普通人來說,這不僅是提高了搜索效率,更是擴(kuò)展我們與數(shù)字世界的互動(dòng)方式。
英偉達(dá)最新發(fā)布的 NVIDIA AI Blueprint 希望幫助人們解決這一問題。這是一種預(yù)訓(xùn)練的、可自定義 AI 工作流,他為開發(fā)者構(gòu)建和部署用于典型用例的生成式 AI 應(yīng)用程序提供了一套完整的解決方案。
比如在英偉達(dá)提供的試用界面中,你可以選擇三個(gè)視頻片段中的一個(gè)進(jìn)行內(nèi)容問答。
在幾輪測(cè)試過后,我們發(fā)現(xiàn) Blueprint 對(duì)視頻問答還是有不錯(cuò)的效果的。你可以提問某個(gè)事件發(fā)生的時(shí)間,也可以提問某個(gè)對(duì)象的狀態(tài)。
例如當(dāng)我們提問 “工人在什么時(shí)候掉落了箱子”,Blueprint 可以正確的回答出時(shí)間區(qū)間。二類似于 “叉車往哪個(gè)方向開” 這種基于連續(xù)過程的問題,Blueprint 也可以輕松應(yīng)答。
不過對(duì)于某些細(xì)節(jié),例如 “誰撿起了掉在地上的箱子”,Blueprint 則給出了錯(cuò)誤的答案。
尤其令人遺憾的是,在試用過程中我們不斷遇到流量限制,無限驗(yàn)證等問題,試用體驗(yàn)可以說一言難盡。并且目前 Blueprint 仍然處于早期申請(qǐng)使用制階段,沒有辦法快速進(jìn)行使用。
Blueprint 之外,我們還有什么選擇?
經(jīng)過一番搜索和調(diào)研,我們?cè)?Github 上發(fā)現(xiàn)了 OmAgent 這個(gè)項(xiàng)目,這是一個(gè)多模態(tài)智能體框架,提供了同樣強(qiáng)大的視頻問答功能。
項(xiàng)目地址:https://github.com/om-ai-lab/OmAgent
OmAgent 是什么
OmAgent 是一個(gè)開源的智能體框架,支持簡(jiǎn)單快速地面向設(shè)備進(jìn)行智能體系統(tǒng)的開發(fā),為智能手機(jī)、智能可穿戴設(shè)備、智能攝像頭乃至機(jī)器人等各類硬件設(shè)備賦能。OmAgent 為各種類型的設(shè)備創(chuàng)建了一個(gè)抽象概念,并大大簡(jiǎn)化了將這些設(shè)備與最先進(jìn)的多模態(tài)基礎(chǔ)模型和智能體算法相結(jié)合的過程,使每個(gè)人都能基于設(shè)備建立最有趣的 AI 應(yīng)用。
OmAgent 的設(shè)計(jì)架構(gòu)遵循三個(gè)基本原則:
1. 基于圖的工作流編排,支持分支、循環(huán)、并行等復(fù)雜邏輯操作;2. 原生多模態(tài),提供對(duì)音視圖文等多種模態(tài)數(shù)據(jù)的支持;3. 設(shè)備中心化,提供便捷的設(shè)備連接和交互方法。
簡(jiǎn)單來說,開發(fā)者可以基于 OmAgent 設(shè)計(jì)開發(fā)基于圖工作流編排的面向設(shè)備的原生多模態(tài)智能體。這里的設(shè)備不光包含智能手機(jī),智能可穿戴設(shè)備(智能眼鏡等),智能家居,還包括命令行以及 web 端,開發(fā)者只需要專注于智能體本身,而不用分神處理設(shè)備。
OmAgent 項(xiàng)目里提供了 6 個(gè)示例項(xiàng)目,由淺入深展示了如何搭建一個(gè)智能體的完整過程,其中視頻理解智能體工作流被 EMNLP 2024 主會(huì)收錄,實(shí)現(xiàn)了和 Blueprint Demo 相似的功能。
OmAgent 表現(xiàn)如何?
根據(jù)項(xiàng)目文檔只需要進(jìn)行簡(jiǎn)單的配置就可以將 OmAgent 部署運(yùn)行在本地環(huán)境。我們首先對(duì) Blueprint 提供的測(cè)試視頻進(jìn)行預(yù)處理,在這個(gè)階段視頻會(huì)被分解為若干個(gè)片段,每個(gè)片段會(huì)被大模型進(jìn)行總結(jié),并向量化存儲(chǔ)在數(shù)據(jù)庫中。接下來使用之前的問題對(duì) OmAgent 進(jìn)行測(cè)試,可以看到智能體可以正確定位事件以及發(fā)生的時(shí)間。
Q: When did the worker drop the box?
A:
Q: Which direction did the forklift go?
A:
Q: Who picked up the box that fell on the ground?
A:
接下來我們進(jìn)行更復(fù)雜的測(cè)試,OmAgent 可以支持音頻信息以及超長(zhǎng)視頻索引。我們選取了最近大火的劇集《雙城之戰(zhàn)》第二季第一集作為素材,基于其中的畫面和劇情進(jìn)行提問。
Q: 凱特琳收到的鑰匙代表了什么?
A:
Q: 凱特琳和蔚在爭(zhēng)執(zhí)些什么?
A:
Q: 視頻最后幾個(gè)議員在討論什么?
A:
Q: 議員開會(huì)的時(shí)候誰闖入了進(jìn)來?
A:
可以看到,即使面對(duì)如此復(fù)雜的視頻素材,OmAgent 依然可以游刃有余。
除了視頻問答之外,OmAgent 的最大特點(diǎn)是可以將智能體直接應(yīng)用在硬件設(shè)備上,我們也對(duì)此進(jìn)行了測(cè)試。使用項(xiàng)目提供的 app,我們可以運(yùn)行示例項(xiàng)目中的穿衣搭配推薦智能體。智能體會(huì)根據(jù)你的需求,以及你已有的衣櫥信息,為你推薦合適的穿衣建議。在這個(gè)過程中智能體會(huì)和用戶進(jìn)行多輪溝通以確定用戶需求,并最終返回最合適的搭配。
如果想了解更多OmAgent智能體技術(shù)信息,可以通過聯(lián)匯科技官網(wǎng)聯(lián)系!
審核編輯 黃宇
-
智能體
+關(guān)注
關(guān)注
1文章
157瀏覽量
10595 -
大模型
+關(guān)注
關(guān)注
2文章
2488瀏覽量
2856
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論