一级特黄aaa大片29,色婷婷久久综合中文久久一本 ,天天舔天天射

視頻相比語言、圖像，是更復雜更高級的一類表征世界的模態，而視頻理解也同樣是相比自然語言處理與計算機視覺的常見工作更復雜的一類工作。在當下大模型的洪流中，自然而然的想法就是大規模語言模型（LLMs）可以基于語言訓練的強大理解推理能力，完成視頻理解的工作嗎？現在答案到來了，上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統 VideoChat，集成了視頻基礎模型與 LLMs，并且在如空間、時間推理，事件定位、因果推斷等多個方面都表現十分出色。

區別于現有多模態大模型針對視頻輸入的處理方法，即首先文本化視頻內容再接入大模型利用大模型自然語言理解的優勢，這篇論文從模型角度以可學習的方式集成了視頻和語言的基礎模型，通過構建視頻基礎模型與 LLMs 的接口，通過對接口進行訓練與學習從而完成視頻與語言的對齊。這樣一種方式可以有效的避免視覺信息、時空復雜性信息丟失的問題，第一次創立了一個高效、可學習的視頻理解系統，可以實現與 VideoChat 對視頻內容的有效交流。

論文題目：

VideoChat ： Chat-Centric Video Understanding

論文鏈接：

https://arxiv.org/pdf/2305.06355.pdf

代碼地址：

https://github.com/OpenGVLab/Ask-Anything

如果要問大模型有什么樣的能力，那我們可能洋洋灑灑從理解推理到計算判斷都可以列舉許多，但是如果要問在不同場景下如何理解大模型的不同作用，那有可能就是一個頗為玄妙的“藝術”問題。在 VideoChat 中，論文作者將大模型理解為一個視頻任務的解碼器，即將視頻有關的描述或更進一步的嵌入理解為人類可理解的文本。這一過程可以被形式化的理解為：

這里與表示一個圖片或視頻的模型，通過將 I（圖像）與 V（視頻）輸入到模型中，得到視頻或圖像的嵌入表示 E，而一個解碼的過程，就是：

其中與分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問題及答案，即一個 LLM 模型。傳統上針對多模態大模型的解決方法，一般是一種將視頻信息文本化的方法，通過將視頻序列化為文本，構成 Video Description，再輸入到大模型之中，這種文本流可以很好的適應理解類的工作，但是卻對如時間、空間感知這類任務表現不佳，因為幾乎是必然的，將視頻信息文本化后很容易使得這類基礎信息出現丟失。而因此論文試圖完成一個端到端的一體化的方法，直接提取視頻的嵌入信息，如下圖對比所示：

通過整合這樣兩種視頻架構，即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中，以獲得更全面的視頻信息理解能力，如在上圖的任務中，用戶提問“他是在唱、跳和 Rap 嗎”，VideoChat 回復“不是，他是在打籃球（和跳舞）”

對于 VideoChat-Text 部分，論文作者詳細的解構了一個視頻包含的內容，比如動作、語音、對象及帶有位置注釋的對象等等，基于這些分析，VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內容的表征，再使用 T5 整合模型輸出，得到文本化的視頻之中，使用如下圖所示的模板完成對 LLMs 的輸入：

而對于 VideoChat-Embed 則采用如下架構將視頻和大模型與可學習的 Video-Language Token Interface（VLTF）相結合，基于 BLIP-2 和 StableVicuna 來構建 VideoChat-Embed，具體而言，首先通過 GMHRA 輸入視頻，同時引入圖像數據進行聯合訓練并接入一個經過預訓練的 Q-Former，完成視頻的 Embedding。

整個訓練過程可以分為兩個階段，分別是對齊與微調。在對齊階段，作者引入了 25M 個視覺-文本對針對接口進行微調，整體的輸入提示如下：

而在微調階段，論文自行構建并開源了包含 7k 個詳細的視頻描述與圖像描述以及 4k 個視頻對話，3k 個圖像描述，2k 個圖像對話，2k 個圖像推理的指令數據集對 VideoChat 完成微調。

對比 LLaVa、miniGPT-4 以及 mPLUG-owl，論文對 VideoChat 的多方面能力進行了定性研究。其中，在空間感知與分析中，VideoChat 可以識別日式服裝來推斷出相應的音樂，并且確定視頻中的人數。這即是證明了 VideoChat 識別捕獲視覺元素并給予視覺元素進行分析的能力。

在時間感知與分析中，VideoChat 可以識別出視頻中做瑜伽的動作，甚至給出了它摔倒可能性的判斷并進行提醒了安全問題。

在非正式推斷中，VideoChat 也可以解釋“為什么這個視頻是好笑的”這一問題，并且解釋的也符合我們對視頻好笑的一些抽象判斷，如不協調，突然性等等。

而對比最近的基于圖像的多模態對話系統，VideoChat 可以正確的識別場景，而其他系統則錯誤的將對話環境視為室內，這充分的體現了 Video-Chat 在空間感知方面非常強大的比較優勢。

這樣一個開源的視頻理解框架可以為視頻理解這樣一個目前還沒有什么非常成熟的解決方案的問題鋪好道路，顯然，將視頻信息與文本信息對齊，大規模語音模型的優秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個有推理、理解能力的黑盒，視頻理解的問題就變成了如何對視頻進行解碼以及與文本對齊的問題，這可以說是大模型為這一領域帶來的“提問方式”的改變。

但是針對我們期望的成熟的視頻理解器，這篇工作仍然具有局限性，比如 VideoChat 還是難以處理 1 分鐘以上的長視頻，當然這主要是來自于大模型上下文長度的限制，但是在有限的上下文長度中如何更好的壓縮視頻信息也成為一個復雜的問題，當視頻時長變長后，系統的響應時間也會對用戶體驗帶來負面影響。另外總的來說，這篇論文使用的數據集仍然不算大，因此使得 VideoChat 的推理能力仍然停留在簡單推理的層級上，還無法完成復雜一點的推理工作，總之，盡管 VideoChat 還不是一個盡善盡美的解決方案，但是已然可以為當下視頻理解系統增添重要一筆，讓我們期待基于它的更加成熟的工作吧！

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Video

Video

+關注

關注
0

文章
195

瀏覽量
45183
自然語言

自然語言

+關注

關注
1

文章
288

瀏覽量
13348

原文標題：上海AI lab提出VideoChat：可以與視頻對話啦

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

“向新而行，BC共生”BC領袖對話實錄

近日，12月3日下午3點，“向新而行 BC共生”BC領袖對話正式播出。此次對話由中國綠色供應鏈聯盟光伏專委會秘書長呂芳主持，隆基綠能科技股份有限公司（以下簡稱“隆基”）董事長鐘寶申、上海愛旭新能源

發表于 12-05 15:42 ?249次閱讀

可靈AI全球首發視頻模型定制功能，助力AI視頻創作

近日，快手旗下的可靈AI在全球范圍內率先推出了視頻模型定制功能，這一創新之舉成功解決了AI視頻生成過程中人物IP穩定性不足的難題。據了解，用戶現在

發表于 11-26 14:02 ?489次閱讀

唯創知音WT3000A模塊 AI對話功能介紹

AI

WT-深圳唯創知音電子有限公司
發布于 :2024年11月15日 16:01:15

一桿有AI的路燈：感知環境監測路況還能“對話”無人駕駛AI燈桿屏

一桿有AI的路燈：感知環境監測路況還能“對話”無人駕駛AI燈桿屏

發表于 11-15 09:45 ?329次閱讀

AI對話魔法 Prompt Engineering 探索指南

Engineering 就是設計和優化與AI對話的“提示詞”或“指令”，讓AI能準確理解并提供有用的回應。 Prompt Engineering 主要包括以下幾個方面： 1.明確目標：希望A

發表于 11-07 10:11 ?804次閱讀

ai智能視頻監控系統 OpenCV

ai智能視頻監控系統選用數字圖像處理、計算機視覺和機器視覺技術性，利用軟件強勁的數據處理方法工作能力。ai智能視頻監控系統是一種集防盜報警系統作用和

發表于 07-08 08:46 ?399次閱讀

科大訊飛上海旗艦店開業

6月1日;科大訊飛上海旗艦店開業啦;旗艦店位于上海市中心徐家匯商圈TPY中心. 旗艦店不僅是面積大，還有更多的智能硬件和更新的AI技術。想“零距離”走進

發表于 06-04 09:46 ?577次閱讀

【AIBOX快速入門】2步玩轉AI對話

隨著目前AI的高速發展，大批量AI硬件應運而生，但使用門檻普遍較高。為了解決這類問題，Firefly開源團隊推出了基于Web的AI對話應用：FireflyChat，讓

發表于 05-30 08:02 ?554次閱讀

AI時代下PMIC需求暴增，設計提出新要求

? 電子發燒友網報道（文/黃山明）隨著AI技術的快速發展，AI芯片的功耗和性能也在不斷提升，這對電源系統提出了更高的要求。為了滿足AI芯片對電源系統的特殊需求，電源設計需要不斷創新。這

發表于 03-26 00:22 ?4948次閱讀

百度地圖AI向導用戶破億，日均提供超千萬次對話

百度地圖AI向導用戶破億，日均提供超千萬次對話

發表于 03-21 09:44 ?407次閱讀

育碧發布全新生成式AI原型：NPC以自發行為展開對話

近日，育碧巴黎工作室推出了一款名為 NEON NPC 的全新 AI 原型項目。借助 NVIDIA 的 Audio2Face 及 InWorld 的 LLM 大語言模型技術，NPC可以根據角色設定自發生成對話。

發表于 03-20 10:17 ?457次閱讀

用于對話式AI的高性能MEMS麥克風，助力改進用戶體驗

對話式人工智能（AI）是一個快速發展的機器學習（ML）領域，旨在使人機交互更加自然直觀。

發表于 03-12 09:44 ?844次閱讀

Stability AI與Morph AI共同推出一體化AI視頻創作工具

近日，業界領先的AI技術公司Stability AI與中國AI創業公司Morph AI達成重要合作。雙方宣布共同推出一款革新性的all-in-one（一體式）

發表于 03-05 10:44 ?882次閱讀

探索OpenAI Sora視頻AI生成技術及其應用如何使用指南

的應用范圍從娛樂和教育到營銷和內容創作等各個領域都有巨大潛力。 Sora視頻AI的介紹 Sora視頻AI是一種先進的人工智能工具，它利用深度學習算法根據用戶提供的文本描述生成

發表于 02-20 12:01 ?1439次閱讀

AI視頻年大爆發！2023年AI視頻生成領域的現狀全盤點

2023年，也是AI視頻元年。過去一年究竟有哪些爆款應用誕生，未來視頻生成領域面臨的難題還有哪些？

發表于 02-20 10:40 ?1225次閱讀