色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Tune-A-Video論文解讀

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-03-29 10:28 ? 次閱讀

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

1. 論文信息

標題:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

作者:Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

原文鏈接:https://arxiv.org/pdf/2212.11565.pdf

代碼鏈接:https://tuneavideo.github.io/

2. 引言

坤坤鎮樓:

5af6f6ea-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b1b52d8-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b37cfd0-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b5902cc-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

大規模的多模態數據集是由數十億個文本圖像對組成,得益于高質量的數據,在文本到圖像 (text-to-image, T2I) 生成方面取得了突破 。為了在文本到視頻 (T2V) 生成中復制這一成功,最近的工作已將純空間 T2I 生成模型擴展到時空域。這些模型通常采用在大規模文本視頻數據集(例如 WebVid-10M)上進行訓練的標準范式。盡管這種范式為 T2V 生成帶來了可喜的結果,但它需要對大型硬件加速器進行大規模數據集上的訓練,這一過程既昂貴又耗時。人類擁有利用現有知識和提供給他們的信息創造新概念、想法或事物的能力。例如,當呈現一段文字描述為“一個人在雪地上滑雪”的視頻時,我們可以利用我們對熊貓長相的了解來想象熊貓在雪地上滑雪的樣子。由于使用大規模圖像文本數據進行預訓練的 T2I 模型已經捕獲了開放域概念的知識,因此出現了一個直觀的問題:它們能否從單個視頻示例中推斷出其他新穎的視頻,例如人類?因此引入了一種新的 T2V 生成設置,即 One-Shot Video Tuning,其中僅使用單個文本-視頻對來訓練 T2V 生成器。生成器有望從輸入視頻中捕獲基本的運動信息,并合成帶有編輯提示的新穎視頻。

5b91588e-cdd8-11ed-bfe3-dac502259ad0.png

本文提出了一種新的文本到視頻(T2V)生成設置——單次視頻調諧,其中只呈現一個文本-視頻對。該模型基于大規模圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型構建。研究人員做出了兩個關鍵觀察:1)T2I模型可以生成代表動詞術語的靜止圖像;2)將T2I模型擴展為同時生成多個圖像表現出驚人的內容一致性。為了進一步學習連續運動,研究人員引入了Tune-A-Video,它包括一個定制的時空注意機制和一個高效的單次調諧策略。在推理時,研究人員采用DDIM反演為采樣提供結構指導。大量定性和定量實驗表明,我們的方法在各種應用中都具有顯著的能力。

5ba309f8-cdd8-11ed-bfe3-dac502259ad0.png

論文提出的one-shot tuning的setting如上。本文的貢獻如下:1. 該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。2. 提出的框架Tune-A-Video建立在經過海量圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型之上。3. 本文介紹了一種稀疏的時空注意力機制和生成時間連貫視頻的有效調優策略。4. 實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

3. 方法

5bb9d638-cdd8-11ed-bfe3-dac502259ad0.png

該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。擬議的框架Tune-A-Video建立在經過海量圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型之上。該論文還提出了一種有效的調優策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

3.1 DDPMs的回顧

DDPMs(去噪擴散概率模型)是一種深度生成模型,最近因其令人印象深刻的性能而受關注。DDPMs通過迭代去噪過程,從標準高斯分布的樣本生成經驗分布的樣本。借助于對生成結果的漸進細化,它們在許多圖像生成基準上都取得了最先進的樣本質量。

根據貝葉斯定律 and 可以表達為:

DDPMs的主要思想是:給定一組圖像數據,我們逐步添加一點噪聲。每一步,圖像變得越來越不清晰,直到只剩下噪聲。這被稱為“正向過程”。然后,我們學習一個機器學習模型,可以撤消每一個這樣的步驟,我們稱之為“反向過程”。如果我們能夠成功地學習一個反向過程,我們就有了一個可以從純隨機噪聲生成圖像的模型。

這其中又有LDMs這種范式的模型比較流行,Latent Diffusion Models(LDMs)是一種基于DDPMs的圖像生成方法,它通過在latent space中迭代“去噪”數據來生成圖像,然后將表示結果解碼為完整的圖像。LDMs通過將圖像形成過程分解為去噪自編碼器的順序應用,實現了在圖像數據和其他領域的最先進的合成結果。此外,它們的公式允許引入一個引導機制來控制圖像生成過程,而無需重新訓練。然而,由于這些模型通常直接在像素空間中運行,因此優化強大的DMs通常需要數百個GPU天,并且推理由于順序評估而昂貴。為了在有限的計算資源上啟用DM訓練,同時保留它們的質量和靈活性,我們在強大的預訓練自編碼器的潛在空間中應用它們。與以前的工作不同,訓練擴散模型時使用這樣一個表示允許首次在復雜度降低和細節保留之間達到近乎最優的平衡點,極大地提高了視覺保真度。

3.2 Network Inflation

T2I 擴散模型(例如,LDM)通常采用 U-Net ,這是一種基于空間下采樣通道然后是帶有跳躍連接的上采樣通道的神經網絡架構。它由堆疊的二維卷積殘差塊和Transformer塊組成。每個Transformer塊包括空間自注意層、交叉注意層和前饋網絡 (FFN)。空間自注意力利用特征圖中的像素位置來實現相似的相關性,而交叉注意力則考慮像素與條件輸入(例如文本)之間的對應關系。形式上,給定視頻幀 vi 的latent表征 ,很自然的可以想到要用self-attention機制來完成:

然后論文借助卷積來強化temporal coherence,并采用spatial self-attention來加強注意力機制,來捕捉不同視頻幀的變化。

5bc913dc-cdd8-11ed-bfe3-dac502259ad0.png

為了減少計算復雜度,Q采用相同的而K和V都是通過共享的矩陣來獲取:

這樣計算復雜度就降低到了,相對比較可以接受。

3.3 Fine-Tuning and Inference

Fine-Tuning是使預訓練的模型適應新任務或數據集的過程。在提出的方法Tune-A-Video中,文本到圖像(T2I)擴散模型是在海量圖像數據上預先訓練的。然后,在少量的文本視頻對上對模型進行微調,以從文本生成視頻。Fine-Tuning過程包括使用反向傳播使用新數據更新預訓練模型的權重。推理是使用經過訓練的模型對新數據進行預測的過程。在提出的方法中,使用經過Fine-Tuning的T2I模型進行推斷,從文本生成視頻。

Inference過程包括向模型輸入文本,模型生成一系列靜止圖像。然后將靜止圖像組合成視頻。本發明提出的方法利用高效的注意力調整和結構反演來提高所生成視頻的時間一致性。

4. 實驗

5be5dc88-cdd8-11ed-bfe3-dac502259ad0.png

作者為了證明方法的有效性,進行了廣泛的實驗,以評估所提出的方法在各種應用中的性能。這些實驗是在多個數據集上進行的,包括Kinetics-600數據集、Something-Something-Something數據集和YouCook2數據集。實驗中使用的評估指標包括弗雷切特入口距離(FID)、盜夢分數(IS)和結構相似度指數(SSIM)。實驗結果證明了所提出的文本驅動視頻生成和編輯方法的有效性。

看一下可視化的效果:

5bf6a374-cdd8-11ed-bfe3-dac502259ad0.png

5c1d8962-cdd8-11ed-bfe3-dac502259ad0.png

5. 討論

該論文在處理輸入視頻中的多個物體和物體交互方面存在局限性。這是由于擬議框架中使用的文本到圖像(T2I)模型的固有局限性。該論文建議使用其他條件信息,例如深度,使模型能夠區分不同的物體及其相互作用。但是,這種研究途徑留待將來使用。

6. 結論

該論文介紹了一項名為 One-Shot Video Tuning 的從文本生成視頻的新任務。該任務涉及僅使用一對文本視頻和預先訓練的模型來訓練視頻生成器。擬議的框架Tune-A-Video對于文本驅動的視頻生成和編輯既簡單又有效。該論文還提出了一種有效的調優策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像數據
    +關注

    關注

    0

    文章

    52

    瀏覽量

    11291
  • 模型
    +關注

    關注

    1

    文章

    3261

    瀏覽量

    48914
  • 生成器
    +關注

    關注

    7

    文章

    317

    瀏覽量

    21052

原文標題:Tune-A-Video論文解讀(小黑子的狂歡)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    App Tune-up Kit Pofiler工具使用介紹

    介紹APP Tune-up Kit 是高通公司開發的一款分析任何Android 應用分析的工具,不同于Snapdragon Profiler它操作簡單,界面簡潔,只需要按一下,就可以在60秒內獲取
    發表于 09-21 10:49

    Auto Tune Vocal EQ均衡器永久版發布

    Antares在今年6月發布了這款均衡器,起初一直是Auto-Tune Unlimited訂閱版的一部分,現在推出了永久版授權。廠家宣稱在2022年9月6號-10月6號限時銷售永久版,零售價格為
    發表于 09-11 08:29

    Composite Video Separation Tec

    The most fundamental job of a video decoder is to separatethe color from the black and white
    發表于 08-19 13:37 ?22次下載

    Video Amplifier with Sync Stri

    off the sync pulse and performing DC restoration. It is configured for a typical video cable driver application driving
    發表于 09-21 22:58 ?21次下載

    EL4501 pdf datasheet (Video Fr

    The EL4501 is a highly-integrated Video Front End (VFE)incorporating all of the key signal
    發表于 01-16 20:55 ?25次下載

    allegro如何走蛇行線(delay tune)

    蛇行線(delay tune)1. 前言蛇行線可在Allegro 中藉由elong_by_pick 自動完成.若想以半自動方式則可用delay tune 命令.2. 說明在15.1 中須下載新版ISR.Options 選項?
    發表于 09-06 11:30 ?0次下載

    Video and Image Processing Up

    from a standard definition video stream innational television system committee (NTSC) format to a high definition
    發表于 11-24 11:12 ?11次下載

    Digital Video Standards The 19

    The world of digital video standards is a complicated one,with many different standards groups
    發表于 07-11 16:27 ?3次下載

    Design and Layout of a Video G

    Design and Layout of a Video Graphics System for Reduced EMI
    發表于 10-02 09:19 ?28次下載
    Design and Layout of <b class='flag-5'>a</b> <b class='flag-5'>Video</b> G

    How to Tune and Antenna Match

    How to Tune and Antenna Match the MAX1470 Circuit The MAX1470evkit is tuned and tested at the factory to obtain the highest se
    發表于 09-17 16:16 ?1559次閱讀
    How to <b class='flag-5'>Tune</b> and Antenna Match

    X1_Tune_v1.3

    X1 Tune v1.3X1 Tune v1.3X1 Tune v1.3
    發表于 01-15 17:08 ?4次下載

    使用Atmel Studio 6中的優化向導來調整QTouter設計

    This video shows you how to tune a Qtouch design for optimal performance using the Tuning Wizard
    的頭像 發表于 07-06 02:31 ?3159次閱讀

    openEuler Summit開發者峰會:基于AI的操作系統性能調優引擎A-Tune

    openEuler Summit開發者峰會:基于AI的操作系統性能調優引擎A-Tune
    的頭像 發表于 11-10 10:51 ?1627次閱讀
    openEuler Summit開發者峰會:基于AI的操作系統性能調優引擎<b class='flag-5'>A-Tune</b>

    歐拉(openEuler)Summit 2021:歐拉demo分享——A-Tune

    歐拉(openEuler)Summit 2021上,關于A-Tune:基于AI的操作系統性能調優引擎案例分享。
    的頭像 發表于 11-10 10:18 ?1420次閱讀
    歐拉(openEuler)Summit 2021:歐拉demo分享——<b class='flag-5'>A-Tune</b>

    A-Tune系統性能自優化軟件

    gitee-A-Tune.zip
    發表于 04-28 10:18 ?1次下載
    <b class='flag-5'>A-Tune</b>系統性能自優化軟件
    主站蜘蛛池模板: 999精品在线| 俄罗斯女人与马Z00Z视频| 亚洲乱亚洲乱妇13p| 大陆老熟女60岁| 内射少妇三洞齐开| 在教室伦流澡到高潮H女攻视频| 东北女人奶大毛多水多| 捏揉舔水插按摩师| 538久久视频在线| 凌馨baby| 99视频福利| 欧美牲交A欧美牲交VDO| np高h肉辣一女多男| 欧美精品XXXXBBBB| xxx在线播放| 特黄AAAAAAA片免费视频| 国产AV精品无码免费看| 午夜一区欧美二区高清三区| 好爽别插了无码视频| 最美白嫩的极品美女ASSPICS| 免费国产福利| 俄罗斯14一18处交| 亚洲国产成人99精品激情在线| 精品一区二区三区高清免费观看| 伊人色综合久久天天| 暖暖 免费 高清 日本视频大全| xxnx日本| 亚洲精品成人a| 手机看片国产日韩欧美| 国产品无码一区二区三区在线| 亚州性夜夜射在线观看| 久久综合色悠悠| wwwwwwwww日本电影| 亚洲精品久久午夜麻豆| 国内精品自线在拍2020不卡| 日本久久免费大片| 精品国产乱码久久久久久下载| 吉吉av电影| 男宿舍里的呻吟h| 欧美亚洲日韩自拍高清中文| 欧美特级另类xxx|