Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
1. 論文信息
標題:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
作者:Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
原文鏈接:https://arxiv.org/pdf/2212.11565.pdf
代碼鏈接:https://tuneavideo.github.io/
2. 引言
坤坤鎮樓:
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
大規模的多模態數據集是由數十億個文本圖像對組成,得益于高質量的數據,在文本到圖像 (text-to-image, T2I) 生成方面取得了突破 。為了在文本到視頻 (T2V) 生成中復制這一成功,最近的工作已將純空間 T2I 生成模型擴展到時空域。這些模型通常采用在大規模文本視頻數據集(例如 WebVid-10M)上進行訓練的標準范式。盡管這種范式為 T2V 生成帶來了可喜的結果,但它需要對大型硬件加速器進行大規模數據集上的訓練,這一過程既昂貴又耗時。人類擁有利用現有知識和提供給他們的信息創造新概念、想法或事物的能力。例如,當呈現一段文字描述為“一個人在雪地上滑雪”的視頻時,我們可以利用我們對熊貓長相的了解來想象熊貓在雪地上滑雪的樣子。由于使用大規模圖像文本數據進行預訓練的 T2I 模型已經捕獲了開放域概念的知識,因此出現了一個直觀的問題:它們能否從單個視頻示例中推斷出其他新穎的視頻,例如人類?因此引入了一種新的 T2V 生成設置,即 One-Shot Video Tuning,其中僅使用單個文本-視頻對來訓練 T2V 生成器。生成器有望從輸入視頻中捕獲基本的運動信息,并合成帶有編輯提示的新穎視頻。
本文提出了一種新的文本到視頻(T2V)生成設置——單次視頻調諧,其中只呈現一個文本-視頻對。該模型基于大規模圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型構建。研究人員做出了兩個關鍵觀察:1)T2I模型可以生成代表動詞術語的靜止圖像;2)將T2I模型擴展為同時生成多個圖像表現出驚人的內容一致性。為了進一步學習連續運動,研究人員引入了Tune-A-Video,它包括一個定制的時空注意機制和一個高效的單次調諧策略。在推理時,研究人員采用DDIM反演為采樣提供結構指導。大量定性和定量實驗表明,我們的方法在各種應用中都具有顯著的能力。
論文提出的one-shot tuning的setting如上。本文的貢獻如下:1. 該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。2. 提出的框架Tune-A-Video建立在經過海量圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型之上。3. 本文介紹了一種稀疏的時空注意力機制和生成時間連貫視頻的有效調優策略。4. 實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。
3. 方法
該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。擬議的框架Tune-A-Video建立在經過海量圖像數據預訓練的最先進的文本到圖像(T2I)擴散模型之上。該論文還提出了一種有效的調優策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。
3.1 DDPMs的回顧
DDPMs(去噪擴散概率模型)是一種深度生成模型,最近因其令人印象深刻的性能而受關注。DDPMs通過迭代去噪過程,從標準高斯分布的樣本生成經驗分布的樣本。借助于對生成結果的漸進細化,它們在許多圖像生成基準上都取得了最先進的樣本質量。
根據貝葉斯定律 and 可以表達為:
DDPMs的主要思想是:給定一組圖像數據,我們逐步添加一點噪聲。每一步,圖像變得越來越不清晰,直到只剩下噪聲。這被稱為“正向過程”。然后,我們學習一個機器學習模型,可以撤消每一個這樣的步驟,我們稱之為“反向過程”。如果我們能夠成功地學習一個反向過程,我們就有了一個可以從純隨機噪聲生成圖像的模型。
這其中又有LDMs這種范式的模型比較流行,Latent Diffusion Models(LDMs)是一種基于DDPMs的圖像生成方法,它通過在latent space中迭代“去噪”數據來生成圖像,然后將表示結果解碼為完整的圖像。LDMs通過將圖像形成過程分解為去噪自編碼器的順序應用,實現了在圖像數據和其他領域的最先進的合成結果。此外,它們的公式允許引入一個引導機制來控制圖像生成過程,而無需重新訓練。然而,由于這些模型通常直接在像素空間中運行,因此優化強大的DMs通常需要數百個GPU天,并且推理由于順序評估而昂貴。為了在有限的計算資源上啟用DM訓練,同時保留它們的質量和靈活性,我們在強大的預訓練自編碼器的潛在空間中應用它們。與以前的工作不同,訓練擴散模型時使用這樣一個表示允許首次在復雜度降低和細節保留之間達到近乎最優的平衡點,極大地提高了視覺保真度。
3.2 Network Inflation
T2I 擴散模型(例如,LDM)通常采用 U-Net ,這是一種基于空間下采樣通道然后是帶有跳躍連接的上采樣通道的神經網絡架構。它由堆疊的二維卷積殘差塊和Transformer塊組成。每個Transformer塊包括空間自注意層、交叉注意層和前饋網絡 (FFN)。空間自注意力利用特征圖中的像素位置來實現相似的相關性,而交叉注意力則考慮像素與條件輸入(例如文本)之間的對應關系。形式上,給定視頻幀 vi 的latent表征 ,很自然的可以想到要用self-attention機制來完成:
然后論文借助卷積來強化temporal coherence,并采用spatial self-attention來加強注意力機制,來捕捉不同視頻幀的變化。
為了減少計算復雜度,Q采用相同的而K和V都是通過共享的矩陣來獲取:
這樣計算復雜度就降低到了,相對比較可以接受。
3.3 Fine-Tuning and Inference
Fine-Tuning是使預訓練的模型適應新任務或數據集的過程。在提出的方法Tune-A-Video中,文本到圖像(T2I)擴散模型是在海量圖像數據上預先訓練的。然后,在少量的文本視頻對上對模型進行微調,以從文本生成視頻。Fine-Tuning過程包括使用反向傳播使用新數據更新預訓練模型的權重。推理是使用經過訓練的模型對新數據進行預測的過程。在提出的方法中,使用經過Fine-Tuning的T2I模型進行推斷,從文本生成視頻。
Inference過程包括向模型輸入文本,模型生成一系列靜止圖像。然后將靜止圖像組合成視頻。本發明提出的方法利用高效的注意力調整和結構反演來提高所生成視頻的時間一致性。
4. 實驗
作者為了證明方法的有效性,進行了廣泛的實驗,以評估所提出的方法在各種應用中的性能。這些實驗是在多個數據集上進行的,包括Kinetics-600數據集、Something-Something-Something數據集和YouCook2數據集。實驗中使用的評估指標包括弗雷切特入口距離(FID)、盜夢分數(IS)和結構相似度指數(SSIM)。實驗結果證明了所提出的文本驅動視頻生成和編輯方法的有效性。
看一下可視化的效果:
5. 討論
該論文在處理輸入視頻中的多個物體和物體交互方面存在局限性。這是由于擬議框架中使用的文本到圖像(T2I)模型的固有局限性。該論文建議使用其他條件信息,例如深度,使模型能夠區分不同的物體及其相互作用。但是,這種研究途徑留待將來使用。
6. 結論
該論文介紹了一項名為 One-Shot Video Tuning 的從文本生成視頻的新任務。該任務涉及僅使用一對文本視頻和預先訓練的模型來訓練視頻生成器。擬議的框架Tune-A-Video對于文本驅動的視頻生成和編輯既簡單又有效。該論文還提出了一種有效的調優策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。
審核編輯 :李倩
-
圖像數據
+關注
關注
0文章
52瀏覽量
11291 -
模型
+關注
關注
1文章
3261瀏覽量
48914 -
生成器
+關注
關注
7文章
317瀏覽量
21052
原文標題:Tune-A-Video論文解讀(小黑子的狂歡)
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論