色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌新作Dreamix:視頻擴(kuò)散模型是通用視頻編輯器,效果驚艷!

CVer ? 來(lái)源:機(jī)器之心 ? 2023-02-09 11:21 ? 次閱讀

AIGC 已經(jīng)火了很長(zhǎng)時(shí)間了,出現(xiàn)了文本生成圖像、文本生成視頻、圖像生成視頻等廣泛的應(yīng)用場(chǎng)景,如今谷歌研究院的一項(xiàng)新研究可以讓我們根據(jù)輸入視頻生成其他視頻了!

我們知道,生成模型和多模態(tài)視覺語(yǔ)言模型的進(jìn)展已經(jīng)為具備前所未有生成真實(shí)性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創(chuàng)作過(guò)程,但僅限于合成新圖像而非編輯現(xiàn)有圖像。為了彌合這一差距,基于文本的直觀編輯方法可以對(duì)生成和真實(shí)圖像進(jìn)行基于文本的編輯,并保留這些圖像的一些原始屬性。與圖像類似,近來(lái)文本到視頻模型也提出了很多,但使用這些模型進(jìn)行視頻編輯的方法卻很少。 在文本指導(dǎo)的視頻編輯中,用戶提供輸入視頻以及描述生成視頻預(yù)期屬性的文本 prompt,如下圖 1 所示。目標(biāo)有以下三個(gè)方面,1)對(duì)齊,編輯后的視頻應(yīng)符合輸入文本 prompt;2)保真度,編輯后的視頻應(yīng)保留原始視頻的內(nèi)容,3)質(zhì)量,編輯后的視頻應(yīng)具備高質(zhì)量。 可以看到,視頻編輯比圖像編輯更加具有挑戰(zhàn)性,它需要合成新的動(dòng)作,而不僅僅是修改視覺外觀。此外還需要保持時(shí)間上的一致性。因此,將 SDEdit、Prompt-to-Prompt 等圖像級(jí)別的編輯方法應(yīng)用于視頻幀上不足以實(shí)現(xiàn)很好的效果。

c97ae65a-a7e3-11ed-bfe3-dac502259ad0.png

在近日谷歌研究院等發(fā)表在 arXiv 的一篇論文中,研究者提出了一種新方法 Dreamix,它受到了 UniTune 的啟發(fā),將文本條件視頻擴(kuò)散模型(video diffusion model, VDM)應(yīng)用于視頻編輯。

c996adcc-a7e3-11ed-bfe3-dac502259ad0.png

Dreamix: Video Diffusion Models are General Video Editors

論文地址:https://arxiv.org/abs/2302.01329

項(xiàng)目主頁(yè):https://dreamix-video-editing.github.io/

文中方法的核心是通過(guò)以下兩種主要思路使文本條件 VDM 保持對(duì)輸入視頻的高保真度。其一不使用純?cè)肼曌鳛槟P统跏蓟鞘褂迷家曨l的降級(jí)版本,通過(guò)縮小尺寸和添加噪聲僅保留低時(shí)空信息;其二通過(guò)微調(diào)原始視頻上的生成模型來(lái)進(jìn)一步提升對(duì)原始視頻的保真度。 微調(diào)確保模型了解原始視頻的高分辨率屬性。對(duì)輸入視頻的簡(jiǎn)單微調(diào)會(huì)促成相對(duì)較低的運(yùn)動(dòng)可編輯性,這是因?yàn)槟P蛯W(xué)會(huì)了更傾向于原始運(yùn)動(dòng)而不是遵循文本 prompt。研究者提出了一種新穎的混合微調(diào)方法,其中 VDM 也在輸入視頻各個(gè)幀的集合上進(jìn)行微調(diào),并丟棄了它們的時(shí)序。混合微調(diào)顯著提升了運(yùn)動(dòng)編輯的質(zhì)量。 研究者進(jìn)一步利用其視頻編輯模型提出了一個(gè)新的圖像動(dòng)畫框架,如下圖 2 所示。該框架包含了幾個(gè)步驟,比如為圖像中的對(duì)象和背景設(shè)置動(dòng)畫、創(chuàng)建動(dòng)態(tài)相機(jī)運(yùn)動(dòng)等。他們通過(guò)幀復(fù)制或幾何圖像變換等簡(jiǎn)單的圖像處理操作來(lái)實(shí)現(xiàn),從而創(chuàng)建粗糙的視頻。接著使用 Dreamix 視頻編輯器對(duì)視頻進(jìn)行編輯。此外研究者還使用其微調(diào)方法進(jìn)行目標(biāo)驅(qū)動(dòng)的視頻生成,也即 Dreambooth 的視頻版本。

c9aa1678-a7e3-11ed-bfe3-dac502259ad0.png

在實(shí)驗(yàn)展示部分,研究者進(jìn)行了廣泛的定性研究和人工評(píng)估,展示了他們方法的強(qiáng)大能力,具體可參考如下動(dòng)圖。

c9c1c62e-a7e3-11ed-bfe3-dac502259ad0.gif

?

ca0b8e44-a7e3-11ed-bfe3-dac502259ad0.gif

cab5acee-a7e3-11ed-bfe3-dac502259ad0.gif

對(duì)于谷歌這項(xiàng)研究,有人表示,3D + 運(yùn)動(dòng)和編輯工具可能是下一波論文的熱門主題。

cb1f10da-a7e3-11ed-bfe3-dac502259ad0.png

還有人表示:大家可以很快在預(yù)算內(nèi)制作自己的的電影了,你所需要的只是一個(gè)綠幕以及這項(xiàng)技術(shù):

cb39199e-a7e3-11ed-bfe3-dac502259ad0.png

方法概覽 本文提出了一種新的方法用于視頻編輯,具體而言: 通過(guò)逆向被破壞視頻進(jìn)行文本引導(dǎo)視頻編輯 他們采用級(jí)聯(lián) VDM( Video Diffusion Models ),首先通過(guò)下采樣對(duì)輸入視頻就行一定的破壞,后加入噪聲。接下來(lái)是級(jí)聯(lián)擴(kuò)散模型用于采樣過(guò)程,并以時(shí)間 t 為條件,將視頻升級(jí)到最終的時(shí)間 - 空間分辨率。 在對(duì)輸入視頻進(jìn)行破壞處理的這一過(guò)程中,首先需要進(jìn)行下采樣操作,以得到基礎(chǔ)模型(16 幀 24 × 40),然后加入方差為cb4acffe-a7e3-11ed-bfe3-dac502259ad0.png高斯噪聲,從而進(jìn)一步破壞輸入視頻。 ? 對(duì)于上述處理好的視頻,接下來(lái)的操作是使用級(jí)聯(lián) VDM 將損壞掉的低分辨率視頻映射到與文本對(duì)齊的高分辨率視頻。這里的核心思想是,給定一個(gè)嘈雜的、時(shí)間空間分辨率非常低的視頻,有許多完全可行的、高分辨率的視頻與之對(duì)應(yīng)。本文中基礎(chǔ)模型從損壞的視頻開始,它與時(shí)間 s 的擴(kuò)散過(guò)程具有相同的噪聲。然后該研究用 VDM 來(lái)逆向擴(kuò)散過(guò)程直到時(shí)間 0。最后通過(guò)超分辨率模型對(duì)視頻進(jìn)行升級(jí)。 ?混合視頻圖像微調(diào)? 僅利用輸入視頻進(jìn)行視頻擴(kuò)散模型的微調(diào)會(huì)限制物體運(yùn)動(dòng)變化,相反,該研究使用了一種混合目標(biāo),即除了原始目標(biāo)(左下角)之外,本文還對(duì)無(wú)序的幀集進(jìn)行了微調(diào),這是通過(guò)「masked temporal attention」來(lái)完成的,以防止時(shí)間注意力和卷積被微調(diào)(右下)。這種操作允許向靜態(tài)視頻中添加運(yùn)動(dòng)。 ?

cb5b667a-a7e3-11ed-bfe3-dac502259ad0.png

推理 在應(yīng)用程序預(yù)處理的基礎(chǔ)上(Aapplication Dependent Pre-processing,下圖左),該研究支持多種應(yīng)用,能將輸入內(nèi)容轉(zhuǎn)換為統(tǒng)一的視頻格式。對(duì)于圖像到視頻,輸入圖像被復(fù)制并被變換,合成帶有一些相機(jī)運(yùn)動(dòng)的粗略視頻;對(duì)于目標(biāo)驅(qū)動(dòng)視頻生成,其輸入被省略,單獨(dú)進(jìn)行微調(diào)以維持保真度。然后使用 Dreamix Video Editor(右)編輯這個(gè)粗糙的視頻:即前面講到的,首先通過(guò)下采樣破壞視頻,添加噪聲。然后應(yīng)用微調(diào)的文本引導(dǎo)視頻擴(kuò)散模型,將視頻升級(jí)到最終的時(shí)間空間分辨率。

cb7a6520-a7e3-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)結(jié)果 視頻編輯:下圖中 Dreamix 將動(dòng)作改為舞蹈,并且外觀由猴子變?yōu)樾埽曨l中主體的基本屬性沒有變:

cb8bda80-a7e3-11ed-bfe3-dac502259ad0.gif

Dreamix 還可以生成與輸入視頻時(shí)間信息一致的平滑視覺修改,如下圖會(huì)滑滑板的小鹿:

cbd6fd08-a7e3-11ed-bfe3-dac502259ad0.gif

圖像到視頻:當(dāng)輸入是一張圖像時(shí),Dreamix 可以使用其視頻先驗(yàn)添加新的移動(dòng)對(duì)象,如下圖中添加了在有霧的森林中出現(xiàn)一頭獨(dú)角獸,并放大。

cc397f00-a7e3-11ed-bfe3-dac502259ad0.gif

小屋旁邊出現(xiàn)企鵝:

cc73cb56-a7e3-11ed-bfe3-dac502259ad0.gif

目標(biāo)驅(qū)動(dòng)視頻生成:Dreamix 還可以獲取顯示相同主題的圖像集合,并以該主題為運(yùn)動(dòng)對(duì)象生成新的視頻。如下圖是一條在葉子上蠕動(dòng)的毛毛蟲:

ccb304ba-a7e3-11ed-bfe3-dac502259ad0.gif

除了定性分析外,該研究還進(jìn)行了基線比較,主要是將 Dreamix 與 Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進(jìn)行對(duì)比。下表為評(píng)分結(jié)果:

ccec576a-a7e3-11ed-bfe3-dac502259ad0.png

圖 8 展示了由 Dreamix 編輯的視頻和兩個(gè)基線示例:文本到視頻模型實(shí)現(xiàn)了低保真度的編輯,因?yàn)樗灰栽家曨l為條件。PnP 保留了場(chǎng)景,但不同幀之間缺乏一致性;Dreamix 在這三個(gè)目標(biāo)上都表現(xiàn)良好。

cd035e2e-a7e3-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1942

    瀏覽量

    72887
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    805

    瀏覽量

    31163
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    521

    瀏覽量

    10268

原文標(biāo)題:谷歌新作Dreamix:視頻擴(kuò)散模型是通用視頻編輯器,效果驚艷!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    圖紙編輯器的基本操作

    “ ?之前幾篇推文詳細(xì)介紹了圖紙編輯器的亮點(diǎn)功能,最后我們?cè)俳榻B一下圖紙編輯器的基本操作,來(lái)結(jié)束這個(gè)系列 ? ” 主窗口工具欄 工具欄由以下工具組成,不同操作系統(tǒng)的圖標(biāo)樣式可能不同;不同版本的工具欄
    的頭像 發(fā)表于 12-04 18:18 ?104次閱讀
    圖紙<b class='flag-5'>編輯器</b>的基本操作

    擴(kuò)散模型的理論基礎(chǔ)

    擴(kuò)散模型的迅速崛起是過(guò)去幾年機(jī)器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡(jiǎn)單易懂的指南中,學(xué)習(xí)你需要知道的關(guān)于擴(kuò)散模型的一切。
    的頭像 發(fā)表于 10-28 09:30 ?322次閱讀
    <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的理論基礎(chǔ)

    Vivado編輯器亂碼問(wèn)題

    我們?cè)谌粘i_發(fā)中經(jīng)常使用sublime、vim、vs code等第三方的編輯器,這些編輯器可以使用很多插件來(lái)提高我們的編碼效率,但是也往往會(huì)帶來(lái)亂碼的問(wèn)題。我一般使用的是sublime來(lái)進(jìn)行編碼
    的頭像 發(fā)表于 10-15 17:24 ?726次閱讀
    Vivado<b class='flag-5'>編輯器</b>亂碼問(wèn)題

    vim編輯器命令模式使用方法

    Vim編輯器是一款功能強(qiáng)大的文本編輯器,廣泛應(yīng)用于程序員和開發(fā)者的日常工作中。Vim編輯器擁有多種模式,其中命令模式(Command mode)是最基本的模式之一,它允許用戶執(zhí)行各種命令來(lái)操作
    的頭像 發(fā)表于 08-30 15:01 ?403次閱讀

    vim編輯器如何使用

    Vim編輯器是一個(gè)功能強(qiáng)大的文本編輯器,它基于Vi進(jìn)行改進(jìn),并增加了許多新特性。Vim編輯器的使用主要涉及其不同的工作模式及相應(yīng)操作。以下是Vim編輯器的基本使用方法: 一、Vim
    的頭像 發(fā)表于 08-30 14:58 ?431次閱讀

    嵌入式學(xué)習(xí)-常用編輯器之Vim編輯器

    在Linux下我們對(duì)文本進(jìn)行編輯,經(jīng)常用到的編輯器就是Vi/Vim,Vi/Vim命令眾多,功能強(qiáng)大,是大多數(shù)Linux程序員選擇使用的編輯器。下面先簡(jiǎn)單介紹Vim編輯器的安裝和工作模式
    發(fā)表于 08-23 09:12

    常用編輯器之Vim編輯器

    在Linux下我們對(duì)文本進(jìn)行編輯,經(jīng)常用到的編輯器就是Vi/Vim,Vi/Vim命令眾多,功能強(qiáng)大,是大多數(shù)Linux程序員選擇使用的編輯器。下面先簡(jiǎn)單介紹Vim編輯器的安裝和工作模式
    發(fā)表于 08-22 09:48

    Sora還在PPT階段,“中國(guó)版Sora”已經(jīng)開放使用了!

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)今年春節(jié)期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長(zhǎng)達(dá)60秒的視頻生成長(zhǎng)
    的頭像 發(fā)表于 06-17 09:07 ?3403次閱讀

    TSMaster 中 Hex 文件編輯器使用詳細(xì)教程

    TSMaster軟件的Hex文件編輯器提供了文件處理的功能,這一特性讓使用TSMaster軟件的用戶可以更便捷地對(duì)Hex、bin、mot、s19和tsbinary類型的文件進(jìn)行處理。本文重點(diǎn)講述
    的頭像 發(fā)表于 06-01 08:21 ?781次閱讀
    TSMaster 中 Hex 文件<b class='flag-5'>編輯器</b>使用詳細(xì)教程

    谷歌發(fā)布全新視頻生成模型Veo與Imagen文生圖模型

    谷歌近日宣布了兩項(xiàng)重大技術(shù)進(jìn)展,首先是視頻生成模型Veo的正式推出。這款先進(jìn)的模型能夠支持生成質(zhì)量更高的視頻內(nèi)容,讓用戶能夠根據(jù)自己的需求設(shè)
    的頭像 發(fā)表于 05-16 10:46 ?393次閱讀

    OpenAI文生視頻模型Sora要點(diǎn)分析

    近日,美國(guó)人工智能公司OpenAI發(fā)布了首個(gè)視頻生成模型Sora。不同于此前許多AI大模型文生圖或視頻時(shí),會(huì)出現(xiàn)人物形象前后不一致等問(wèn)題
    的頭像 發(fā)表于 02-22 16:37 ?1069次閱讀
    OpenAI文生<b class='flag-5'>視頻</b><b class='flag-5'>模型</b>Sora要點(diǎn)分析

    openai發(fā)布首個(gè)視頻生成模型sora

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫
    的頭像 發(fā)表于 02-21 16:45 ?1260次閱讀

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

    ;可以說(shuō)是王炸級(jí)的文生視頻模型。目前Sora模型正面向部分成員開放,以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。 Sora是一種擴(kuò)散模型,相較其他
    的頭像 發(fā)表于 02-18 17:41 ?984次閱讀

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實(shí)現(xiàn)
    的頭像 發(fā)表于 02-04 13:49 ?1028次閱讀

    谷歌推出能一次生成完整視頻擴(kuò)散模型

    該公司指出,當(dāng)前眾多文生視頻模型普遍存在無(wú)法生成長(zhǎng)時(shí)、高品質(zhì)及動(dòng)作連貫的問(wèn)題。這些模型往往采用“分段生成視頻”策略,即先生成少量關(guān)鍵幀,再借助時(shí)間超級(jí)分辨率(TSM)技術(shù)生成其間的
    的頭像 發(fā)表于 01-29 11:14 ?536次閱讀
    主站蜘蛛池模板: 国产ZZJJZZJJ视频全免费| av淘宝 在线观看| 国产久久热99视频| 日本无码人妻丰满熟妇5G影院| 诱受H嗯啊巨肉各种play| 国产在线一区二区三区四区| 青青视频 在线 在线播放| 97超碰在线视频 免费| 精品午夜中文字幕熟女人妻在线| 为什么丈夫插我我却喜欢被打着插| a级毛片高清免费视频| 美女扒开尿孔| 116美女写真午夜电影z| 老师小扫货水能么多叫出来| 亚洲中文在线偷拍| 久久vs国产综合色| 国产白色视频在线观看w| 国产午夜精品一区二区三区 | 口内射精颜射极品合集| 亚洲日本欧美产综合在线| 国产亚洲精品字幕在线观看| 亚洲高清免费在线观看| 国内2018年午夜福利5678| 亚洲视频国产| 久久久中日AB精品综合| 99国产精品久久人妻无码| 色噜噜视频| 精子pk美女| 99re久久热免费视频| 秋霞成人午夜鲁丝一区二区三区| 国产成A人片在线观看| 亚洲AV蜜桃永久无码精品无码网| 小骚妇BBBXXX| 午夜影视不用充钱的免费| 娇女的呻吟亲女禁忌h16| 中文字幕99香蕉在线| 日本污ww视频网站| 久久观看视频| 国产A级毛片久久久久久久| 1788vv视频| 亚洲国产精品综合久久一线|