色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

擴散模型再下一城! 故事配圖這個活可以交給AI了

深度學習自然語言處理 ? 來源:機器之心 ? 作者:機器之心 ? 2022-12-06 14:47 ? 次閱讀

以后,故事配圖這個活可以交給 AI 了。

你有沒有發現,最近大火的擴散模型如 DALL·E 2、Imagen 和 Stable Diffusion,雖然在文本到圖像生成方面可圈可點,但它們只是側重于單幅圖像生成,假如要求它們生成一系列連貫的圖像如漫畫,可能表現就差點意思了。

生成具有故事性的漫畫可不是那么簡單,不光要保證圖像質量,畫面的連貫性也占有非常重要的地位,如果生成的圖像前后連貫性較差,故事中的人物像素成渣,給人一種看都不想看的感覺,就像下圖展示的,生成的故事圖就像加了馬賽克,完全看不出圖像里有啥。

d57f4db2-751e-11ed-8abf-dac502259ad0.png

img

本文中,來自滑鐵盧大學、阿里巴巴集團等機構的研究者向這一領域發起了挑戰:他們提出了自回歸潛在擴散模型(auto-regressive latent diffusion model, AR-LDM),從故事可視化和故事延續入手。故事的可視化旨在合成一系列圖像,用來描述用句子組成的故事;故事延續是故事可視化的一種變體,與故事可視化的目標相同,但基于源框架(即第一幀)完成。這一設置解決了故事可視化中的一些問題(泛化問題和信息限制問題),允許模型生成更有意義和連貫的圖像。

d5ab7c8e-751e-11ed-8abf-dac502259ad0.png

img

論文地址:https://arxiv.org/pdf/2211.10950.pdf

具體來說, AR-LDM 采用了歷史感知編碼模塊,其包含一個 CLIP 文本編碼器和 BLIP 多模態編碼器。對于每一幀,AR-LDM 不僅受當前字幕的指導,而且還以先前生成的圖像字幕歷史為條件。這允許 AR-LDM 生成相關且連貫的圖像。

據了解,這是第一項成功利用擴散模型進行連貫視覺故事合成的工作。

該研究的效果如何呢?例如,下圖是本文方法和 StoryDALL·E 的比較,其中 #1、2、3、4、5 分別代表第幾幀,在第 3 和第 4 幀的字幕中沒有描述汽車或背景的細節,只是兩句話「#3:Fred 、 Wilma 正在開車 」、「#4:Fred 一邊開車,一邊聽乘客 Wilma 說話。Wilma 抱著雙臂和 Fred 說話時看起來很生氣。」相比較而言,AR-LDM 生成的圖像質量明顯更高,人物臉部表情等細節清晰可見,且生成的系列圖像更具連貫性,例如 StoryDALL·E 生成的圖像,很明顯的看到背景都不一樣,人物細節也很模糊,其生成只根據上下文文本條件,而沒有利用之前生成的圖像。相反,AR-LDM 前后給人的感覺就是一個完整的漫畫故事。

總結來說就是,AR-LDM 表現出很強的多模態理解和圖像生成能力。它能夠精確地生成字幕描述的高質量場景,并在幀間保持很強的一致性。此外,該研究還探索了采用 AR-LDM 來保持故事中未見過的角色(即代詞所指的角色,例如圖 1 最后一幀中的男人)的一致性。這種適配可以在很大程度上緩解由于對未見角色的不確定描述而導致的生成結果不一致。

d5c5beb4-751e-11ed-8abf-dac502259ad0.png

img

最后,該研究在兩個數據集 FlintstonesSV 和 PororoSV 上進行了實驗,雖然使用的數據集都是卡通圖像,但該研究還引入了一個新的數據集 VIST,來更好地評估 AR-LDM 對真實世界的故事合成能力。

定量評估結果表明 AR-LDM 在故事可視化和連續任務中都實現了 SOTA 性能。特別是,AR-LDM 在 PororoSV 上取得了 16.59 的 FID 分數,相對于之前的故事可視化方法提高了 70%。AR-LDM 還提高了故事連續性能,在所有評估數據集上相對提高了大約 20%。此外,該研究還進行了大規模的人類評估,以測試 AR-LDM 在視覺質量、相關性和一致性的表現,這表明人類更喜歡本文合成的故事而不是以前的方法。

方法概述

與單字幕文本到圖像任務不同,合成連貫的故事需要模型了解歷史描述和場景。例如下面這個故事「紅色金屬圓柱立方體位于中心,然后在右側添加一個綠色橡膠立方體」,僅第二句話無法為模型提供足夠的指導來生成連貫的圖像。因此對于模型來說,了解第一張生成圖像中「紅色金屬圓柱立方體」的歷史字幕、場景和外觀至關重要。

設計強大的故事合成模型的關鍵是使其能夠將當前圖像生成與歷史字幕和場景結合起來。在這項工作中,研究者提出了 AR-LDM,以實現更好的跨幀一致性。如下圖 2a 所示,AR-LDM 利用歷史字幕和圖像來生成未來幀。圖 2b 顯示了 AR-LDM 的詳細架構。

d5f41c28-751e-11ed-8abf-dac502259ad0.png

img

現有工作假設每一幀之間的條件獨立,并根據字幕生成整個視覺故事。而 AR-LDM 額外地以歷史圖像

d60fd2d8-751e-11ed-8abf-dac502259ad0.png

為條件來擺脫這個假設,并根據鏈式法則直接估計后驗,其形式如下

d622c776-751e-11ed-8abf-dac502259ad0.png

img

AR-LDM 還能在高效、低維潛在空間中執行正向和反向擴散過程。潛在空間在感知上近似等同于高維 RGB 空間,而像素中冗余的語義無意義信息被消除。具體地,AR-LDM 在擴散過程中使用潛在表示

d63b999a-751e-11ed-8abf-dac502259ad0.png

代替像素,最終輸出可以用 D(z) 解碼回像素空間。單獨的輕度感知壓縮階段僅消除難以察覺的細節,使模型能夠以更低的訓練和推理成本獲得具有競爭力的生成結果。

研究者使用歷史感知條件網絡將歷史字幕 - 圖像對編碼為多模態條件

d64a832e-751e-11ed-8abf-dac502259ad0.png

,以指導去噪過程

d659bcd6-751e-11ed-8abf-dac502259ad0.png

。條件網絡由 CLIP 和 BLIP 組成,分別負責當前字幕編碼和先前字幕圖像編碼。BLIP 使用視覺語言理解和生成任務與大規模過濾干凈的 Web 數據進行預訓練。總之,AR-LDM可以通過以下公式生成圖像d66996ec-751e-11ed-8abf-dac502259ad0.png

d6753844-751e-11ed-8abf-dac502259ad0.png

img

自適應 AR-LDM

對于漫畫等現實世界的應用,有必要為新的(未見過的)角色保持一致性。受 Textual Inversion 和 DreamBooth 的啟發,研究者添加了一個新的 token 來表示未見過的角色,并調整經過訓練的 AR-LDM 以泛化到特定的未見過的角色。

具體來說,新 token 的嵌入由類似的現有單詞初始化,如「man」或「woman」。研究者只需要角色的 4-5 張圖像組成一個故事作為訓練數據集,并使用 1e-5 的相同學習率對經過 100 個 epoch 的 AR-LDM 進行微調。他們發現微調 AR-LDM 的整個參數(僅編碼器d68276d0-751e-11ed-8abf-dac502259ad0.png和解碼器 D 除外)獲得了更好的性能。

實驗結果

研究者使用三個數據集作為測試平臺,分別是 PororoSV、FlintstonesSV 和 VIST。這三個數據集中的每個故事都包含 5 個連續的幀。對于故事可視化,研究者從字幕中預測全部的 5 幀。對于故事連貫性,第一幀被指定為源幀,并參考源幀生成其余 4 幀。他們在 8 塊 NVIDIA A100-80GB GPU 上對 AR-LDM 訓練了 50 個 epoch,用時兩天。

研究者使用兩種設置評估 AR-LDM,其一是使用自動度量 FID 分數進行定量評估,其二是關于視覺質量、相關性和一致性的大規模人工評估。

下表 2 展示了在 PororoSV 上的故事可視化結果,其中 AR-LDM 取得了重大進步,SOTA FID 分數得分為 16.59,大大低于以前的方法。

d695e71a-751e-11ed-8abf-dac502259ad0.png

img

下圖 4a 中,AR-LDM 能夠生成高質量、連貫的視覺故事,同時忠實地再現角色細節和背景。圖 4b 中,AR-LDM 可以通過自回歸生成保留場景,例如左側示例中最后兩幀的背景,以及右側示例中第三和第四幀中的塊。

d6ae2eb0-751e-11ed-8abf-dac502259ad0.png

img

研究者測試了 AR-LDM 的故事連貫性,結果如下表 1 所示。AR-LDM 在所有四個數據集上都獲得新的 SOTA FID 分數。值得一提的是,AR-LDM 憑借大約一半的參數優于 MEGA-StoryDALL·E。

d6d30550-751e-11ed-8abf-dac502259ad0.png

img

下圖 5 顯示了 FlintstonesSV 和 VIST-SIS 數據集上的更多示例,可以觀察到跨幀的場景一致性,例如左上角示例中第三幀和第四幀的窗戶,左下角示例中的海岸場景。

d6eecf06-751e-11ed-8abf-dac502259ad0.png

img

下圖 6 中,與其他方法相比,具有自回歸生成方式的 AR-LDM 可以更好地跨幀保留背景和場景視圖。

d82a9300-751e-11ed-8abf-dac502259ad0.png

img

下圖 7 中,所有帶下劃線的文本都指的是同一個角色(即源幀中戴粉色帽子的男人),而描述不一致。因此,AR-LDM 根據每一個描述生成三個不同的角色。在對 3-5 幅圖像進行微調后,自適應 AR-LDM 可以生成一致的角色,并如字幕所描述的那樣忠實地合成場景和角色。

d870976a-751e-11ed-8abf-dac502259ad0.png

img

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31155

    瀏覽量

    269488
  • 模型
    +關注

    關注

    1

    文章

    3268

    瀏覽量

    48926
  • 可視化
    +關注

    關注

    1

    文章

    1198

    瀏覽量

    20972

原文標題:擴散模型再下一城! 故事配圖這個活可以交給 AI 了

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事

    科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事
    的頭像 發表于 01-07 13:27 ?83次閱讀

    基于移動自回歸的時序擴散預測模型

    在人工智能領域,目前有很多工作采用自回歸方法來模擬或是替代擴散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡稱 VAR)就是其中的典型代表,該工作利用自
    的頭像 發表于 01-03 14:05 ?136次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    的是百度的Picodet模型,它是種基于深度卷積網絡(DNN)的輕量級目標檢測模型,具有非常高的檢測精度,可以在低算力設備進行實時的端到端推理檢測。 2.1 Picodet
    發表于 12-19 14:33

    浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

    隨著擴散生成模型的發展,人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進行逐步去噪而得到高質量的采樣。當前,許多應用
    的頭像 發表于 11-27 09:21 ?203次閱讀
    浙大、微信提出精確反演采樣器新范式,徹底解決<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>反演問題

    擴散模型的理論基礎

    擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之。在這本簡單易懂的指南中,學習你需要知道的關于擴散模型
    的頭像 發表于 10-28 09:30 ?532次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

    AI城市躍遷之路,模型提供強勁動力

    代城市數字底座,為什么是“模型”?
    的頭像 發表于 09-21 18:21 ?1908次閱讀
    <b class='flag-5'>AI</b>城市躍遷之路,<b class='flag-5'>一</b><b class='flag-5'>城</b><b class='flag-5'>一</b>云<b class='flag-5'>一</b><b class='flag-5'>模型</b>提供強勁動力

    助力榮耀MagicBook Pro 16,芯海科技EC芯片再下一

    特別值得提的是,榮耀MagicBook Pro 16選擇搭載芯海科技高性能EC芯片,助力榮耀AI PC在整機性能上實現更為流暢、高效和可靠的用戶體驗。
    的頭像 發表于 08-09 15:50 ?430次閱讀
    助力榮耀MagicBook Pro 16,芯海科技EC芯片<b class='flag-5'>再下一</b><b class='flag-5'>城</b>

    聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/多模態交互/英語評測SDK合集)

    技還提供模型訓練推理工具將自己的算法模型部署至芯片上,也可以配合這個工具構建自己的 AI 應用
    發表于 06-18 17:33

    搭載星火認知大模型AI鼠標:鍵呼出AI助手,辦公更高效

    搭載星火認知大模型AI鼠標:鍵呼出AI助手,辦公更高效 在這個AI時代,如果你想在激烈競爭的
    的頭像 發表于 03-25 11:52 ?517次閱讀
    搭載星火認知大<b class='flag-5'>模型</b>的<b class='flag-5'>AI</b>鼠標:<b class='flag-5'>一</b>鍵呼出<b class='flag-5'>AI</b>助手,辦公更高效

    芯海科技PC生態再下一 EC產品助力榮耀首款AI PC火熱上市!

    芯海科技EC產品再下一,實現公司在PC生態領域的重要突破。 榮耀MagicBook Pro 16作為榮耀首款AI PC,全面實現性能、
    發表于 03-21 13:51 ?324次閱讀
    芯海科技PC生態<b class='flag-5'>再下一</b><b class='flag-5'>城</b> EC產品助力榮耀首款<b class='flag-5'>AI</b> PC火熱上市!

    芯海科技PC生態再下一 EC產品助力榮耀首款AI PC火熱上市!

    科技EC產品再下一,實現公司在PC生態領域的重要突破。榮耀MagicBookPro16作為榮耀首款AIPC,全面實現性能、續航、通信、音頻、屏幕的行業領先,在硬件
    的頭像 發表于 03-21 08:15 ?361次閱讀
    芯海科技PC生態<b class='flag-5'>再下一</b><b class='flag-5'>城</b> EC產品助力榮耀首款<b class='flag-5'>AI</b> PC火熱上市!

    防止AI模型被黑客病毒入侵控制(原創)聆思大模型AI開發套件評測4

    在訓練只聰明的AI小動物解決實際問題,通過構建神經網絡模型并進行推理,讓電腦也能像人樣根據輸入信息做出決策。 在上述示例中,我創建了
    發表于 03-19 11:18

    cubemx ai導入onnx模型后壓縮失敗怎么解決?

    cubemx ai導入onnx模型后壓縮失敗。請問我怎么解決
    發表于 03-19 07:58

    主板用STM32H7B3I-DK然后個普通的攝像頭,可以實現視覺AI嗎?

    主板用STM32H7B3I-DK然后個普通的攝像頭,可以實現視覺AI
    發表于 03-19 06:44

    谷歌推出AI擴散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴散模型Lumiere,這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構,旨在實現視頻生成的
    的頭像 發表于 02-04 13:49 ?1059次閱讀
    主站蜘蛛池模板: 亚洲伊人网站| 久久91精品国产91久久户| 天天久久影视色香综合网| 久久精品男人影院| 国产AV午夜精品一区二区入口| 野花韩国中文版免费观看| 肉多荤文高h羞耻校园| 美女不要啊| 红杏俱乐部| 国产精品高潮AV久久无码| 99久久精品互换人妻AV| 亚洲视频精选| 无限资源在线完整高清观看1| 飘雪韩国在线观看免费高清完整版| 久久精品电影院| 国产亚洲精品久久久久久白晶晶 | 人人啪日日观看在线| 久久久精品久久| 黄页免费观看| 国产精品视频免费观看| 大香伊人久久| 99国产小视频| 37大但人文艺术A级都市天气| 一本二卡三卡四卡乱码麻豆| 亚洲国产成人精品无码区5566| 色多多涩涩屋下载软件| 秋霞网在线伦理免费| 欧美卡1卡2卡三卡2021精品| 免费看黄的片多多APP下载| 久啪久久全部视频在线| 久久精品国产只有精品| 精品亚洲午夜久久久久| 精品国产中文字幕在线视频| 国产亚洲精品久久久999蜜臀| 国产毛多水多高潮高清| 国产精品久久久久精品A片软件 | 中文字幕日本久久2019| 伊人伊人影院| 最新无码二区日本专区| 67194免费入口| 7723日本高清完整版在线观看|