色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中如何使用擴散模型產生高保真度圖像

硬件三人行 ? 來源:TensorFlow ? 作者:Chitwan Saharia、Jon ? 2021-08-24 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

發布人:Google Research Brain 團隊研究員 Jonathan Ho 和軟件工程師 Chitwan Saharia

自然圖像合成是范圍很廣的一類機器學習 (ML) 任務,會面臨各種類型的應用所帶來的許多設計挑戰。其中之一就是圖像超分辨率,即訓練一個模型來將低分辨率的圖像,轉換為細節豐富的高分辨率圖像(例如 RAISR)。超分辨率的應用有很多,從恢復古舊的家族畫像,到改善醫療成像系統 (Super-resolution imaging),均有涉獵。另一個類似的圖像合成任務是類條件下的圖像生成,即訓練一個模型,并根據輸入的類別標簽生成樣本圖像。最終生成的樣本圖像可用于提高圖像分類、分割等下游模型的性能。例如,GAN 經常受到不穩定的訓練和模式崩潰的影響,而自回歸模型通常受到合成速度慢的影響。

RAISR

https://ai.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html

一般來說,這些圖像合成任務由深度生成模型完成,如 GAN、VAE,以及自回歸模型。然而,通過訓練讓這些模型在困難的高分辨率數據集上,合成高質量的樣本時,它們的表現均有不足。例如,GAN 經常受到不穩定的訓練和模式崩潰的影響,而自回歸模型通常受到合成速度慢的影響。

GAN

https://arxiv.org/abs/1406.2661

VAE

https://arxiv.org/abs/1312.6114

自回歸模型

https://arxiv.org/abs/1601.06759

但是,2015 年首次提出的擴散模型 (Diffusion Model) 由于其訓練的穩定性及在圖像和音頻生成方面的樣本質量結果很有潛力,最近又重新引起了關注。因此,與其他類型的深度生成模型相比,此模型在得失方面有了不錯的權衡。擴散模型的工作原理是通過逐步添加高斯噪聲來破壞訓練數據,慢慢抹去數據中的細節,直到變成純噪聲。然后再訓練一個神經網絡來逆轉這個破壞過程。運行這個反向破壞過程,可以通過逐漸去噪,來從純噪聲中合成數據,直到產生一個干凈的樣本。這個合成過程可以被解釋為一種優化算法,會按照數據密度的梯度來產生可能的樣本。

擴散模型

https://arxiv.org/abs/1503.03585

可以被解釋為

https://arxiv.org/abs/2006.11239

按照數據密度的梯度

https://arxiv.org/abs/1907.05600

今天,我們會介紹兩種相互聯系的方法。它們將推動擴散模型的圖像合成質量界限,即通過重復優化獲得的超級分辨率 (SR3) 和用于類條件合成的模型,此模型又名為級聯擴散模型 (CDM)。經證明,通過擴大擴散模型的規模以及精心選擇的數據增強技術,我們可以取得比現有方法更出色的結果。具體來說,SR3 可以實現強大的圖像超分辨率結果,在人工評估方面的表現優于 GAN。CDM 生成的高保真 ImageNet 樣本在 FID 得分 (Fréchet inception distance) 和分類準確率得分上都大大超過了 BigGAN-deep 和 VQ-VAE2。

分類準確率得分

https://arxiv.org/abs/1905.10887

BigGAN-deep

https://arxiv.org/abs/1809.11096

VQ-VAE2

https://arxiv.org/abs/1906.00446

SR3:圖像超分辨率

SR3 是一個超分辨率擴散模型,它通過輸入低分辨率圖像,從純噪聲中構建相應的高分辨率圖像。該模型利用圖像破壞過程為訓練對象,在這個過程中,噪聲被逐步添加到高分辨率圖像中,直到只剩下純噪聲為止。然后,它將逆轉這一過程,從純噪聲開始,逐步去除噪聲,再通過指導輸入的低分辨率圖像,達到目標分布。

SR3

http://iterative-refinement.github.io

通過大規模的訓練,在擴縮到所輸入低分辨率圖像的 4-8 倍時,SR3 在人臉和自然圖像的超分辨率任務中取得了強大的基準結果。這些超分辨率模型可以進一步級聯起來,增加有效的超分辨率縮放系數,例如,通過將 64x64→256x256 和 256x256→1024x1024 的人臉超分辨率模型堆疊在一起,來執行 64x64→1024x1024 的超分辨率任務。

以人工評估研究為例,我們比較了 SR3 與現有方法。通過開展雙選項必選實驗 (Two-alternative forced choice),我們要求受訪者在引用的高分辨率圖像和模型輸出之間做出選擇,并回答問題(猜一猜哪張圖像是攝像機拍攝的?)。我們通過混淆率(評分者選擇模型輸出而不是參考圖像的次數百分比,一個完美的算法能夠達到 50% 的混淆率)來衡量模型的性能。這項研究的結果如下圖所示。

上:我們在 16x16→128x128 的人臉任務中實現了接近 50% 的混淆率,優于一流的人臉超分辨率方法 PULSE 和 FSRGAN。下:在 64x64 → 256x256 的自然圖像這個更困難的任務中,我們也達到了 40% 的混淆率,表現水準遠超回歸基線

PULSE

https://arxiv.org/abs/2003.03808

FSRGAN

https://arxiv.org/abs/1711.10703

CDM:類條件 ImageNet 生成

在展示了 SR3 處理自然圖像超分辨率方面的有效性之后,我們便更進一步——將這些 SR3 模型用于類條件圖像生成。CDM 是利用 ImageNet 數據訓練的類條件擴散模型,可以生成高分辨率的自然圖像。由于 ImageNet 是一個困難的高熵數據集,我們將 CDM 構建為多個擴散模型的級聯。這種級聯方法會將多個空間分辨率的生成模型串聯起來:一個擴散模型以低分辨率生成數據,搭配一連串的 SR3 超分辨率擴散模型,生成圖像的分辨率逐漸提高到最高。眾所周知,級聯可以改善高分辨率數據的質量和訓練速度,這一點在以前的研究(例如自回歸模型和 VQ-VAE-2)以及同時進行的擴散模型研究中都有所體現。正如以下定量結果所證明的那樣,CDM 進一步突出了級聯在擴散模型中對樣本質量的有效性和對下游任務(如圖像分類)的有用性。

級聯流水線的示例,其中包括一系列擴散模型:第一個模型用于生成低分辨率的圖像,然后其余的模型負責執行上采樣,以最終生成高分辨率的圖像。此為用于生成類條件 ImageNet 的流水線,以 32x32 分辨率的類條件擴散模型開始,然后是使用 SR3 的 2 倍和 4 倍的類條件超分辨率

從我們的 256x256 級聯類條件 ImageNet 模型中選擇的生成圖像

同時進行

https://arxiv.org/abs/2102.09672

研究

https://arxiv.org/abs/2105.05233

將 SR3 模型納入級聯流水線的同時,我們還引入了一種新的數據增強技術,稱之為 “條件增強”,它可以進一步優化 CDM 的樣本質量結果。雖然 CDM 中的超分辨率模型利用數據集中的原始圖像訓練而成,但在生成過程中,它們需要以超分辨率對低分辨率基礎模型生成的圖像進行處理,而這些圖像與原始圖像相比,質量可能不夠高。這就導致了超分辨率模型的訓練和測試水平不對等。條件增強是指對級聯流水線中每個超分辨率模型的低分辨率輸入圖像進行數據增強。在我們的研究中,這些增強包括高斯噪聲和高斯模糊,防止各個超分辨率模型對其低分辨率的條件輸入過度擬合,最終讓 CDM 得到更好的高分辨率樣本質量。

總的來說,CDM 生成的高保真樣本在類條件 ImageNet 生成的 FID 得分和分類準確率得分方面都優于 BigGAN-deep 和 VQ-VAE-2。不同于 ADM 和 VQ-VAE-2 等其他模型,CDM 是一個純粹的生成模型,不會使用分類器來提高樣本質量。有關樣本質量的定量結果如下所示。

就不使用額外分類器來提高樣本質量的方法而言,類條件 ImageNet FID 在 256x256 分辨率下的得分。BigGAN-deep 的分數記錄自其在最佳截斷值時的表現(數值越低越好)

ImageNet 分類準確率在 256x256 分辨率下的得分,用以衡量利用生成數據訓練的分類器的驗證集準確率。與現有的方法相比,使用 CDM 生成的數據取得了明顯的進步,縮小了真實數據和生成數據之間的分類準確率的差距(數值越高越好)

結論

在 SR3 和 CDM 的助力下,我們已經將擴散模型的性能提升到了超分辨率和類條件 ImageNet 生成基準的一流水平。我們很高興能進一步探索擴散模型在各種生成性建模問題上的極限。有關我們研究的更多信息,請參閱通過迭代優化實現圖像超分辨和用于生成高保真圖像的級聯擴散模型。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1094

    瀏覽量

    41357
  • 模型
    +關注

    關注

    1

    文章

    3527

    瀏覽量

    50495
  • 機器學習
    +關注

    關注

    66

    文章

    8507

    瀏覽量

    134729

原文標題:用擴散模型生成高保真度圖像

文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    LME49600 單通道、110MHz、高保真、高電流耳機緩沖器技術手冊

    LME49600是一款高性能、低失真、高保真度的250mA音頻緩沖器。LME49600專為廣泛的應用而設計。它可以在運算放大器的反饋回路中使用。
    的頭像 發表于 05-20 09:45 ?429次閱讀
    LME49600 單通道、110MHz、<b class='flag-5'>高保真</b>、高電流耳機緩沖器技術手冊

    機器學習模型市場前景如何

    當今,隨著算法的不斷優化、數據量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發廣闊。下面,AI部落小編將探討機器學習
    的頭像 發表于 02-13 09:39 ?380次閱讀

    xgboost在圖像分類的應用

    和易用性,在各種機器學習任務得到了廣泛應用,包括分類、回歸和排序問題。在圖像分類領域,盡管深度學習模型
    的頭像 發表于 01-19 11:16 ?1032次閱讀

    基于移動自回歸的時序擴散預測模型

    在人工智能領域,目前有很多工作采用自回歸方法來模擬或是替代擴散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡稱 VAR)就是其中的典型代表,該工作利用自
    的頭像 發表于 01-03 14:05 ?925次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    的設計不僅提高了機器人對環境的理解能力,還使其能夠更精準地執行復雜任務。 擴散模型的新思路 除了大模型擴散
    發表于 12-29 23:04

    高保真功放電路的特點 低頻功放電路的應用

    高保真功放電路的特點 高保真功放電路的主要目標是盡可能準確地再現輸入信號,以提供高質量的音頻輸出。以下是高保真功放電路的一些關鍵特點: 高信噪比(SNR) :高保真功放電路具有很高的信
    的頭像 發表于 12-03 10:36 ?1136次閱讀

    一種新型機翼應變載荷關系神經網絡模型

    摘要 建立飛機結構應變載荷關系模型時,地面標定試驗數據保真度高、但工況范圍及數量受限,有限元仿真工況范圍覆蓋廣、但數據保真度低,導致單獨依據地面標定試驗數據和有限元仿真數據建立的應變載荷關系
    的頭像 發表于 11-21 10:59 ?568次閱讀
    一種新型機翼應變載荷關系神經網絡<b class='flag-5'>模型</b>

    擴散模型的理論基礎

    擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中,學習你需要知道的關于擴散
    的頭像 發表于 10-28 09:30 ?1410次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

    AI大模型與傳統機器學習的區別

    AI大模型與傳統機器學習在多個方面存在顯著的區別。以下是對這些區別的介紹: 一、模型規模與復雜 AI大
    的頭像 發表于 10-23 15:01 ?2635次閱讀

    AI大模型圖像識別的優勢

    AI大模型圖像識別展現出了顯著的優勢,這些優勢主要源于其強大的計算能力、深度學習算法以及大規模的數據處理能力。以下是對AI大模型
    的頭像 發表于 10-23 15:01 ?2463次閱讀

    TLV320AIC3204 Line out輸出,經過3W的高保真功放,輸出有相當明顯的POP聲是正常的嗎?

    按照手冊配置的軟件配置,當主板上電后,耳機監聽,POP聲不明顯,但是Line out 輸出,經過3W的高保真功放,輸出有相當明顯的POP聲。這樣正常嗎?設計時如何減小POP聲
    發表于 10-15 06:41

    數字功放和模擬功放哪個更保真

    避免了傳統模擬信號處理的許多失真和噪聲源,從而提供了更高保真度的音質。 動態性能 :數字功放能夠處理更大的信號變化范圍,因此在處理大音量時表現更佳,動態性能優越。 失真控制 :數字功放采用了先進的算法對音頻信號進行優
    的頭像 發表于 10-10 09:30 ?1688次閱讀

    揭秘使用20位DAC生成超低噪聲、高保真波形的設計挑戰

    電子發燒友網站提供《揭秘使用20位DAC生成超低噪聲、高保真波形的設計挑戰.pdf》資料免費下載
    發表于 09-11 09:47 ?0次下載
    揭秘使用20位DAC生成超低噪聲、<b class='flag-5'>高保真</b>波形的設計挑戰

    AB類功放輸出和雙線分音的基本概念和原理

    AB類功放輸出: AB類功放是一種音頻放大器,它結合了A類和B類功放的優點。A類功放提供高保真度和低失真,但效率較低。B類功放效率較高,但可能會產生交越失真。AB類功放通過在輸出晶體管上使用兩個偏置
    的頭像 發表于 08-23 10:52 ?1699次閱讀

    數字孿生3D大屏可視化技術應用優勢

    數字孿生3D大屏可視化技術是一種融合虛擬現實、增強現實和大數據等技術的創新型可視化工具,為用戶提供了沉浸式的交互體驗,同時能夠在大屏幕上展示高保真度的虛擬模型。這項技術在多個領域有著廣泛的應用,并且具有多重優勢。
    的頭像 發表于 07-31 15:05 ?995次閱讀
    主站蜘蛛池模板: 一本道久在线综合色色 | 久久AV国产麻豆HD真实乱 | 91九色麻豆 | 夜夜狂射影院欧美极品 | 娇妻在床上迎合男人 | 小泽玛丽av无码观看 | 97视频视频人人碰视频 | 日日a.v拍夜夜添久久免费 | 99er久久国产精品在线 | 漂亮的保姆3中文版完整版 漂亮的保姆3集电影免费观看中文 | 国产亚洲精品第一区香蕉 | 国产精品99精品无码视亚 | 中文字幕免费视频精品一 | 亚洲日韩欧美国产专区 | 国产成人欧美日韩在线电影 | 色AV色婷婷66人妻久久久 | 男的插曲女的下面免费APP | 天天夜夜草草久久亚洲香蕉 | 国产精品一区二区欧美视频 | 亚洲狠狠97婷婷综合久久久久 | 最近高清中文字幕无吗免费看 | 欧美黑人巨大videos免费 | 狠狠躁天天躁小说 | 做暧暧免费30秒体验 | 美女全光末满18勿进 | 一本久道久久综合婷婷五月 | 国产毛片A级久久久不卡精品 | 奇米狠狠干 | qvod 电影| 护士12p| 日本久久中文字幕 | 日美欧韩一区二去三区 | 国产人妻人伦精品9 | 中文字幕精品在线观看 | 两个奶头被吃得又翘又痛 | 国色天香社区视频免费高清3 | 国产九九熟女在线视频 | 国自产精品手机在线视频 | 欧美性情一线免费http | A片毛片免费视频在线看 | 人人在线碰碰视频免费 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品