色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!

CVer ? 來源:量子位 ? 2023-12-10 10:24 ? 次閱讀

大佬何愷明還未正式入職MIT,但和MIT的第一篇合作研究已經出來了:

他和MIT師生一起開發了一個自條件圖像生成框架,名叫RCG(代碼已開源)。

這個框架結構非常簡單但效果拔群,直接在ImageNet-1K數據集上實現了無條件圖像生成的新SOTA。

968392de-96ac-11ee-8b88-92fbcf53809c.png

它生成的圖像不需要任何人類注釋(也就是提示詞、類標簽什么的),就能做到既保真又具有多樣性。

968f3756-96ac-11ee-8b88-92fbcf53809c.png

這樣的它不僅顯著提高了無條件圖像生成的水平,還能跟當前最好的條件生成方法一較高下。

用何愷明團隊自己的話來說:

有條件和無條件生成任務之間長期存在的性能差距,終于在這一刻被彌補了。

那么,它究竟是如何做到的呢?

類似自監督學習的自條件生成

首先,所謂無條件生成,就是模型在沒有輸入信號幫助的情況下直接捕獲數據分布生成內容。

這種方式比較難以訓練,所以一直和條件生成有很大性能差距——就像無監督學習比不過監督學習一樣。

但就像自監督學習的出現,扭轉了這一局面一樣。

在無條件圖像生成領域,也有一個類似于自監督學習概念的自條件生成方法。

相比傳統的無條件生成簡單地將噪聲分布映射到圖像分布,這種方法主要將像素生成過程設置在從數據分布本身導出的表示分布上。

它有望超越條件圖像生成,并推動諸如分子設計或藥物發現這種不需要人類給注釋的應用往前發展(這也是為什么條件生成圖像發展得這么好,我們還要重視無條件生成)。

現在,基于這個自條件生成概念,何愷明團隊首先開發了一個表示擴散模型RDM。

它主要用于生成低維自監督圖像表示,方法是通過自監督圖像編碼器從圖像中截?。?/p>

969c8794-96ac-11ee-8b88-92fbcf53809c.png

它的核心架構如下:

首先是輸入層,它負責將表征投射到隱藏維度C,接著是N個全連接塊,最后是一個輸出層,負責把隱藏層的潛在特征重新投射(轉換)到原始表征維度。

其中每一層都包含一個LayerNorm層、一個SiLU層以及一個線性層。

96aaccaa-96ac-11ee-8b88-92fbcf53809c.png

這樣的RDM具有兩個優點:

一是多樣性強,二是計算開銷小。

接著,利用RDM,團隊就提出了今天的主角:表示條件圖像生成架構RCG。

它是一個簡單的自條件生成框架,由三個組件組成:

一個是SSL圖像編碼器,用于將圖像分布轉換為緊湊的表示分布。

一個是RDM,用于對該分布進行建模和采樣。

最后是一個像素生成器MAGE,用于根據表示來處理圖像像。

MAGE的工作方式主要是向token化的圖像中添加隨機掩碼,并要求網絡以從同一圖像中提取的表示為條件來重建丟失的token。

96b8b810-96ac-11ee-8b88-92fbcf53809c.png

最終,測試表明,這個自條件生成框架雖結構簡單但效果非凡:

在ImageNet 256×256上,RCG實現了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厲害的無條件生成方法FID分數為7.04,IS得分為123.5。

96c3fdd8-96ac-11ee-8b88-92fbcf53809c.png

以及,相比條件生成,RCG也絲毫不遜色,可以達到相當甚至超過該領域基準模型的水平。

最后,在無分類器引導的情況下,RCG的成績還能進一步提高到3.31(FID)和253.4(IS)。

團隊表示:

這些結果表明,自條件圖像生成模型擁有巨大潛力,可能預示這一領域新時代的到來。

團隊介紹

本文一共三位作者:

96c8531a-96ac-11ee-8b88-92fbcf53809c.png

代碼:https://github.com/LTH14/rcg

論文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鴻,本科畢業于清華姚班,研究方向為跨模態集成傳感技術

他的主頁很有意思,還專門放了一個菜譜合集——做研究和做飯是他最熱愛的兩件事。

96d25b26-96ac-11ee-8b88-92fbcf53809c.png

另一位作者是MIT電氣工程與計算機科學系(EECS)教授、MIT無線網絡和移動計算中心主任Dina Katabi,她是今年斯隆獎的獲得者,并已當選美國國家科學院院士。

最后,通訊作者為何愷明,他將在明年正式回歸學界、離開Meta加入MIT電氣工程和計算機科學系,與Dina Katabi成為同事。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1083

    瀏覽量

    40449
  • MIT
    MIT
    +關注

    關注

    3

    文章

    253

    瀏覽量

    23389
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689

原文標題:何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    VCA810輸入激怎么解決?

    各位專家:這是我第一次使用VCA810芯片。但是發現只要供電就會出現激,信號輸入,頻率穩定在約38KHz。波形是一個削了上半邊的正弦波。電源旁放置了10u的鋁電解電容。VCA810電源旁放置了100n。Vc由DA通過一片低噪低失調運放輸入。懇請專家解答。
    發表于 09-20 07:03

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發布標志著AI圖像創作領域邁入了一個全新的高度
    的頭像 發表于 08-30 16:23 ?1128次閱讀

    NB81是否支持OneNet SOTA功能?應該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應該如何激活SOTA?
    發表于 06-04 06:14

    fx3 UVC 32bit圖像黑屏的原因?

    硬件采用FX3套件,FPGA生成圖像傳給FX3顯示在上位機,使用an75779工程,分辨率1920*1080,幀率30,8位數據線時,用amcap圖像正常,改為32位數據線時,黑屏
    發表于 05-24 06:59

    “仲農業工程學院與深圳信盈達科技有限公司”揭牌儀式舉行

    5月10日下午,“仲農業工程學院與深圳信盈達科技有限公司”揭牌儀式在仲農業工程學院劉宇新樓會議室舉行。參加揭牌儀式的嘉賓有深圳信盈達科技有限公司總總經理牛樂樂,校企合作部經理喻時坤、仲
    的頭像 發表于 05-18 08:03 ?565次閱讀
    “仲<b class='flag-5'>愷</b>農業工程學院與深圳信盈達科技有限公司”揭牌儀式舉行

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,為什么?

    旋變位置不變的情況下,當使能SOTA功能與關閉SOTA功能時,APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,用示波器采的輸入到MCU端的差分電壓是一樣的,難道是SOTA使能后影響了MCU芯片內部的等效阻抗嗎,有專家
    發表于 05-17 08:13

    IBM與SAP深化生成式AI領域合作

    近日,IBM與SAP宣布將進一步擴大他們的合作范圍,共同在生成式人工智能(AI)領域進行深度探索。此次合作的核心在于,雙方將共同為SAP的RISE平臺構建全新的生成式AI功能,旨在將人
    的頭像 發表于 05-13 09:19 ?468次閱讀

    OpenAI發布圖像檢測分類器,可區分AI生成圖像與實拍照片

    據OpenAI介紹,初步測試結果表明,該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時,成功率高達近98%,僅有不到0.5%的非AI圖像
    的頭像 發表于 05-09 09:57 ?454次閱讀

    麻省理工與Adobe新技術DMD提升圖像生成速度

    2023年3月27日,據傳,新型文生圖算法雖然使得圖像生成無比逼真,但奈何運行速度較慢。近期,美國麻省理工學院聯合Adobe推出新型DMD方法,僅略微犧牲圖像質量就大幅度提高圖像
    的頭像 發表于 03-27 14:17 ?513次閱讀

    施耐德電氣與水木拓簽署合作協議

    近日,施耐德電氣與水木拓(達茂)氫能源科技有限公司(以下簡稱“水木拓”)簽訂合作協議。
    的頭像 發表于 03-08 09:50 ?464次閱讀

    博世與微軟合作開發生成式AI產品

    全球知名科技公司博世與微軟聯合宣布,雙方已建立合作關系,共同致力于開發先進的生成式AI產品。這一合作的核心目標在于通過利用生成式AI技術來進一步強化車輛的自動駕駛功能,并提高行車安全性
    的頭像 發表于 03-05 11:17 ?893次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成高質量圖片,同時大幅降低了對硬件的需求,為
    的頭像 發表于 03-05 10:46 ?780次閱讀

    谷歌Gemini AI模型因人物圖像生成問題暫停運行

    據報道,部分用戶發現Gemini生成的圖片存在明顯錯誤,如特斯拉創始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。
    的頭像 發表于 02-25 09:59 ?584次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文本到圖像
    的頭像 發表于 02-19 16:03 ?934次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能模型保持領先地位

    谷歌推出圖像生成新工具ImageFX,提升圖像質量

    作為實驗室的新興工具,ImageFX 允許用戶借助簡潔的文字指令來創作圖像。經過前期試驗,該團隊認為對生成型人工智能工具來說最關鍵的是如何啟發并鼓勵用戶挖掘和實踐創意想法。
    的頭像 發表于 02-02 14:18 ?657次閱讀
    主站蜘蛛池模板: 国产精品无码亚洲精品| 99热久久爱五月天婷婷| 一个人看www| 野花视频在线观看免费| 2020久久精品永久免费| FREECHINESE东北女人真爽| 第一次处破女18分钟免费| 国产精品久久久久久久AV下载| 国产精品一区二区四区| 精品国产品在线18年| 泷泽萝拉首部av| 日本无码人妻精品一区二区视频| 吻嘴胸全身好爽床大全| 亚洲午夜精品A片久久WWW软件| 妈妈的职业3完整版在线播放| 伦理片飘花免费影院| 全部老头和老太XXXXX| 无人区乱码区1卡2卡三卡在线 | 久久精品一区二区三区资源网| 猫咪av永久最新域名| 日本人HD18HD18| 亚洲久热无码中文字幕| 9420高清完整版在线电影免费观看| 成人性生交大片| 精品亚洲视频在线观看| 欧洲人交xxx69| 亚洲国产欧美国产综合在线| 97国产在线观看| 国产精品久久久久影院| 恋夜直播午夜秀场最新| 日日啪无需播放器| 夜夜国产亚洲视频香蕉| YY600800新视觉理论私人| 韩国女人高潮嗷嗷叫视频| 嗯啊插的好深啊使劲抽视频| 性欧美video| 亚洲国产欧美日韩在线一区| 3d无遮挡h肉动漫在线播放| 国产精品久久久久影院色| 猫咪www958ii| 亚洲精品无码一区二区三区四虎 |