色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ImageBind:跨模態(tài)之王,將6種模態(tài)全部綁定!

CVer ? 來源:機器之心 ? 2023-05-11 09:30 ? 次閱讀

Meta 新的開源模型 ImageBind 將多個數(shù)據(jù)流連接在一起,適用于文本、視頻音頻等 6 種模態(tài)。

在人類的感官中,一張圖片可以將很多體驗融合到一起,比如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質(zhì)地、拂面而來的微風(fēng),甚至可以激發(fā)創(chuàng)作一首詩的靈感。圖像的這種「綁定」(binding)屬性通過與自身相關(guān)的任何感官體驗對齊,為學(xué)習(xí)視覺特征提供了大量監(jiān)督來源。

理想情況下,對于單個聯(lián)合嵌入空間,視覺特征應(yīng)該通過對齊所有感官來學(xué)習(xí)。然而這需要通過同一組圖像來獲取所有感官類型和組合的配對數(shù)據(jù),顯然不可行。

最近,很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此,視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù),反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

今日,Meta AI 提出了 ImageBind,它通過利用多種類型的圖像配對數(shù)據(jù)來學(xué)習(xí)單個共享表示空間。該研究不需要所有模態(tài)相互同時出現(xiàn)的數(shù)據(jù)集,相反利用到了圖像的綁定屬性,只要將每個模態(tài)的嵌入與圖像嵌入對齊,就會實現(xiàn)所有模態(tài)的迅速對齊。Meta AI 還公布了相應(yīng)代碼。

2652d1d2-ef68-11ed-90ce-dac502259ad0.png

主頁:https://imagebind.metademolab.com/

論文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址:https://github.com/facebookresearch/ImageBind

具體而言,ImageBind 利用網(wǎng)絡(luò)規(guī)模(圖像、文本)匹配數(shù)據(jù),并將其與自然存在的配對數(shù)據(jù)(視頻、音頻、圖像、深度)相結(jié)合,以學(xué)習(xí)單個聯(lián)合嵌入空間。這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(tài)(如音頻、深度等)對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態(tài)上實現(xiàn)零樣本識別功能。

267325b8-ef68-11ed-90ce-dac502259ad0.gif

下圖 2 為 ImageBind 的整體概覽。

267e9c18-ef68-11ed-90ce-dac502259ad0.png

與此同時,研究者表示 ImageBind 可以使用大規(guī)模視覺語言模型(如 CLIP)進行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓(xùn)練就可以應(yīng)用于各種不同的模態(tài)和任務(wù)。

ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分,從而實現(xiàn)從所有相關(guān)類型數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind 為研究人員打開了嘗試開發(fā)全新整體性系統(tǒng)的閘門,例如結(jié)合 3D 和 IMU 傳感器來設(shè)計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文本、視頻和圖像來搜索圖像、視頻、音頻文件或文本信息

綁定內(nèi)容和圖像,學(xué)習(xí)單個嵌入空間

人類有能力通過很少的樣本學(xué)習(xí)新概念,比如如閱讀對動物的描述之后,就可以在實際生活中認出它們;通過一張不熟悉的汽車模型照片,就可以預(yù)測其引擎可能發(fā)出的聲音。這在一定程度上是因為單張圖像可以將整體感官體驗「捆綁」在一起。然而在人工智能領(lǐng)域,雖然模態(tài)數(shù)量一直在增加,但多感官數(shù)據(jù)的缺乏會限制標準的需要配對數(shù)據(jù)的多模態(tài)學(xué)習(xí)。

理想情況下,一個有著不同種類數(shù)據(jù)的聯(lián)合嵌入空間能讓模型在學(xué)習(xí)視覺特征的同時學(xué)習(xí)其他的模態(tài)。此前,往往需要收集所有可能的配對數(shù)據(jù)組合,才能讓所有模態(tài)學(xué)習(xí)聯(lián)合嵌入空間。

ImageBind 規(guī)避了這個難題,它利用最近的大型視覺語言模型它將最近的大規(guī)模視覺語言模型的零樣本能力擴展到新的模態(tài),它們與圖像的自然配對,如視頻 - 音頻和圖像 - 深度數(shù)據(jù),來學(xué)習(xí)一個聯(lián)合嵌入空間。針對其他四種模式(音頻、深度、熱成像和 IMU 讀數(shù)),研究者使用自然配對的自監(jiān)督數(shù)據(jù)。

26f43c16-ef68-11ed-90ce-dac502259ad0.png

通過將六種模態(tài)的嵌入對齊到一個公共空間,ImageBind 可以跨模態(tài)檢索未同時觀察到的不同類型的內(nèi)容,添加不同模態(tài)的嵌入以自然地對它們的語義進行組合,以及結(jié)合使用 Meta AI 的音頻嵌入與預(yù)訓(xùn)練 DALLE-2 解碼器(設(shè)計用于與 CLIP 文本嵌入)來實現(xiàn)音頻到圖像生成。

互聯(lián)網(wǎng)上存在大量連同文本一起出現(xiàn)的圖像,因此訓(xùn)練圖像 - 文本模型已經(jīng)得到了廣泛的研究。ImageBind 利用了圖像能與各種模態(tài)相連接的綁定屬性,比如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來,或者利用在有 IMU 傳感器的可穿戴相機中捕捉到的視頻數(shù)據(jù)將運動與視頻連接起來。

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)到的視覺表征可以用作學(xué)習(xí)不同模態(tài)特征的目標。這使得 ImageBind 將圖像與同時出現(xiàn)的任何模態(tài)對齊,自然地使這些模態(tài)彼此對齊。熱圖和深度圖等與圖像具有強相關(guān)性的模態(tài)更容易對齊。音頻和 IMU(慣性測量單元)等非視覺的模態(tài)則具有較弱的相關(guān)性,比如嬰兒哭聲等特定聲音可以搭配各種視覺背景。

ImageBind 表明,圖像配對數(shù)據(jù)足以將這六種模態(tài)綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模態(tài)可以相互「對話」,并在沒有同時觀察它們的情況下找到它們之間的聯(lián)系。例如,ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯(lián)系起來。這使得其他模型能夠「理解」新的模態(tài),而不需要任何資源密集型的訓(xùn)練。

ImageBind 強大的 scaling 表現(xiàn)使該模型能夠替代或增強許多人工智能模型,使它們能夠使用其他模態(tài)。例如雖然 Make-A-Scene 可以通過使用文本 prompt 生成圖像,但 ImageBind 可以將其升級為使用音頻生成圖像,如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明,ImageBind 的 scaling 行為隨著圖像編碼器的強度而提高。換句話說,ImageBind 對齊模態(tài)的能力隨著視覺模型的能力和大小而提升。這表明,更大的視覺模型對非視覺任務(wù)有利,如音頻分類,而且訓(xùn)練這種模型的好處超出了計算機視覺任務(wù)的范疇。

在實驗中,Meta 使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進行了比較。

272dc940-ef68-11ed-90ce-dac502259ad0.png

在基準測試上,mageBind 在音頻和深度方面優(yōu)于專家模型。

Meta 發(fā)現(xiàn) ImageBind 可以用于少樣本音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。例如,ImageBind 明顯優(yōu)于 Meta 在 Audioset 上訓(xùn)練的自監(jiān)督 AudioMAE 模型,以及在音頻分類上微調(diào)的監(jiān)督 AudioMAE 模型。

此外,ImageBind 還在跨模態(tài)的零樣本識別任務(wù)上取得了新的 SOTA 性能,甚至優(yōu)于經(jīng)過訓(xùn)練以識別該模態(tài)概念的最新模型。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3706

    瀏覽量

    135756
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    550

    瀏覽量

    10425
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1212

    瀏覽量

    24991

原文標題:爆火!ImageBind:跨模態(tài)之王,將6種模態(tài)全部綁定!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    OpenHarmony實戰(zhàn)開發(fā)-如何實現(xiàn)模態(tài)轉(zhuǎn)場

    (0xf56c6c) // 第三步:使用bindPopup接口彈窗內(nèi)容綁定給元素 .bindPopup(this.customPopup, { builder: this.popupBuilder
    發(fā)表于 04-28 14:47

    模態(tài)窗口的設(shè)置問題

    Labview中,一個窗口如果設(shè)置為模態(tài)窗口,則打開后,點擊其他窗口應(yīng)該是沒有作用的。我設(shè)置的幾個子VI為模態(tài)窗口,效果都沒有問題。但有一個子VI,設(shè)置為模態(tài)窗口,打開后,點擊其他窗口的按鈕,雖然
    發(fā)表于 11-28 21:56

    labview 模態(tài)分析

    用labview進行模態(tài)分析,有很多問題,望高手指點一二力錘激勵信號+加速度傳感器信號,請問下,labview什么控件可以計算系統(tǒng)的模態(tài)還是說僅僅兩路信號是分析不了模態(tài)的。
    發(fā)表于 06-24 11:50

    LMS Virtual Lab 流固模態(tài)分析

    LMS Virtual Lab 流固模態(tài)分析的主要步驟:1、設(shè)置材料、屬性、約束條件,進行結(jié)構(gòu)有限元模態(tài)分析。注意:模態(tài)計算的頻率范圍不要太小,否則可能計算錯誤!2、對流體進行模態(tài)分析
    發(fā)表于 05-29 06:59

    簡單的模型進行流固耦合的模態(tài)分析

    。聲腔的第一階自由模態(tài)為剛體模態(tài),聲腔內(nèi)各點的聲壓幅值相同;結(jié)構(gòu)自由模態(tài)6階為6個自由度的剛體模態(tài)
    發(fā)表于 07-07 17:15

    CSI工作模態(tài)分析

    CSI拓撲CSI開關(guān)狀態(tài)CSI工作模態(tài)分析CSI與VSI的聯(lián)系
    發(fā)表于 11-15 07:38

    百度研制知識增強的模態(tài)深度問答技術(shù)等在內(nèi)的的應(yīng)用系統(tǒng)

    同時,百度還研制了知識增強的模態(tài)深度語義理解方法,通過知識關(guān)聯(lián)模態(tài)信息,運用語言描述不同模態(tài)信息的語義,進而讓機器實現(xiàn)從看清到看懂、從聽
    的頭像 發(fā)表于 09-16 14:48 ?2261次閱讀

    可解決數(shù)據(jù)異構(gòu)性問題的模態(tài)檢索方法

    隨著越來越多多模態(tài)數(shù)據(jù)的岀現(xiàn),模態(tài)檢索引起了廣泛的關(guān)注。模態(tài)檢索面臨一大挑戰(zhàn)為模態(tài)鴻溝,為了
    發(fā)表于 03-26 14:29 ?10次下載
    可解決數(shù)據(jù)異構(gòu)性問題的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>檢索方法

    基于語義耦合相關(guān)的判別式模態(tài)哈希特征表示學(xué)習(xí)算法

    基于哈希的模態(tài)檢索以其存儲消耗低、査詢速度快等優(yōu)點受到廣泛的關(guān)注。模態(tài)哈希學(xué)習(xí)的核心問題是如何對不同模態(tài)數(shù)據(jù)進行有效地共享語義空間嵌入學(xué)
    發(fā)表于 03-31 11:28 ?12次下載
    基于語義耦合相關(guān)的判別式<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>哈希特征表示學(xué)習(xí)算法

    可提高模態(tài)行人重識別算法精度的特征學(xué)習(xí)框架

    為了提升模態(tài)行人重識別算法的識別精度,提出了一基于改進困難三元組損失的特征學(xué)習(xí)框架。首先,改進了傳統(tǒng)困難三元組損失,使其轉(zhuǎn)換為全局三元組損失。其次,基于
    發(fā)表于 05-10 11:06 ?9次下載

    基于耦合字典學(xué)習(xí)與圖像正則化的模態(tài)檢索

    基于耦合字典學(xué)習(xí)與圖像正則化的模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    模態(tài)分析定義以及模態(tài)假設(shè)理論

    模態(tài)分析的經(jīng)典定義為,線性定常系統(tǒng)振動微分方程組中的物理坐標變換為模態(tài)坐標,使方程組解耦,成為一組以模態(tài)坐標及模態(tài)參數(shù)描述的獨立方程,以便
    的頭像 發(fā)表于 04-26 10:43 ?2468次閱讀

    大模型+多模態(tài)的3實現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入模態(tài)的信息,讓其變得更強
    的頭像 發(fā)表于 12-13 13:55 ?2144次閱讀
    大模型+多<b class='flag-5'>模態(tài)</b>的3<b class='flag-5'>種</b>實現(xiàn)方法

    鴻蒙ArkTS聲明式開發(fā):平臺支持列表【全屏模態(tài)轉(zhuǎn)場】模態(tài)轉(zhuǎn)場設(shè)置

    通過bindContentCover屬性為組件綁定全屏模態(tài)頁面,在組件插入和刪除時可通過設(shè)置轉(zhuǎn)場參數(shù)ModalTransition顯示過渡動效。
    的頭像 發(fā)表于 06-12 15:47 ?2821次閱讀
    鴻蒙ArkTS聲明式開發(fā):<b class='flag-5'>跨</b>平臺支持列表【全屏<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場】<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場設(shè)置

    鴻蒙ArkTS聲明式開發(fā):平臺支持列表【半模態(tài)轉(zhuǎn)場】模態(tài)轉(zhuǎn)場設(shè)置

    通過bindSheet屬性為組件綁定模態(tài)頁面,在組件插入時可通過設(shè)置自定義或默認的內(nèi)置高度確定半模態(tài)大小。
    的頭像 發(fā)表于 06-12 21:09 ?1258次閱讀
    鴻蒙ArkTS聲明式開發(fā):<b class='flag-5'>跨</b>平臺支持列表【半<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場】<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場設(shè)置
    主站蜘蛛池模板: 97综合久久| 免费精品一区二区三区AA片 | 翘臀后进美女白嫩屁股视频 | 亚洲精品在看在线观看 | 老师的玉足高跟鞋满足我 | 欧美日韩视频高清一区 | 亚洲宅男天堂a在线 | 国产三级视频在线 | 别停好爽好深好大好舒服视频 | 最近的2019中文字幕国语完整版 | 国产福利不卡在线视频 | 日本邪恶全彩工囗囗番海贼王 | 色在线视频亚洲欧美 | 国产一区内射最近更新 | 毛片免费观看的视频 | 国产美女视频一区二区二三区 | 99麻豆精品国产人妻无码 | 精品熟女少妇AV久久免费A片 | 精品视频久久久久 | 不卡无线在一二三区 | 男女作爱在线播放免费网页版观看 | 成人高清护士在线播放 | 麻豆国产自制在线观看 | 久久欧洲AV无码精品色午夜麻豆 | 性做久久久久免费观看 | 我和黑帮老大第365天第2季在线 | 99精品久久精品一区二区 | 国产99久久久国产精品免费看 | 中文字幕99香蕉在线 | 在线观看免费亚洲 | 欧美xxxxx九色视频免费观看 | 午夜一个人在线观看完整版 | 日本不卡不码高清免费 | 国产传媒18精品免费观看 | jizz69女士第一次 | 中文字幕 日韩 无码 在线 | 日韩AV无码一区二区三区不卡毛片 | 亚洲99精品A片久久久久久 | 国产精品JIZZ视频免费 | 无码免费视频AAAAAA片草莓 | 性盈盈剧场 |