色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用圖像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

AI智勝未來 ? 來源:機器之心 ? 2023-05-26 15:45 ? 次閱讀

Meta 新的開源模型 ImageBind 將多個數據流連接在一起,適用于文本、視頻音頻等 6 種模態。

在人類的感官中,一張圖片可以將很多體驗融合到一起,比如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質地、拂面而來的微風,甚至可以激發創作一首詩的靈感。圖像的這種「綁定」(binding)屬性通過與自身相關的任何感官體驗對齊,為學習視覺特征提供了大量監督來源。

理想情況下,對于單個聯合嵌入空間,視覺特征應該通過對齊所有感官來學習。然而這需要通過同一組圖像來獲取所有感官類型和組合的配對數據,顯然不可行。

最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的模態對。因此,視頻 - 音頻嵌入無法直接用于圖像 - 文本任務,反之亦然。學習真正的聯合嵌入面臨的一個主要障礙是缺乏所有模態融合在一起的大量多模態數據。

今日,Meta AI 提出了 ImageBind,它通過利用多種類型的圖像配對數據來學習單個共享表示空間。該研究不需要所有模態相互同時出現的數據集,相反利用到了圖像的綁定屬性,只要將每個模態的嵌入與圖像嵌入對齊,就會實現所有模態的迅速對齊。Meta AI 還公布了相應代碼。

4654cb0a-fb2c-11ed-90ce-dac502259ad0.png

論文地址:

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址:

https://github.com/facebookresearch/ImageBind

具體而言,ImageBind 利用網絡規模(圖像、文本)匹配數據,并將其與自然存在的配對數據(視頻、音頻、圖像、深度)相結合,以學習單個聯合嵌入空間。這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(如音頻、深度等)對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態上實現零樣本識別功能。

4680c494-fb2c-11ed-90ce-dac502259ad0.gif

下圖 2 為 ImageBind 的整體概覽。

46fe11a6-fb2c-11ed-90ce-dac502259ad0.png

與此同時,研究者表示 ImageBind 可以使用大規模視覺語言模型(如 CLIP)進行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓練就可以應用于各種不同的模態和任務。

ImageBind 是 Meta 致力于創建多模態 AI 系統的一部分,從而實現從所有相關類型數據中學習。隨著模態數量的增加,ImageBind 為研究人員打開了嘗試開發全新整體性系統的閘門,例如結合 3D 和 IMU 傳感器來設計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文本、視頻和圖像來搜索圖像、視頻、音頻文件或文本信息

綁定內容和圖像,學習單個嵌入空間

人類有能力通過很少的樣本學習新概念,比如如閱讀對動物的描述之后,就可以在實際生活中認出它們;通過一張不熟悉的汽車模型照片,就可以預測其引擎可能發出的聲音。這在一定程度上是因為單張圖像可以將整體感官體驗「捆綁」在一起。然而在人工智能領域,雖然模態數量一直在增加,但多感官數據的缺乏會限制標準的需要配對數據的多模態學習。

理想情況下,一個有著不同種類數據的聯合嵌入空間能讓模型在學習視覺特征的同時學習其他的模態。此前,往往需要收集所有可能的配對數據組合,才能讓所有模態學習聯合嵌入空間。

ImageBind 規避了這個難題,它利用最近的大型視覺語言模型它將最近的大規模視覺語言模型的零樣本能力擴展到新的模態,它們與圖像的自然配對,如視頻 - 音頻和圖像 - 深度數據,來學習一個聯合嵌入空間。針對其他四種模式(音頻、深度、熱成像和 IMU 讀數),研究者使用自然配對的自監督數據。

475987f2-fb2c-11ed-90ce-dac502259ad0.png

通過將六種模態的嵌入對齊到一個公共空間,ImageBind 可以跨模態檢索未同時觀察到的不同類型的內容,添加不同模態的嵌入以自然地對它們的語義進行組合,以及結合使用 Meta AI 的音頻嵌入與預訓練 DALLE-2 解碼器(設計用于與 CLIP 文本嵌入)來實現音頻到圖像生成。

互聯網上存在大量連同文本一起出現的圖像,因此訓練圖像 - 文本模型已經得到了廣泛的研究。ImageBind 利用了圖像能與各種模態相連接的綁定屬性,比如利用網絡數據將文本與圖像連接起來,或者利用在有 IMU 傳感器的可穿戴相機中捕捉到的視頻數據將運動與視頻連接起來。

從大規模網絡數據中學習到的視覺表征可以用作學習不同模態特征的目標。這使得 ImageBind 將圖像與同時出現的任何模態對齊,自然地使這些模態彼此對齊。熱圖和深度圖等與圖像具有強相關性的模態更容易對齊。音頻和 IMU(慣性測量單元)等非視覺的模態則具有較弱的相關性,比如嬰兒哭聲等特定聲音可以搭配各種視覺背景。

ImageBind 表明,圖像配對數據足以將這六種模態綁定在一起。該模型可以更全面地解釋內容,使不同的模態可以相互「對話」,并在沒有同時觀察它們的情況下找到它們之間的聯系。例如,ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯系起來。這使得其他模型能夠「理解」新的模態,而不需要任何資源密集型的訓練。

ImageBind 強大的 scaling 表現使該模型能夠替代或增強許多人工智能模型,使它們能夠使用其他模態。例如雖然 Make-A-Scene 可以通過使用文本 prompt 生成圖像,但 ImageBind 可以將其升級為使用音頻生成圖像,如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明,ImageBind 的 scaling 行為隨著圖像編碼器的強度而提高。換句話說,ImageBind 對齊模態的能力隨著視覺模型的能力和大小而提升。這表明,更大的視覺模型對非視覺任務有利,如音頻分類,而且訓練這種模型的好處超出了計算機視覺任務的范疇。

在實驗中,Meta 使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務中的工作進行了比較。

47a77d7c-fb2c-11ed-90ce-dac502259ad0.png

在基準測試上,ImageBind 在音頻和深度方面優于專家模型。

Meta 發現 ImageBind 可以用于少樣本音頻和深度分類任務,并且優于之前定制的方法。例如,ImageBind 明顯優于 Meta 在 Audioset 上訓練的自監督 AudioMAE 模型,以及在音頻分類上微調的監督 AudioMAE 模型。

此外,ImageBind 還在跨模態的零樣本識別任務上取得了新的 SOTA 性能,甚至優于經過訓練以識別該模態概念的最新模型。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1087

    瀏覽量

    40502
  • AI
    AI
    +關注

    關注

    87

    文章

    31155

    瀏覽量

    269488
  • 人工智能
    +關注

    關注

    1792

    文章

    47442

    瀏覽量

    239005

原文標題:用圖像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新模態模型權威評測第

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第
    的頭像 發表于 12-20 10:39 ?259次閱讀

    Meta發布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta在人工智能領域邁出了重要步。通過這款模型Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數字代理在元宇宙中的動作將更加逼真,從而增強用戶的沉浸感和參與度。 除了
    的頭像 發表于 12-16 10:34 ?368次閱讀

    未來AI模型的發展趨勢

    上得到了顯著提升。未來,算法和架構的進步優化將推動AI模型在性能上實現新的突破。 多頭自注意力機制、前饋神經網絡等關鍵技術的改進,將增強模型
    的頭像 發表于 10-23 15:06 ?669次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,
    的頭像 發表于 10-18 09:39 ?483次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款
    的頭像 發表于 10-11 18:08 ?467次閱讀

    亞馬遜云科技正式上線Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新模型Llama 3.2,包括其首款模態模型,現已在Amazo
    的頭像 發表于 10-11 09:20 ?530次閱讀

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這
    的頭像 發表于 09-27 11:44 ?417次閱讀

    Meta發布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發布了其最新的開源人工智能(AI模型——Llama 3.1,這舉措標志著Me
    的頭像 發表于 07-24 18:25 ?1460次閱讀

    Meta不會在歐盟提供新的模態AI模型

    科技巨頭Meta近日宣布了項重要決策,其即將推出的創新模態Llama模型將不會在歐盟地區發布。這
    的頭像 發表于 07-19 16:04 ?500次閱讀

    Meta即將發布超強開源AI模型Llama 3-405B

    在人工智能領域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發布其最新力作——Llama 3-405B,個擁有驚人4050億參數的開源模型。這
    的頭像 發表于 07-18 09:58 ?1018次閱讀

    聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/模態交互/英語評測SDK合集)

    豐富外設配件 配套模態應用示例,支持快速上手體驗大模型語音交互、智能視覺等 AI 應用 板載 DAPLINK 調試器,外接條USB 線即
    發表于 06-18 17:33

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態
    的頭像 發表于 06-07 09:17 ?774次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出系列具備
    的頭像 發表于 04-19 17:00 ?853次閱讀

    李未可科技正式推出WAKE-AI模態AI模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新代 LLM-Based的自然交互
    發表于 04-18 17:01 ?624次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    機器人基于開源模態語言視覺大模型

    ByteDance Research 基于開源模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo
    發表于 01-19 11:43 ?425次閱讀
    機器人基于<b class='flag-5'>開源</b>的<b class='flag-5'>多</b><b class='flag-5'>模態</b>語言視覺大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 日本孕妇大胆孕交| 亚洲免费三区| 欧美含羞草免费观看全部完| 老司机无码精品A| 蜜桃最新网址| 欧美亚洲日本日韩在线| 日日干夜夜啪蕉视频| 爽死你个放荡粗暴小淫货漫画| 无套日出白浆在线播放| 亚洲欧美日本国产在线观18| 在线观看国产精选免费| 99er久久国产精品在线| 粗大分开挺进内射| 国产午夜婷婷精品无码A片| 久草在在线免视频在线观看| 免费看的一级毛片| 日韩精品欧美在线视频在线| 亚洲AVAV天堂AV在线网爱情| 伊人久久大香线蕉综合电影| 99久久久国产精品免费蜜臀| 亚洲精品乱码8久久久久久日本 | 国产精品99久久久久久AV蜜臀 | 中国xxxxxx片免费播放| SM双性精跪趴灌憋尿调教H| 国产精品亚洲污污网站入口| 九九热视频 这里有精品| 嫩草视频在线观看免费| 深夜释放自己污在线看| 亚洲日韩乱码人人爽人人澡人| 97无码欧美熟妇人妻蜜桃天美| 宫交拔不出来了h黑人| 国产又爽又黄又不遮挡视频 | 国产成人高清精品免费观看| 激情床戏揉胸吃胸视频| 女教师公车痴汉在线播放| 无码国产成人午夜在线观看不卡| 影音先锋av电影| 成人免费视频在| 久久精品国产免费播高清无卡| 青草伊人久久| 亚洲无吗视频|