色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta開源ImageBind新模型,超越GPT-4,對齊文本、音頻等6種模態!

AI科技大本營 ? 來源:CSDN ? 2023-05-12 15:47 ? 次閱讀

據外媒報道,上周四,Google、微軟、OpenAI 幾家公司的 CEO 受邀去白宮,共論關于人工智能發展的一些重要問題。然而,讓人有些想不通的是,深耕 AI 多年的 Meta 公司(前身為 Facebook)卻沒有在受邀之列。

沒多久,更讓 Meta CEO 扎克伯格扎心的是,一位官員對此解釋稱,本次會議“側重的是目前在 AI 領域,尤其是面向消費者的產品方面,處于領先地位的公司。”

顯然對于這樣的解釋,并不能讓人信服,畢竟這一次受邀名單中還有一家由 OpenAI 的前成員創立的美國人工智能初創和公益公司 Anthropic。

似乎是為了出一口“氣”,也為證明自家的實力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA大模型之后,再次于5 月 9 日開源了一個新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時間,收獲了 1.6k 個 Star。

這個模型與眾不同之處便是可以將多個數據流連接在一起,包括文本、圖像/視頻音頻、視覺、IMU、熱數據和深度(Depth)數據。這也是業界第一個能夠整合六種類型數據的模型。

4e2e0200-ef4d-11ed-90ce-dac502259ad0.gif

4f842c2e-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 用圖像對齊六模態,旨在實現感官大一統

簡單來看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對的圖像生成器,ImageBind 更像是廣撒網,可以連接文本、圖像/視頻、音頻、3D 測量(深度)、溫度數據(熱)和運動數據(來自 IMU),而且它無需先針對每一種可能性進行訓練,直接預測數據之間的聯系,類似于人類感知或者想象環境的方式。

4f9daeb0-ef4d-11ed-90ce-dac502259ad0.png

對此,Meta 在其官方博客中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是,它能使機器更好地一起分析許多不同形式的信息,從而有助于推進人工智能。”

打個比喻,人類可以聽或者閱讀一些關于描述某個動物的文本,然后在現實生活中看到就能認識。

你站在繁忙的城市街道等有刺激性環境中,你的大腦會(很大程度上應該是無意識地)吸收景象、聲音和其他感官體驗,以此推斷有關來往的汽車、行人、高樓、天氣等信息。

在很多場景中,一個單一的聯合嵌入空間包含許多不同種類的數據,如聲音、圖像、視頻等等。

如今,基于 ImageBind 這樣的模型可以讓機器學習更接近人類學習。

在官方博客中,Meta 分享 ImageBind 是通過圖像的綁定屬性,只要將每個模態的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網絡數據將文本與圖像連接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數據將運動與視頻連接起來。

4fea7c68-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 整體概覽

從大規模網絡數據中學到的視覺表征可以作為目標來學習不同模態的特征。這使得 ImageBind 能夠對齊與圖像共同出現的任何模式,自然地將這些模式相互對齊。與圖像有強烈關聯的模態,如熱學和深度,更容易對齊。非視覺的模態,如音頻和 IMU,具有較弱的關聯性。

ImageBind 顯示,圖像配對數據足以將這六種模式綁定在一起。該模型可以更全面地解釋內容,使不同的模式可以相互 "對話",并在不觀察它們的情況下找到聯系。

例如,ImageBind 可以在沒有看到它們在一起的情況下將音頻和文本聯系起來。這使得其他模型能夠 "理解 "新的模式,而不需要任何資源密集型的訓練。

500ec8ac-ef4d-11ed-90ce-dac502259ad0.png

不過,該模型目前只是一個研究項目,沒有直接的消費者和實際應用,但是它展現了生成式 AI 在未來能夠生成沉浸式、多感官內容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競爭對手不同的方式,趟出一條屬于開源大模型的路。

50381c20-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 強大的背后

與此同時,作為一種多模態的模型,ImageBind 還加入了 Meta近期開源的一系列 AI 工具,包括DINOv2計算機視覺模型,這是一種不需要微調訓練高性能計算機視覺模型的新方法;以及 Segment Anything(SAM),這是一種通用分割模型,可以根據任何用戶的提示,對任何圖像中的任何物體進行分割。

ImageBind 是對這些模型的補充,因為它專注于多模態表示學習。它試圖為多種模式學習提供一個統一的特征空間,包括但不限于圖像和視頻。在未來, ImageBind 可以利用 DINOv2 的強大視覺特征來進一步提高其能力。

505233da-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 的性能

針對 ImageBind 性能,Meta 研究科學家還發布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)論文,分享了技術細則。

506a7652-ef4d-11ed-90ce-dac502259ad0.png

通過分析表明,ImageBind 模型的性能實際上可以通過使用很少的訓練實例來提高。這個模型有新的出現的能力,或者說是擴展行為--也就是說,在較小的模型中不存在的能力,但在較大的版本中出現。這可能包括識別哪種音頻適合某張圖片或從照片中預測場景的深度。

而 ImageBind 的縮放行為隨著圖像編碼器的強度而提高。

換句話說,ImageBind 對準各種模式的能力隨著視覺模型的強度和大小而增加。這表明,較大的視覺模型有利于非視覺任務,如音頻分類,而且訓練這種模型的好處超出了計算機視覺任務。

在實驗中,研究人員使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務中的工作進行了比較。

結果顯示,ImageBind 可以用于少量樣本的音頻和深度分類任務,并且優于之前定制的方法。

5074f2bc-ef4d-11ed-90ce-dac502259ad0.png

最終,Meta 認為ImageBind 這項技術最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。”

508760d2-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 可以用來干什么?

如果說 ChatGPT 可以充當搜索引擎、問答社區,Midjourney 可以被用來當畫畫工具,那么用 ImageBind 可以做什么?

根據官方發布的 Demo 顯示,它可以直接用圖片生成音頻:

509ba04c-ef4d-11ed-90ce-dac502259ad0.png

也可以音頻生成圖片:

51069f46-ef4d-11ed-90ce-dac502259ad0.png

亦或者直接給一個文本,就可以檢索相關的圖片或者音頻內容:

5112d252-ef4d-11ed-90ce-dac502259ad0.png

當然,基于 ImageBind 也可以給出一個音頻+一張圖,如“狗叫聲”+海景圖:

517f3b36-ef4d-11ed-90ce-dac502259ad0.png

可以直接得到一張“狗在看海”的圖:

51ac6ec6-ef4d-11ed-90ce-dac502259ad0.png

也可以給出音頻,生成相應的圖像:

51cfd636-ef4d-11ed-90ce-dac502259ad0.png

正如上文所述, ImageBind 給出了未來生成式 AI 系統可以以多模態呈現的方式,同時,結合 Meta 內部的虛擬現實、混合現實和元宇宙等技術和場景結合。

可以想象一下未來的頭顯設備,它不僅可以生成音頻和視頻輸入,也可以生成物理舞臺上的環境和運動,即可以動態構建 3D 場景(包括聲音、運動等)。

亦或者,虛擬游戲開發人員也許最終可以使用它來減少設計過程中的大量跑腿工作。

同樣,內容創作者可以僅基于文本、圖像或音頻輸入制作具有逼真的音頻和動作的沉浸式視頻。

也很容易想象,用 ImageBind 這樣的工具會在無障礙空間打開新的大門,譬如,生成實時多媒體描述來幫助有視力或聽力障礙的人更好地感知他們的直接環境。

“在典型的人工智能系統中,每個模態都有特定的嵌入(即可以表示數據及其在機器學習中的關系的數字向量),”Meta 說。“ImageBind 表明可以跨多種模態創建聯合嵌入空間,而無需使用每種不同模態組合對數據進行訓練。這很重要,因為研究人員無法創建包含例如來自繁忙城市街道的音頻數據和熱數據,或深度數據和海邊文本描述的樣本的數據集。”

當前,外界可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API:

51df03ea-ef4d-11ed-90ce-dac502259ad0.jpg

51fba202-ef4d-11ed-90ce-dac502259ad0.png

開源大模型是好事還是壞事?

ImageBind 一經官宣,也吸引了很多 AI 專家的關注。如卷積網絡之父 Yann LeCun 也在第一時間分享了關于 ImageBind 的資料

520d8fc6-ef4d-11ed-90ce-dac502259ad0.png

NVIDIA AI 科學家 Jim Fan 在 Twitter 上表示:

自從 LLaMA 以來,Meta 就在開源領域大放異彩。

ImageBind:Meta 最新的多模態嵌入,不僅涵蓋了常規數據類型(文本、圖像、音頻),還包括深度、熱量(紅外)和 IMU 信號!

OpenAI Embedding 是 AI 驅動搜索和長期記憶的基礎。ImageBind 是 Meta 的 Embedding API,用于豐富的多媒體搜索、虛擬現實甚至機器人技術。元宇宙將建立在向量的基礎上。

通過對齊 6 種模態,你可以實現一些僅靠文本的 GPT-4 無法實現的花式功能:

跨模態檢索:將其視為多媒體谷歌搜索

嵌入空間算術:無縫地組合不同的數據格式。

生成:通過擴散將任何模態映射到其他任何模態。

當然,這種通用的多模態嵌入在性能上優于領域特定的特征。

ImageBind:將它們全部綁定到一個嵌入空間。

5227cab2-ef4d-11ed-90ce-dac502259ad0.png

也有網友評價道,「這項創新為增強搜索、沉浸式 VR 體驗和高級機器人技術鋪平了道路。對于 AI 愛好者和專業人士來說,激動人心的時刻即將到來!」。

5237a108-ef4d-11ed-90ce-dac502259ad0.png

不過,對于 Meta 采取開源的做法,也有人提出了質疑。

據 The Verge 報道,那些反對開源的人,如 OpenAI,表示這種做法對創作者有害,因為競爭對手可以復制他們的作品,并且可能具有潛在的危險,允許惡意行為者利用最先進的人工智能模型。

與之形成對比的是,支持開源的人則認為,像 Meta 開源 ImageBind 的做法有利于生態的快速建立與發展,也能集結全球的力量,幫助 AI 模型快速迭代和捕捉 Bug。

早些時候,Meta開源的LLaMA 模型只能用于研究用途,但是期間LLaMA 模型在 4chan 上被泄露,有匿名用戶通過 BT 種子公開了 LLaMA-65B—— 有650 億個參數的 LLaMA,容量為 220GB。

隨著 LLaMA “被公開”,一大批基于這款大模型的衍生品,號稱是 ChatGPT 開源替代品的工具在短時間內快速涌現,如跟著LLaMA(美洲駝)名字走的“駝類”家族包含了:斯坦福大學發布的Alpaca(羊駝,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡內基梅隆大學等高校研究人員開源的Vicuna(駱馬),還有基于 LLaMA 7B 的多語言指令跟隨語言模型 Guanaco(原駝,https://guanaco-model.github.io/)等等。

面對這股新興的力量,近日,在一位谷歌內部的研究人員泄露的一份文件中顯示,在大模型時代,「Google 沒有護城河,OpenAI 也沒有」。其主要原因就是第三股——開源大模型的力量與生態正在崛起。

所以,OpenAI 和 Google 兩家在 AI 大模型上你追我趕的競爭中,誰能笑到最后,也未必就不會是 Meta,我們也將拭目以待。對此,你是否看好開源大模型的發展?

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3391

    瀏覽量

    42623
  • 模型
    +關注

    關注

    1

    文章

    3286

    瀏覽量

    49009
  • Meta
    +關注

    關注

    0

    文章

    277

    瀏覽量

    11414

原文標題:Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態!

文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Meta發布多模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息
    的頭像 發表于 09-27 11:44 ?425次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計,其獨特的作用在于,讓人們能夠用GPT-4來查找GP
    的頭像 發表于 06-29 09:55 ?571次閱讀

    國內直聯使用ChatGPT 4.0 API Key使用和多模態GPT4o API調用開發教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強大工具,可用于自然語言處理和多模態任務。在國內直聯使用這些服務需要一些配置和技巧。本文將詳細介紹GPT-4o模型以及
    的頭像 發表于 06-08 00:33 ?5414次閱讀
    國內直聯使用ChatGPT 4.0 API Key使用和多<b class='flag-5'>模態</b><b class='flag-5'>GPT4</b>o API調用開發教程!

    OpenAI全新GPT-4o能力炸場!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為
    的頭像 發表于 05-15 00:15 ?7877次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方
    的頭像 發表于 05-09 14:17 ?994次閱讀

    訊飛星火大模型V3.5春季升級,多領域知識問答超越GPT-4 Turbo?

    劉慶峰指出,現如今,星火大模型在通用長文本處理能力方面已相當成熟,覆蓋長文檔信息抽取、知識問答、歸納總結、文本生成諸多領域,整體表現已達GPT-4
    的頭像 發表于 04-26 14:26 ?1102次閱讀

    商湯科技發布5.0多模態模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0多模態模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大
    的頭像 發表于 04-24 16:49 ?1148次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出一系列具備多模態、多語言對話、更長上下文窗口
    的頭像 發表于 04-19 17:00 ?867次閱讀

    OpenAI設立日本辦事處,研發日文版GPT-4

    此外,OpenAI 還計劃推出適用于日語環境的 GPT-4 定制版模型。據悉,該模型在處理日文文本時表現更為出色,運行速度最高可提升至三倍;同時,其在翻譯和總結日語
    的頭像 發表于 04-15 16:04 ?511次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據悉,此模型沿用GPT-4 Turbo系列特有的12.8萬token窗口規模及截至2023年12月的知識庫架構,其創新亮點則是強大的視覺理解功能。
    的頭像 發表于 04-10 10:49 ?430次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發表于 03-13 13:42 ?764次閱讀

    OpenAI推出ChatGPT新功能:朗讀,支持37語言,兼容GPT-4GPT-3

    據悉,“朗讀”功能支持37語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多
    的頭像 發表于 03-05 15:48 ?987次閱讀

    全球最強大模型易主,GPT-4超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內的所
    的頭像 發表于 03-05 09:58 ?689次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業Anthropic震撼發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力關鍵領域展現出卓越性能,成功擊敗了此前被廣泛認為是全球最強AI
    的頭像 發表于 03-05 09:49 ?721次閱讀

    全球最強大模型易主:GPT-4超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了一場革命性的突破。Anthropic公司發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力關鍵指標上展現出卓越性能,成功
    的頭像 發表于 03-05 09:42 ?689次閱讀
    主站蜘蛛池模板: 果冻传媒9CM在线观看| 欧美日韩中文国产一区发布| 国产精品视频成人| 精品国产乱码久久久久久乱码| 男人插曲女人的视频| 小xav导航| V8成品人视频| 久久久精品日本一区二区三区| 人人碰在线视频| 在线亚洲97se| 国产午夜精品鲁丝片| 琪琪色原网20岁以下热热色原网站| 亚洲欧洲免费三级网站| 抽插的日日液液H| 蜜芽视频在线观看视频免费播放| 亚洲国产综合久久久无码色伦| 俄罗斯1819y0u| 欧美日韩亚洲一区视频二区| 99亚洲精品自拍AV成人软件| 精品国产在线手机在线| 亚洲欧美视频在线| 久久99精品视频| 亚洲国产成人久久精品影视| 成人综合在线观看| 美女露出乳胸扒开尿口| 99精品免费久久久久久久久蜜桃| 精品麻豆一卡2卡三卡4卡乱码| 亚洲精品免费在线视频| 国产MD视频一区二区三区| 男女牲交全过程免费播放| 一级毛片皇帝 宫女| 国产亚洲高清视频| 亚洲视频中文字幕在线观看| 国产欧美日韩中文视频在线| 视频一区视频二区ae86| 别停好爽好深好大好舒服视频| 嫩草影院久久精品| 赤兔CHINESE最新男18GUY | 高清国产在线播放成人| 香蕉人人超人人超碰超国产| 久久黄视频|