色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

UniVL-DR: 多模態(tài)稠密向量檢索模型

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-08-06 22:00 ? 次閱讀
4838dfba-3461-11ee-9e74-dac502259ad0.png

論文標(biāo)題:

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù),然而多媒體內(nèi)容的增長一直是互聯(lián)網(wǎng)上最顯著趨勢之一,各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動的多模態(tài)內(nèi)容。因而,針對于多模態(tài)數(shù)據(jù)的信息獲取需求在用戶搜索過程中尤為重要。 48648c3c-3461-11ee-9e74-dac502259ad0.png▲圖1. 不同多模態(tài)檢索框架示意圖

為了實現(xiàn)多模態(tài)檢索過程,當(dāng)前的多媒體搜索系統(tǒng)通常采用“分而治之”的方法。如圖 1(a) 所示,這些方法首先在單個模態(tài)中進(jìn)行搜索,包括文本、圖像、視頻等 ,然后將各個模態(tài)的檢索結(jié)果融合在一起,例如,在這些單/交叉模態(tài)檢索器之上構(gòu)建另一個排序模塊來進(jìn)行模態(tài)融合。

顯而易見,相關(guān)性建模(Relevance Modeling)和檢索結(jié)果融合(Retrieval Result Fusion)二者的建模過程通常交織在一起,以實現(xiàn)更準(zhǔn)確的多模態(tài)檢索結(jié)果。然而,由于模態(tài)差距,這類模型只能以分而治之的方式進(jìn)行流水線建模,這使得融合來自不同模態(tài)的檢索結(jié)果具有挑戰(zhàn)性。

在本文中,我們提出端到端多模態(tài)檢索模型,通過用戶查詢對多模態(tài)文檔進(jìn)行統(tǒng)一的檢索。如圖 1(b) 所示,通用多模態(tài)檢索將查詢和多模態(tài)文檔映射到一個統(tǒng)一的嵌入空間,并通過最近鄰搜索檢索多模態(tài)候選結(jié)果。最終,本文將相關(guān)性建模(Relevance Modeling)、跨模態(tài)匹配(Cross-Modality Matching)和檢索結(jié)果融合(Retrieval Result Fusion)進(jìn)行統(tǒng)一的建模。

多模態(tài)檢索任務(wù)介紹

489b4ea2-3461-11ee-9e74-dac502259ad0.png

▲圖2. 不同檢索任務(wù)示意圖

單模態(tài)檢索(Single Modality Retrieval)。如圖 2(a)所示,單模態(tài)檢索側(cè)重于在一個模態(tài)空間內(nèi)進(jìn)行相關(guān)性檢索,包括文本-文本檢索和圖像-圖像檢索。文本-文本檢索旨在從文本集合中檢索出與查詢相關(guān)的文本文檔;而圖像-圖像檢索期望于從圖像集合中檢索出與給定查詢圖像匹配度較高的圖像。

跨模態(tài)檢索(Cross Modality Retrieval)。如圖 2(b)所示,該檢索場景包含兩個子任務(wù):文本-圖像檢索,圖像-文本檢索。這兩種任務(wù)要求檢索模型在圖像與圖像對應(yīng)的描述文字之間進(jìn)行跨模態(tài)匹配,

例如,在圖像-文本檢索任務(wù)中,對于給定的圖像,檢索模型需要在給定的圖像描述文本集合中檢索出與之匹配的描述文本。這種跨模態(tài)檢索場景中的任務(wù)更加側(cè)重于文本與圖像之間的跨模態(tài)語義信息匹配,不同于信息檢索中的相似度搜索,這種跨模態(tài)匹配更加注重“淺層”的語義匹配,對于深層的文檔理解能力要求不高。

多模態(tài)檢索(Multi-Modal Retrieval)。如圖 2(c)所示,該檢索場景旨在包含多模態(tài)文檔的數(shù)據(jù)集合中檢索相關(guān)文檔。在多模態(tài)檢索場景下,檢索模型需要同時處理查詢與不同模態(tài)文檔之間的相似度計算,例如,對于給定的查詢,檢索模型需要在給定的文檔集合中檢索出相似文檔。

不同于單模態(tài)檢索和跨模態(tài)檢索,多模態(tài)檢索的目的是從多模態(tài)文檔集合中檢索、返回相關(guān)文檔。根據(jù)用戶的查詢,檢索結(jié)果可能由文本文檔、圖像文檔或文本文檔與圖像文檔的混合序列組成。多模態(tài)檢索更加關(guān)注查詢和文檔之間的關(guān)聯(lián)建模,且檢索過程中涉及查詢與文本文檔的單模態(tài)匹配、查詢與圖像文檔的跨模態(tài)匹配以及不同模態(tài)文檔與查詢的相似度之間的比較,這使得這項任務(wù)具有更大的挑戰(zhàn)性。

UniVL-DR:基于統(tǒng)一表征空間的多模態(tài)稠密向量檢索框架

48e5520e-3461-11ee-9e74-dac502259ad0.png

▲圖3. UniVL-DR模型結(jié)構(gòu)圖

在多模態(tài)信息檢索場景下,本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型來建模多模態(tài)檢索過程。如圖 3 所示,對于給定用戶查詢和多模態(tài)文檔,UniVL-DR 將用戶查詢、文本文檔和圖像文檔編碼在一個統(tǒng)一的向量表征空間中,并在該表征空間中進(jìn)行用戶查詢與相關(guān)文檔的相關(guān)性建模以及多模態(tài)文檔向量表征建模。

UniVL-DR 由兩個編碼器構(gòu)成:文本編碼器和圖像編碼器。查詢、圖像文檔和文本文檔均通過這兩個編碼器編碼得到稠密向量表示。

查詢編碼:如公式(1)所示,本文算法直接通過文本編碼器對查詢進(jìn)行編碼,得到查詢的表征向量:

48f8c276-3461-11ee-9e74-dac502259ad0.png

文本文檔編碼:如公式(2)所示,對于文本文檔,本文算法將其經(jīng)過文本編碼器得到文本文檔的稠密表征向量:

4913634c-3461-11ee-9e74-dac502259ad0.png

圖像文檔編碼:與文本文檔不同,圖像文檔可以通過圖像特征和圖像描述表示,并且圖像的文本描述可以幫助模型更好地理解圖像文檔的語義。因此,如公式(3)所示,本文對圖像和圖像的文本描述進(jìn)行編碼,得到編碼后的向量,再對這些向量進(jìn)行求和得到第 i 個圖像文檔的稠密表征向量:

491f0670-3461-11ee-9e74-dac502259ad0.png

圖像文檔的稠密表征向量和文本文檔的稠密表征向量使用相同的文本編碼器進(jìn)行編碼,這種處理方式在文本空間中架起了兩種模態(tài)文檔間的橋梁,為多模態(tài)檢索建立了一個統(tǒng)一的以語言為中心的稠密向量表征空間。在檢索時,由公式(4)所示,本算法通過計算查詢與候選文檔的余弦相似度得分來評估查詢與該文檔之間的相似度:

492baec0-3461-11ee-9e74-dac502259ad0.png

在訓(xùn)練過程中,本文采用模態(tài)均衡化的難負(fù)例選取策略,有效地構(gòu)建多模態(tài)文檔表征空間并進(jìn)行優(yōu)化,避免了在多模態(tài)數(shù)據(jù)共同訓(xùn)練過程中對某一模態(tài)信息的過擬合。具體來說,由公式(5)所示,對于給定查詢及候選文檔,本文通過對不同模態(tài)的難負(fù)例進(jìn)行采樣并最小化對比學(xué)習(xí)損失來優(yōu)化表征向量空間。這使得查詢表征向量的空間分布更接近相關(guān)文檔而遠(yuǎn)離不相關(guān)文檔。K1 和 K2 分別代表圖像文檔負(fù)例的數(shù)量和文本文檔負(fù)例的數(shù)量,如果訓(xùn)練過程中,K1 與 K2 不相等,那么模型很可能學(xué)習(xí)到偏差較大的分布空間,例如,若 K1偏差的問題。,訓(xùn)練時,查詢的表征分布將偏向于文本文檔的表征域,以此來獲得較低的損失值。這種情況會造成模型訓(xùn)練時對某個模態(tài)過擬合,從而導(dǎo)致檢索中僅關(guān)注某一模態(tài)的文檔,造成模態(tài)<>為了避免這種模態(tài)過擬合的問題,本文使用模態(tài)均衡化的難負(fù)例選擇策略,即訓(xùn)練過程中始終保持 K1=K2=K,從而構(gòu)建更加均衡、穩(wěn)定的多模態(tài)表征空間。

493b918c-3461-11ee-9e74-dac502259ad0.png

為解決圖像文檔與文本文檔在表征上的模態(tài)屏障,本文提出通過圖像的語言化拓展來彌合不同模態(tài)文檔間表征鴻溝的方法。

wKgZomTYhpOARa2uAAHuWucmbBw884.png

▲圖4. 圖像的語言拓展算法示意圖

本文借鑒信息檢索領(lǐng)域中的文檔拓展技術(shù)對圖像進(jìn)行語言化拓展,增強(qiáng)圖像的語義表示。如圖(4)所示,首先對圖像進(jìn)行目標(biāo)檢測,得到圖像的區(qū)域特征和檢測出的區(qū)域文本標(biāo)簽集合。本文首先將由圖像和目標(biāo)檢測得到的區(qū)域標(biāo)簽生成圖像描述形式的語言化拓展,輸入結(jié)構(gòu)如公式(6)所示:

498f5df8-3461-11ee-9e74-dac502259ad0.png

其次將由圖像文檔生成與圖像對應(yīng)的查詢形式的語言化拓展,輸入結(jié)構(gòu)如公式(7)所示:

499a208a-3461-11ee-9e74-dac502259ad0.png

最后,如公式(8)所示本文將生成的圖像語言化拓展與圖像原始的文本描述拼接作為圖像文檔中文本部分的新表示。新的文本表示具有更強(qiáng)的語義信息,可以幫助圖像文檔更好地適配語言信息的表征空間。49a66994-3461-11ee-9e74-dac502259ad0.png

實驗結(jié)果

實驗結(jié)果如表 2 所示。UniVL-DR 在性能評估上比所有基線模型提高了 7% 以上,顯著的檢索性能提升說明了本文算法在構(gòu)建面向多模態(tài)文檔的信息檢索系統(tǒng)方面的有效性。相比較分而治之的策略,UniVL-DR 甚至超過了 BM25&CLIP-DPR(Oracle Modality)模型,該模型利用了數(shù)據(jù)集中標(biāo)注的與用戶問題相關(guān)的文檔模態(tài)信息進(jìn)行模態(tài)路由。證明統(tǒng)一化的多模態(tài)文檔向量建模能夠很好地建模多模態(tài)檢索任務(wù)。

49bd468c-3461-11ee-9e74-dac502259ad0.png

▲表2. 主實驗結(jié)果

如表 3 所示,本文展示了模型的消融試驗結(jié)果。在實驗中我們發(fā)現(xiàn)針對于多模態(tài)檢索任務(wù),圖像文檔的標(biāo)題信息相比較像素信息更加重要。同時,在圖像文檔標(biāo)題信息的基礎(chǔ)上加入圖像像素信息能夠進(jìn)一步提升檢索的效果。

49d5e822-3461-11ee-9e74-dac502259ad0.png

▲表3. 消融實驗結(jié)果

如圖 5 所示,在用戶問題中,往往會出現(xiàn)與圖片所描述內(nèi)容相關(guān)的實體,例如:明尼通卡杜鵑花(Minnetonka Rhododendron flower),然而,現(xiàn)有的圖片編碼器(例如:CLIP)往往缺少此類的背景知識,因而導(dǎo)致在多模態(tài)檢索過程中圖像文本的像素編碼向量的作用不大。此原因?qū)е铝嗽诙嗄B(tài)檢索過程中圖片像素的語義信息對檢索精度的提升貢獻(xiàn)不大的現(xiàn)象。

▲圖5. 圖片檢索樣例

進(jìn)一步我們通過不同負(fù)例選取方式訓(xùn)練得到的多模態(tài)檢索模型的向量空間可視化,如圖 6 所示。我們的實驗結(jié)果發(fā)現(xiàn),通過模態(tài)平衡難負(fù)例訓(xùn)練的檢索模型學(xué)習(xí)的向量空間更加的均勻。同時,通過對難負(fù)例的模態(tài)進(jìn)行平衡可以很好地緩解檢索模型對于模態(tài)的偏見問題。

4a1ef38c-3461-11ee-9e74-dac502259ad0.png

圖6. 稠密向量可視化

總結(jié)本文提出了 UniVL-DR,UniVL-DR 構(gòu)建了統(tǒng)一的多模態(tài)向量表征空間,將單模態(tài)、跨模態(tài)匹配和檢索結(jié)果融合建模在一起,實現(xiàn)端到端的多模態(tài)信息檢索。具體來講,本文的主要貢獻(xiàn)有以下兩點:1)通過模態(tài)均衡的難負(fù)例選取策略進(jìn)行統(tǒng)一多模態(tài)表征空間的對比優(yōu)化。2)利用圖像語言化方法彌合了原始數(shù)據(jù)空間中圖像和文本之間的模態(tài)差距。實驗表明,UniVL-DR 可以通過圖像語言化技術(shù)彌合模態(tài)差距,并通過模態(tài)均衡的難負(fù)例選取策略避免過度擬合某一種模態(tài)的訓(xùn)練監(jiān)督信號 ·


原文標(biāo)題:UniVL-DR: 多模態(tài)稠密向量檢索模型

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:UniVL-DR: 多模態(tài)稠密向量檢索模型

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?145次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言
    的頭像 發(fā)表于 12-03 15:18 ?114次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

    一文理解模態(tài)大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)模態(tài)大語言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀
    的頭像 發(fā)表于 12-02 18:29 ?306次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——上

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?413次閱讀

    云知聲山海模態(tài)模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態(tài)人工智能模型基準(zhǔn)評測集MMMU更新榜單,云知聲山海模態(tài)模型UniGPT-mMed
    的頭像 發(fā)表于 10-12 14:09 ?286次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>UniGPT-mMed登頂MMMU測評榜首

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實現(xiàn)了對圖像內(nèi)容的精準(zhǔn)理解,標(biāo)志著Met
    的頭像 發(fā)表于 09-27 11:44 ?398次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)
    的頭像 發(fā)表于 08-27 15:20 ?387次閱讀

    依圖模態(tài)模型伙伴CTO精研班圓滿舉辦

    模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日, “依圖科技模態(tài)模型伙伴CTO精研班”在杭州圓滿舉辦,讓更多的伙伴們深度體驗了依圖
    的頭像 發(fā)表于 07-23 15:16 ?417次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI
    發(fā)表于 04-18 17:01 ?592次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>

    AI機(jī)器人迎來模態(tài)模型

    配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的模態(tài)信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發(fā)表于 04-12 10:39 ?277次閱讀

    蘋果發(fā)布300億參數(shù)MM1模態(tài)模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態(tài)模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的模態(tài)
    的頭像 發(fā)表于 03-19 11:19 ?891次閱讀

    螞蟻集團(tuán)推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成,是迄今為止國際上參數(shù)規(guī)模
    的頭像 發(fā)表于 03-04 11:22 ?813次閱讀

    機(jī)器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?408次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大<b class='flag-5'>模型</b>

    自動駕駛和模態(tài)大語言模型的發(fā)展歷程

    模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務(wù),包括圖像分類、將文本與相應(yīng)的視頻
    發(fā)表于 12-28 11:45 ?520次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的發(fā)展歷程

    從Google模態(tài)模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時間Google推出Gemini模態(tài)模型,展示了不凡的對話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1260次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>看后續(xù)大<b class='flag-5'>模型</b>應(yīng)該具備哪些能力
    主站蜘蛛池模板: 肉动漫无修在线播放| 4hu四虎免费影院www| 国产GV无码A片在线观看 | 麻豆精品无码久久久久久久久| 亚洲 自拍 清纯 综合图区| seyeye在清在线| 蜜臀AV色欲A片无码一区| 伊人色啪啪天天综合婷婷| 国产亚洲精品久久久久| 无限资源在线观看完整版免费下载| 超碰在线公开视频| 欧美伊人久久大香线蕉综合69| 8x华人免费视频| 快播免费电影| 又长又大又粗又硬3p免费视频| 精品国产90后在线观看| 亚洲国产精品一区二区三区在线观看| 国产成年网站v片在线观看| 日韩精品一区二区亚洲AV观看| 把手戳进美女尿口里动态图| 琪琪热热色原日韩在线| ewp绞死vk失禁编| 欧美特级特黄a大片免费| 99久久伊人一区二区yy5099| 嫩草影院未满十八岁禁止入内| 90后性爱视频| 欧美大片免费观看| wankz tv videos国产| YELLOW视频直播在线观看高清| 欧美午夜理伦三级在线观看| 国产色婷婷亚洲99麻豆| 同时和两老师双飞| 国产精品久久久精品日日| 哇嘎在线精品视频在线观看| 国产精品成人影院| 亚洲成人mv| 黄色三级在线| 在线亚洲97se| 奶头被客人吸得又红又肿| qovd电影| 神马电影院午 夜理论|