色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多模態中NLP與CV融合的方式有哪些?

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:三和廠妹 ? 2020-12-31 10:12 ? 次閱讀

最早接觸多模態是一個抖音推薦項目,有一些視頻,標題,用戶點贊收藏等信息,給用戶推薦作品,我當時在這個項目里負責用NLP部分上分,雖然最后用wide and deep 整個團隊效果還可以,但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現在看來還是wide and deep這種方式太粗暴了(對于復雜信息的融合),本文寫寫多模態掃盲基礎和最近大家精巧的一些圖像文本融合的模型設計,主要是在VQA(視覺問答)領域,也有一個多模態QA,因為在推薦領域,你也看到了,即使NLP的貢獻為零,用戶特征足夠,效果也能做到很好了。

一. 概念掃盲

多模態(MultiModal)

多種不同的信息源(不同的信息形式)中獲取信息表達

五個挑戰

表示(Multimodal Representation)的意思,比如shift旋轉尺寸不變形,圖像中研究出的一種表示

表示的冗余問題

不同的信號,有的象征性信號,有波信號,什么樣的表示方式方便多模態模型提取信息

表示的方法

聯合表示將多個模態的信息一起映射到一個統一的多模態向量空間

協同表示負責將多模態中的每個模態分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束。

16adb97c-4a92-11eb-8b86-12bb97331649.jpg

2. 翻譯/轉化/映射

信號的映射,比如給一個圖像,將圖像翻譯成文字,文字翻譯成圖像,信息轉化成統一形式后來應用

方式,這里就跟專門研究翻譯的領域是重疊,基于實例的翻譯,涉及到檢索,字典(規則)等,基于生成方法如生成翻譯的內容

3. 對齊

多模態對齊定義為從兩個或多個模態中查找實例子組件之間的關系和對應,研究不同的信號如何對齊(比如給電影,找出劇本中哪一段)

對齊方式,有專門研究對齊的領域,主要兩種,顯示對齊(比如時間維度上就是顯示對齊的),隱式對齊(比如語言的翻譯就不是位置對位置)

4. 融合

比如情感分析中語氣和語句的融合等

這個最難也是被研究最多的領域,比如音節和唇語頭像怎么融合,本筆記主要寫融合方式

二. 應用

試聽語音識別,多媒體內容檢索,視頻理解,視頻總結,事件監測,情感分析,視頻會議情感分析,媒體描述,視覺問答等,應用其實很廣,只不過被現在的智能程度大大限制了,whatever, 我覺得視覺也語言的結合比純NLP,是離智能更近的一步。

三.VQA掃盲 and 常用方式

VQA(Visual Question Answering)

給定一張圖片(視頻)和一個與該圖片相關的自然語言問題,計算機能產生一個正確的回答。這是文本QA和Image Captioning的結合,一般會涉及到圖像內容上的推理,看起來更炫酷(不是指邏輯,就就指直觀感受)。

目前VQA的四大方式

Joint embedding approaches,只是直接從源頭編碼的角度開始融合信息,這也很自然的聯想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,Fusion屆的LR

Attention mechanisms,很多VQA的問題都在attention上做文章,attention本身也是一個提取信息的動作,自從attention is all you need后,大家對attention的應用可以說是花式了,本文后面專門介紹CVPR2019的幾篇

Compositional Models,這種方式解決問題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過模塊的組裝推理得出結果

比如在[1]中,上圖,問題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據推理方式組裝模塊,最后得出結論 4.Models using external knowledge base利用外部知識庫來做VQA和很好理解,QA都喜歡用知識庫,這種知識儲備一勞永逸,例如,為了回答“圖上有多少只哺乳動物”這樣的問題,模型必須得知道“哺乳動物”的定義,而你想從圖像上去學習到哺乳動物是有難度的,因此把知識庫接進來檢索是種解決方式,例如在[2]

四. 多模態中CV和NLP融合的幾種方式

1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見的一種融合方式了,很多論文用這種方式做基礎結構,在CVPR2019一遍VQA多模態推理[3]中,提出的CELL就是基于這個,作者做關系推理,不僅對問題與圖片區域的交互關系建模,也對圖片區域間的聯系建模。并且推導過程是逐步逼近的過程。

作者提出的MuRel,Bilinear Fusion 將每個圖像區域特征都分別與問題文本特征融合得到多模態embedding(Joint embedding ),后者對這些embedding進行成對的關系建模。

第一部分雙線性融合,所謂雙線性簡單來講就是函數對于兩個變量都是線性的,參數(表達兩種信息關聯)是個多為矩陣,作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關系的參數分解大大減小參數量 第二部分Pairwise relation學習的是經過融合后節點之間的兩兩關系(主要是圖像的關系),然后和原始text 信息有效(粗暴)拼接 最后如下圖放在網絡,進行迭代推理。實驗結果顯示在跟位置推斷類的問題中,這種結構表現比較好。

2. 花式動態attention融合 這篇[4]作者更上篇一樣同時注意到了模態內和模態間的關系,即作者說的intra-modality relation(模態內部關系)和inter-modality relation(跨模態關系),但是作者更機智(個人觀點)的用了attention來做各種fusion。 作者認為intra-modality relation是對inter-modality relation的補充:圖像區域不應該僅獲得來自問題文本的信息,而且需要與其他圖像區域產生關聯。 模型結構是首先各自分別對圖像和文本提取特征,然后通過通過模態內部的attention建模和模態間的attention建模,這個模塊堆疊多次,最后拼接后進行分類。模態間的attention是相互的(文本對圖像,圖像對文本),attention就是采用transform中的attention.

進行模態內關系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點是進行了 條件attention,即圖像之間的attention信心建立不應該只根據圖像,也要根據不同的具體問題而產生不同的關聯。

這種條件attention的condition設計有點類似lstm的門機制,通過加入gating機制來控制信息,下圖中圖像的self attention 就是經過了text的門機制來過濾信息。最后作者做了很多ablation studies,達到了SOTA效果。

1e08147e-4a92-11eb-8b86-12bb97331649.png

3. VQA對話系統 另外有一篇[5]個多模態的QA,這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個應用場景非常非常實用,我們通常用語言描述的說不清楚的時候,會有一圖勝千言語感覺,而多模態就是從這個點出發,發一張圖,like this, like that... 文中就是用這個做商業客服的QA

1f0968be-4a92-11eb-8b86-12bb97331649.jpg

模型比較常規,encoder端,先CNN提取了圖片特征,然后根據商品屬性建一個屬性分類樹,文本常規處理,最后通過MFB融合

Decoder 時,文本RNNdecode, 但是圖像居然是用求cos相似,就電商那種產品數據的量級,除非在業務上做很多前置工作,這種計算量就不現實

1f980132-4a92-11eb-8b86-12bb97331649.jpg

In all

這篇屬于擴展NLP的廣度,寫的不深,選的論文和很隨便(因為我不很了解),作為一個NLPer, 寬度上來說我覺得這也是一個方向.

原文標題:多模態中NLP與CV融合的一些方式

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5500

    瀏覽量

    121111
  • MLP
    MLP
    +關注

    關注

    0

    文章

    57

    瀏覽量

    4241

原文標題:多模態中NLP與CV融合的一些方式

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測取得榜單第一。
    的頭像 發表于 12-20 10:39 ?135次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?113次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造模態影像融合系統

    模態影像融合超聲系統的市場規模也在不斷擴大,國內眾多超聲系統廠家也在不斷尋找合適的硬件平臺,用以承載旗下的模態影像
    的頭像 發表于 11-11 10:52 ?618次閱讀
    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態</b>影像<b class='flag-5'>融合</b>系統

    高通與智譜推動模態生成式AI體驗的終端側部署

    此前,驍龍峰會首日,智譜與高通技術公司宣布合作將GLM-4V端側視覺大模型,面向驍龍8至尊版進行深度適配和推理優化,支持豐富的模態交互方式,進一步推動
    的頭像 發表于 11-08 09:55 ?172次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?412次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?386次閱讀

    計算機視覺的圖像融合

    在許多計算機視覺應用(例如機器人運動和醫學成像),需要將多個圖像的相關信息整合到單一圖像。這種圖像融合可以提供更高的可靠性、準確性和數據質量。視圖
    的頭像 發表于 08-01 08:28 ?629次閱讀
    計算機視覺<b class='flag-5'>中</b>的圖像<b class='flag-5'>融合</b>

    慕尼黑電子展回顧:啟明智顯模態硬件智能體引領科技潮流

    人流如織,熱鬧非凡。模態硬件智能體:未來科技的集大成者展會現場,啟明智顯隆重推出了其自主研發的模態硬件智能體。這一創新產品融合了HMI(
    的頭像 發表于 07-10 16:17 ?364次閱讀
    慕尼黑電子展回顧:啟明智顯<b class='flag-5'>多</b><b class='flag-5'>模態</b>硬件智能體引領科技潮流

    nlp自然語言處理模型哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹
    的頭像 發表于 07-05 09:57 ?710次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI
    發表于 04-18 17:01 ?592次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    未來已來,傳感器融合感知是自動駕駛破局的關鍵

    技術 ,攝像頭和雷達等傳感器的探測數據 在前端(數據獲取時)交互驗證,讓自動駕駛系統能感知到“看不見”的危險。 例如,在反向車道強遠光燈干擾的情況下,當雷達子系統探測到潛在運動目標時,融合感知系統
    發表于 04-11 10:26

    MWC2024:高通推出全新AI Hub及前沿模態大模型

    2024年世界移動通信大會(MWC)上,高通再次展現其技術領導力,通過發布全新的高通AI Hub和展示前沿的模態大模型技術,推動了5G和AI技術的融合創新。
    的頭像 發表于 02-26 16:59 ?1256次閱讀

    什么是模態?模態的難題是什么?

    模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發表于 01-17 10:03 ?4588次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態</b>?<b class='flag-5'>多</b><b class='flag-5'>模態</b>的難題是什么?

    從Google模態大模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini模態大模型,展示了不凡的對話能力和模態能力,其表現究竟如何呢?
    的頭像 發表于 12-28 11:19 ?1258次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型看后續大模型應該具備哪些能力

    語音識別技術最新進展:視聽融合模態交互成為主要演進方向

    多種模態(聲學、語言模型、視覺特征等)進行聯合建模,基于深度學習的模態語音識別取得了新進展。 ? 模態交互的原理及優勢 ?
    的頭像 發表于 12-28 09:06 ?3841次閱讀
    語音識別技術最新進展:視聽<b class='flag-5'>融合</b>的<b class='flag-5'>多</b><b class='flag-5'>模態</b>交互成為主要演進方向
    主站蜘蛛池模板: 亲胸摸下面激烈免费网站| 亚洲一区免费观看| 69亞洲亂人倫AV精品發布| 国产精品一久久香蕉国产线看| 麻豆国产人妻精品无码AV| 亚洲 欧美 日本 国产 高清| asian4you裸模| 久久精品视频在线看99| 熟女少妇内射日韩亚洲| gv手机在线观看| 久久视频精品3线视频在线观看| 午夜AV亚洲一码二中文字幕青青| a在线观看免费视频| 久久影院毛片一区二区| 亚洲a免费| 福利啪啪吧| 青青青青草| 97视频免费在线| 久久涩视频| 一起碰一起噜一起草视频| 国产小视频免费在线观看| 少妇系列之白嫩人妻| yellow2019在线观看视频| 免费麻豆国产黄网站在线观看| 亚洲综合中文| 狠狠色狠色综合曰曰| 性肥胖BWBWBW| 国产精品一区二区在线观看| 色婷婷国产麻豆AV| 大学生高潮无套内谢视频| 欧美丝袜女同| 99热久久久无码国产精品性麻豆| 毛茸茸womansex| 在线 亚洲 日韩 欧洲视频| 久久国产36精品色熟妇| 亚洲人成色777777老人头| 国产主播福利一区二区| 亚洲地址一地址二地址三| 国产免费久久精品国产传媒| 午夜伦yy44880影院| 国产精品一久久香蕉国产线看|