色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀

低成本擴大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導讀】11月,華中科技大學團隊發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質(zhì)量圖文數(shù)據(jù)進行訓練,幫助Monkey煉就洞察圖像細節(jié)的火眼金睛,取得了與Caption和QA任務相關(guān)的16個數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據(jù)問題的要求進行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力,自身擁有豐富的知識庫,可以根據(jù)問題進行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務上同樣取得了出色的結(jié)果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發(fā)散,分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個不同的數(shù)據(jù)集上進行測試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個圖片塊經(jīng)過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級特征融合的詳細描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對象的名稱和詳細描述,同時使用PPOCR提取區(qū)域的文本框坐標和文本內(nèi)容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結(jié)從而得到圖像的詳細描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節(jié),而不像是CC3M地原始標注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進行訓練,使得Monkey能夠更好地把握圖文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對比結(jié)果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結(jié)果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯(lián)系。通過這兩種設計的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    15398
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1091

    瀏覽量

    40686
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2793

    瀏覽量

    3437

原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    是否可以在16位或32位圖像上推斷單映像-超級分辨率1032的模型

    無法確定是 單圖像超級分辨率 - 1032 模型可以推斷為 16 位還是 32 位圖像
    發(fā)表于 03-06 07:16

    如何在輸入電壓范圍確定的情況下最大的使用AD的分辨率

    我看ADC手冊上一般要求的參考電壓都是固定的,就拿ADS1242來說,我的輸入電壓的范圍在0~50mV,我使用內(nèi)部的PGA=32,這樣我如果使用2.5V的參考電壓,所有分辨率不能得到有效的利用,我
    發(fā)表于 02-12 07:10

    請問SAR ADC有效分辨率與采樣有關(guān)嗎?

    是不是所有的ADC都是采樣越高、分辨率越差(跳動位數(shù)越多)? 我的實驗: ADS8556是16位SAR ADC,最高采樣500KhZ。使用20k采樣
    發(fā)表于 01-15 07:57

    TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

    TVP7002 VGA 輸入分辨率支持1280 x 1536嗎? TVP7002 VGA 輸入能自動偵察VGA信號所使用的分辨率嗎?如可以則讀哪些寄存器,有例子嗎?
    發(fā)表于 01-14 07:27

    如何提高透鏡成像的分辨率

    透鏡成像分辨率是指透鏡系統(tǒng)能夠分辨的最小細節(jié)的能力。提高透鏡成像分辨率對于許多應用領域,如顯微鏡、望遠鏡、相機等,都是至關(guān)重要的。以下是一些提高透鏡成像分辨率的方法: 1. 減少像差
    的頭像 發(fā)表于 12-25 16:54 ?584次閱讀

    如何選擇掃描電鏡的分辨率

    選擇掃描電鏡的分辨率需要綜合考慮多個因素。首先是研究目的。如果只是需要對樣品的大致形貌進行觀察,例如查看較大顆粒的分布或者材料表面的宏觀缺陷,較低分辨率(如3-10nm)可能就足夠了。但如果要觀察
    的頭像 發(fā)表于 12-25 14:29 ?361次閱讀
    如何選擇掃描電鏡的<b class='flag-5'>分辨率</b>?

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?485次閱讀

    請問ISO7720的時間分辨率有多少?

    ),HRPWM的時間分辨率是0.18ns,理論上HRPWM的精度為0.0095%。 2)HRPWM輸出通過RC濾波接到ISO7720的輸入,R=10Ω,C=22pF。 3)ISO7720輸出接功率芯片的驅(qū)動
    發(fā)表于 11-29 08:25

    HDMI接口支持哪些視頻分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述: HDMI 1.4
    的頭像 發(fā)表于 11-27 14:14 ?5851次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應用技術(shù)和消費市場的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴大。為了滿足這一趨勢下對超大輸分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?420次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    電子發(fā)燒友網(wǎng)站提供《提高SAR ADC的分辨率.pdf》資料免費下載
    發(fā)表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?722次閱讀

    什么是高分辨率示波器?它有哪些優(yōu)勢?

    分辨率示波器是一種在信息與系統(tǒng)科學相關(guān)工程與技術(shù)領域中廣泛應用的科學儀器,其設計旨在提供更高的信號分辨率和更精細的信號分析能力。以下是對高分辨率示波器的詳細解析,包括其定義、優(yōu)勢以及可能涉及的多個方面。
    的頭像 發(fā)表于 08-08 11:49 ?1345次閱讀

    VR顯示器分辨率的選擇

    一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗 分辨率是指顯示器上能夠顯示的像素點的數(shù)量,通常用水平像素數(shù)×垂直像素數(shù)來表示。在VR顯示器中,分辨率直接影響到用戶的視覺體驗。高
    的頭像 發(fā)表于 07-08 10:29 ?1538次閱讀

    伺服編碼器分辨率是什么意思

    伺服編碼器分辨率是指編碼器能夠檢測到的最小角度或位置變化。在伺服系統(tǒng)中,編碼器用于測量電機軸或負載的位置和速度,以實現(xiàn)精確控制。分辨率越高,編碼器能夠檢測到的最小變化越小,從而實現(xiàn)更精確的控制
    的頭像 發(fā)表于 06-17 11:16 ?1255次閱讀
    主站蜘蛛池模板: av视频在线免播放观看 | 视频区 国产 欧美 日韩 | 婷婷开心激情综合五月天 | 男神插曲女生软件完整版 | 三级全黄的视频在线观看 | 青苹果乐园在线观看电视剧 | 狼群资源网中文字幕 | 麻豆精品人妻一区二区三区蜜桃 | 入禽太深免费视频10 | 久99re视频9在线观看 | 成人天堂资源WWW在线 | 强奷乱码欧妇女中文字幕熟女 | 成人免费视频网站www | 香蕉59tv视频 | 成人影院久久久久久影院 | 午夜理论片YY4399影院 | 亚洲AV精品一区二区三区不卡 | 一日本道伊人久久综合影 | 青青草原国产 | 91日本在线观看亚洲精品 | 欧美精品成人久久网站 | 国语92电影网午夜福利 | 亚洲精品久久AV无码蜜桃 | 99精品久久精品一区二区 | 最新国自产拍天天更新 | 蜜芽最新域名解析网站 | 成年性生交大片免费看 | WWW夜片内射视频在观看视频 | 青春禁区动漫免费观看 | 加勒比一本之道高清视频在线观看 | 久久这里只精品热在线99 | 亚洲黄色高清视频 | 伊人22222| 国产AV午夜精品一区二区入口 | 茎身铃口调教 | 国产99视频精品免费播放 | 一本之道高清在线3线观看 一本之道高清视频在线观看 | 久久999视频 | 床伴在线观看免费高清完整泰剧第四集 | 美国特级成人毛片 | 在线观看亚洲 日韩 国产 |