低成本擴大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界
【導讀】11月,華中科技大學團隊發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質(zhì)量圖文數(shù)據(jù)進行訓練,幫助Monkey煉就洞察圖像細節(jié)的火眼金睛,取得了與Caption和QA任務相關(guān)的16個數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現(xiàn)。
論文鏈接:https://arxiv.org/abs/2311.06607
代碼地址:https://github.com/Yuliang-Liu/Monkey
官方demo效果展示:
Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據(jù)問題的要求進行推理,能夠適配中文問答
在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力,自身擁有豐富的知識庫,可以根據(jù)問題進行外推,從而回答出正確的答案
Monkey在Caption任務上同樣取得了出色的結(jié)果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發(fā)散,分析出圖片所傳達的一些抽象含義
以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結(jié)果展示。
下圖展示了Monkey的卓越性能,在 18 個不同的數(shù)據(jù)集上進行測試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數(shù)據(jù)集上取得SOTA。
方法介紹:
1. 增大輸入分辨率
將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個圖片塊經(jīng)過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。
2. 多級特征融合的詳細描述生成方法生成高質(zhì)量圖文數(shù)據(jù)
主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對象的名稱和詳細描述,同時使用PPOCR提取區(qū)域的文本框坐標和文本內(nèi)容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結(jié)從而得到圖像的詳細描述。
下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節(jié),而不像是CC3M地原始標注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進行訓練,使得Monkey能夠更好地把握圖文之間的關(guān)系。
更多的可視化對比結(jié)果與展示:
通過下圖展示的Monkey在QA任務上與多種大模型的對比結(jié)果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。
總結(jié)
Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯(lián)系。通過這兩種設計的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結(jié)果。
-
高分辨率
+關(guān)注
關(guān)注
0文章
47瀏覽量
15398 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40686 -
大模型
+關(guān)注
關(guān)注
2文章
2793瀏覽量
3437
原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
如何在輸入電壓范圍確定的情況下最大的使用AD的分辨率?
請問SAR ADC有效分辨率與采樣率有關(guān)嗎?
TVP7002 VGA輸入分辨率支持1280 x 1536嗎?
如何提高透鏡成像的分辨率
如何選擇掃描電鏡的分辨率?

商湯日日新多模態(tài)大模型權(quán)威評測第一
請問ISO7720的時間分辨率有多少?
HDMI接口支持哪些視頻分辨率
視頻處理器的分辨率是如何管理的

評論