精準(zhǔn)的圖像描述不僅可以讓人們更容易理解圖像背后的故事和信息,還可以讓圖像更易于被檢索和識(shí)別。然而,對(duì)于那些復(fù)雜的圖像來(lái)說(shuō),寫(xiě)出既準(zhǔn)確又詳細(xì)的描述實(shí)在是件非常困難的事情。
圖像描述算法的演變
所謂 Image Caption(圖像描述)任務(wù),就是讓計(jì)算機(jī)能夠根據(jù)一張圖片自動(dòng)生成相應(yīng)的文字描述。在早期的模型,比如OpenAI 的 CLIP,利用了無(wú)監(jiān)督學(xué)習(xí)和微調(diào)技術(shù),通過(guò)海量的圖片和文本數(shù)據(jù)集進(jìn)行了訓(xùn)練,理解了圖片和文本間的聯(lián)系,從而能夠生成有意義的圖像描述。
后來(lái),一種名為BLIP-2的算法應(yīng)運(yùn)而生,它采用了更高效的預(yù)訓(xùn)練策略。BLIP-2 利用現(xiàn)成的凍結(jié)預(yù)訓(xùn)練圖像編碼器和大型語(yǔ)言模型,通過(guò)一個(gè)輕量級(jí)的查詢式 Transformer 來(lái)連接不同的模態(tài)。不僅減少了訓(xùn)練參數(shù),還保證了各種視覺(jué)-語(yǔ)言任務(wù)上取得 SOTA 表現(xiàn)。
得益于多模態(tài)技術(shù)的不斷發(fā)展,圖像描述這個(gè)需要結(jié)合 CV 和 NLP 的老大難問(wèn)題在近些年里邁出了一大步。但直到現(xiàn)在,大部分 AI 生成的圖像描述都比較籠統(tǒng)簡(jiǎn)短,難以充分展示圖像的豐富內(nèi)涵。尤其為復(fù)雜圖像所生成的文本描述在準(zhǔn)確性方面仍存在明顯不足,更別提那些涉及多個(gè)物體、互動(dòng)和復(fù)雜細(xì)節(jié)的圖像了。
現(xiàn)有圖像描述解決方案面臨的挑戰(zhàn)
1. 過(guò)于簡(jiǎn)化或空泛的論述
如圖,大多數(shù)圖像字幕算法給出的是“一個(gè)人和一條狗”,看似準(zhǔn)確,但其這張圖里有非常豐富的物體和故事。他們?cè)谕饷孀鍪裁矗麄優(yōu)槭裁磿?huì)露營(yíng),右邊的背包有什么暗示嗎?
圖源《First Dog, 10th Man to Walk Around the World》
2. 缺少細(xì)微差別和關(guān)系
如圖,簡(jiǎn)單地給出“對(duì)象 A 和對(duì)象 B”的描述是遠(yuǎn)遠(yuǎn)不夠的,兩者間的空間關(guān)系傳達(dá)了截然不同的內(nèi)涵。
圖源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》
3. 處理噪音和糟糕的圖像質(zhì)量
如圖,中間顯示的“攻擊”對(duì)比擾動(dòng)原來(lái)照片,盡管人類眼睛瞟一眼就知道和原始圖片沒(méi)變化,但圖像描述算法依然標(biāo)錯(cuò)了分類。
圖源:Daniel Jakubovitz 和 Raja Giryes,Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.
4. 難以處理復(fù)雜圖像
對(duì)于經(jīng)典畫(huà)作,如下圖,很多圖像描述算法只能給出簡(jiǎn)單的“波提切利的維納斯的誕生”的說(shuō)明,單單一個(gè)名字實(shí)在讓人一知半解,讓觀眾無(wú)法理解圖像所展現(xiàn)的品味。
SceneXplain 生成的描述
一幅標(biāo)志性的畫(huà)作「維納斯的誕生」展開(kāi)在眼前,女神維納斯從貝殼中誕生,周身環(huán)繞著神話人物和天界人物,包括美人魚(yú)、天使和手持花束的女人。這些人物之間微妙的交互營(yíng)造出一種迷人和驚奇的感覺(jué),宛如在慶祝維納斯降臨于人世。這優(yōu)雅的構(gòu)圖引領(lǐng)觀眾進(jìn)入神話領(lǐng)域,驚嘆于這個(gè)永恒場(chǎng)景所展現(xiàn)的壯麗和優(yōu)雅。
相比起上面生成的枯燥無(wú)味的標(biāo)題,由 SceneXplain 生成的這樣一段豐富生動(dòng)的描繪不僅能夠幫助我們更好地欣賞圖像,還能讓我們深入了解其審美價(jià)值。
應(yīng)對(duì)多媒體內(nèi)容的挑戰(zhàn),SceneXplain 讓故事破圖而出
總而言之,現(xiàn)有圖像字幕解決方案取得了很大進(jìn)步,能夠?yàn)閳D片生成相關(guān)的描述,然而還無(wú)法為復(fù)雜圖像生成細(xì)節(jié)、上下文和細(xì)微差別的描述。如何進(jìn)一步提高處理這樣復(fù)雜圖像的能力,是當(dāng)前圖像描述技術(shù)面臨的重要挑戰(zhàn)。
這也正是 SceneXplain 一個(gè)箭步跨進(jìn)來(lái)的契機(jī),這是一個(gè)顛覆性的工具,它不止停留在表面,而是進(jìn)一步拓寬了圖像描述的邊界。它突破了傳統(tǒng)圖像描述算法的局限性,提供了簡(jiǎn)練專業(yè)、引人入勝的圖像敘事體驗(yàn)。憑借用戶友好的界面、無(wú)縫 API 集成和強(qiáng)大的多語(yǔ)言支持,方便開(kāi)發(fā)者輕松集成到他們的多模態(tài)應(yīng)用中。
網(wǎng)址:scenex.jina.ai
SceneXplain 生成的文本拓展了圖片的表現(xiàn)力,不管是動(dòng)漫,風(fēng)景,商品,還是產(chǎn)品 UI,它都準(zhǔn)確識(shí)別了圖片中關(guān)鍵信息,理解了畫(huà)面表達(dá)的氣氛,并深入捕捉到了圖片中的細(xì)節(jié),并用流暢連貫的語(yǔ)言完成了描述。
SceneXplain vs Midjourney describe
我們對(duì) SceneXplain 與市面上流行的圖像描述工具和算法的性能進(jìn)行了測(cè)評(píng)。
SceneXplain:生成詳細(xì)、復(fù)雜、生動(dòng)、富有上下文的文本描述,為復(fù)雜視覺(jué)內(nèi)容提供先進(jìn)的圖像描述解決方案。
Midjourney:最近發(fā)布的 /describe 功能,旨在將圖像轉(zhuǎn)化為文本提示詞。
注意:相比起 /describe 生成的是圖像提示詞 Prompt,而 SceneXplain 生成出的是詳細(xì)、復(fù)雜、生動(dòng)、富含上下文的圖像描述,更適合人類閱讀。此外,我們還對(duì)比了
BLIP-2:一種高效的預(yù)訓(xùn)練策略,使用現(xiàn)成的凍結(jié)的預(yù)訓(xùn)練圖像編碼器和大型語(yǔ)言模型進(jìn)行視覺(jué)語(yǔ)言預(yù)訓(xùn)練,可在訓(xùn)練參數(shù)大大減少的情況下,實(shí)現(xiàn)各種視覺(jué)語(yǔ)言任務(wù)的 SOTA 性能。
CLIP Interrogator 2.1 專門(mén)設(shè)計(jì)給 Stable Diffusion 2.0 模型生成圖像提示詞。
接下來(lái)讓我們將這些算法對(duì)同一圖片進(jìn)行描述,展示它們?cè)诟鞣N圖像描述任務(wù)中的效果。完整的 Benchmark 表格請(qǐng)?jiān)诠娞?hào)回復(fù) SceneX 獲取。
相比之下,Midjourney /describe 和 CLIP Interrogator 2.1 等解決方案?jìng)?cè)重于為圖像生成對(duì)應(yīng)提示詞,而非讓人類輕松閱讀的自然語(yǔ)言描述。同時(shí),BLIP-2 生成的字幕非常簡(jiǎn)短、粗略且生硬,僅包含幾個(gè)相關(guān)詞匯,可能適用于簡(jiǎn)單的場(chǎng)景,但難以捕捉到更為復(fù)雜的視覺(jué)細(xì)節(jié),從而忽略了關(guān)鍵信息,無(wú)法展示圖像的豐富內(nèi)涵。
而 SceneXplain 填補(bǔ)了這一塊空白,深入、準(zhǔn)確、豐富 —— 面對(duì)復(fù)雜圖像,SceneXplain 讓圖像描述更上一層樓。它兼顧了準(zhǔn)確性和深度,它能夠深入到復(fù)雜場(chǎng)景里錯(cuò)綜復(fù)雜的細(xì)節(jié),并基于這些細(xì)節(jié)的微妙關(guān)聯(lián),比如空間位置,依賴關(guān)系等,構(gòu)建出流暢連貫的敘事。這種結(jié)構(gòu)化敘事讓觀眾能夠從更高的視角去理解圖像所呈現(xiàn)的復(fù)雜概念和場(chǎng)景,使得圖像栩栩如生,故事得以生動(dòng)訴說(shuō)。
當(dāng)然,我們也必須要承認(rèn) SceneXplain 在簡(jiǎn)單場(chǎng)景下有些矯枉過(guò)正,會(huì)出現(xiàn)一些幻覺(jué)。
SceneXplain 的優(yōu)勢(shì)
與其他圖像描述解決方案相比,SceneXplain 具有許多優(yōu)勢(shì):
抗噪聲和變化的圖像質(zhì)量
SceneXplain 背后強(qiáng)大的 AI 算法增強(qiáng)了其對(duì)各種圖像質(zhì)量的理解能力,哪怕是低分辨率、模糊不清或帶有噪點(diǎn)的圖像,SceneX 也能基于有限的信息推斷圖像內(nèi)涵,確保生成的描述保持準(zhǔn)確性。
多語(yǔ)言支持
SceneXplain 有強(qiáng)大的多語(yǔ)言支持,可以生成多種語(yǔ)言的上下文豐富的圖像描述。
應(yīng)用場(chǎng)景
我們期待您探索和體驗(yàn) SceneXplain 的能力,它的潛在應(yīng)用非常廣泛,比如三個(gè)關(guān)鍵領(lǐng)域:
視覺(jué)敘事升級(jí):SceneXplain 的豐富描述能夠把簡(jiǎn)單的視覺(jué)圖像轉(zhuǎn)化為真正引人入勝的敘事體驗(yàn)。這種敘事升級(jí)能夠在各個(gè)場(chǎng)景下得以運(yùn)用,比如電商產(chǎn)品詳情頁(yè)的撰寫(xiě),通過(guò)詳細(xì)的圖像描述,為用戶提供更豐富的瀏覽體驗(yàn)。
優(yōu)化 SEO:SceneXplain 生成的生動(dòng)且豐富的描述包含大量的關(guān)鍵詞,這有助于提高內(nèi)容的搜索引導(dǎo)性和點(diǎn)擊率,從而有可能帶來(lái)網(wǎng)站排名的提升和來(lái)自搜索引擎的更多流量。
提高可訪問(wèn)性:SceneXplain 生成的描述能夠充分解釋圖像細(xì)節(jié)和含義,從而有望徹底改變無(wú)障礙多媒體內(nèi)容的創(chuàng)建和消費(fèi)方式,改善視覺(jué)障礙用戶的網(wǎng)絡(luò)體驗(yàn)。
從三個(gè)關(guān)鍵領(lǐng)域?qū)?yīng)的場(chǎng)景上,SceneX 也有許多應(yīng)用空間,對(duì)于社交媒體內(nèi)容創(chuàng)作者,美食博主,旅游博主等為拍攝的圖片生成更加具體生動(dòng)的描述,提高圖片素材的影響力;在線電商企業(yè)可以用來(lái)描述商品,用關(guān)鍵詞和描述語(yǔ)句豐富產(chǎn)品詳情頁(yè)描述,提升 SEO;博物館等公共服務(wù)行業(yè)用于為展品創(chuàng)建詳細(xì)的文字描述,幫助視障人士更好地欣賞等等。
如何將 SceneXplain 集成到您的應(yīng)用中
SceneXplain 提供多種集成選項(xiàng)以滿足不同組織的需求。
1. 通過(guò)網(wǎng)頁(yè)生成圖像描述
2. 通過(guò) API 批量處理圖像
對(duì)于尋求自動(dòng)化和無(wú)縫集成的組織,SceneXplain 為其系統(tǒng)提供了強(qiáng)大、可擴(kuò)展且安全的 API。快速批處理 API 允許在 50 秒內(nèi)在一個(gè)批次中描述多達(dá) 128 張圖像。
3. 作為 ChatGPT 插件使用
對(duì)于 ChatGPT Plus 用戶來(lái)說(shuō),可以在 ChatGPT 插件里使用。
4. 本地隱私保護(hù)解決方案
對(duì)于數(shù)據(jù)安全和隱私有嚴(yán)格要求的組織來(lái)說(shuō),我們提供本地解決方案,您可以在自己的服務(wù)器上部署 SceneXplain,確保了敏感數(shù)據(jù)保留在自己的網(wǎng)絡(luò)中,同樣無(wú)縫集成 SceneXplain 的高級(jí)圖像描述。
添加技術(shù)運(yùn)營(yíng)微信 jinaai01,或掃描文末二維碼,與我們的團(tuán)隊(duì)約定會(huì)議了解本地解決方案。
SceneXplain 的核心優(yōu)勢(shì)在于它能精準(zhǔn)捕捉到圖片中多個(gè)物體之間的關(guān)系和互動(dòng),同時(shí)考慮它們?cè)趫?chǎng)景中的位置,以及周?chē)h(huán)境的氛圍。這些細(xì)節(jié)在普通的圖像描述工具里經(jīng)常被忽略,但 SceneXplain 不僅在生成文本描述時(shí)保留了這些細(xì)節(jié),還提供了更多的情境感,將視覺(jué)內(nèi)容的精髓高效地呈現(xiàn)出來(lái),幫助讀者更好地理解圖像所呈現(xiàn)的內(nèi)容。無(wú)論是社交媒體、電商網(wǎng)站,還是公共服務(wù)領(lǐng)域,它都能大顯身手。
審核編輯 :李倩
-
編碼器
+關(guān)注
關(guān)注
45文章
3638瀏覽量
134426 -
算法
+關(guān)注
關(guān)注
23文章
4607瀏覽量
92835 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1558瀏覽量
7595
原文標(biāo)題:SceneXplain:讓 ChatGPT 開(kāi)啟視覺(jué)視角
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論