近年來,由于深度學習、計算機視覺和自然語言處理等多學科領域的興趣激增,視覺和語言任務的橋接得到了顯著的發展。在本綜述中,我們重點研究了10種不同的視覺和語言橋接任務,包括它們的問題定義、方法、現有數據集、評估指標,以及與相應的最先進方法的結果的比較。這超越了早期的一些綜述,這些綜述要么是特定于任務的,要么只專注于一種類型的視覺內容,即圖像或視頻。最后,我們討論了視覺與語言研究未來可能的整合方向。
引言
近年來,深度學習的發展使得計算機視覺(CV)和自然語言處理(NLP)領域在多項任務中取得重大進展。
最近很多研究都熱衷于解決這些傳統獨立領域的語言和視覺信息相結合的挑戰。應對語言和視覺結合挑戰的方法應提供對視覺或文本內容的完全理解,并期望(1)生成關于視覺內容的可理解但簡潔且語法良好的描述,反之亦然,其中給定文本描述生成視覺內容返回(2)識別視覺內容中的對象并推斷它們與原因的關系或回答關于它們的任意問題(3)通過利用視覺和自然語言指令的輸入來進行瀏覽(4)翻譯文本從一種語言到另一種語言的內容,其視覺內容用于消除歧義(5)生成有關視覺內容的故事等。這些方法的設計可以處理和關聯來自多種形式的信息(即語言和視覺信息),通常被稱為多模態學習模型的一部分(Mogadala,2015)。
然而,在這篇文章中,作者不僅提供了十個不同任務的全面概述,還提供了驅動當前視覺和語言研究集成的方法、數據集和評估指標。在第2節中,首先介紹了視覺和語言集成的10個重要任務及其方法,并在第3節中概述了用于每個任務的數據集。然后,在第4節中,我們分別描述了視覺和語言的表示,并進一步討論了將視覺和語言結合起來實現任務的主要方法。在第5節中,我們給出了用于所有10個任務的評估指標。此外,在第6節中,還比較和討論了通過相應方法實現的每個任務的基準結果。在第7節中,我們討論了可能的未來方向,最后第8節結束了我們的綜述,并討論了對結果的一些見解。
然而,在綜述中,我們超越了單詞并提出了那些將可變長度大于單詞的文本作為語言輸入的任務。這些任務中的大多數被視為對CV、NLP或這兩個問題的擴展。圖1總結了不同的任務。然而,為了了解這些任務如何被視為CV,NLP或兩者中問題的自然延伸,我們簡要地發現它們與其各自研究中解決的類似任務之間的相關性。
圖1:十種不同的語言和視覺集成任務。
圖2:給定一張圖像,標準圖像描述生成模型生成一個全局文本描述。
表1:生成圖像全局描述的方法摘要。
圖3:給定一個視頻(表示為幀序列),視頻描述生成模型生成單個全局標題。
圖4:給定圖像序列,圖像敘事模型按順序生成文本故事。
圖5:給定視頻幀(摘自(Li et al., 2018)),視頻敘事模型按順序生成文本故事。
圖6:給定一張圖像和問題,圖像問答模型產生答案。
圖7:給定一個視頻(由TV Q&A數據集中的幀序列表示)和問題,視頻問答模型從多個選項中找到正確的答案。
圖8:給定一張圖像,問題和對話歷史記錄,圖像對話模型基于它生成答案。
-
計算機視覺
+關注
關注
8文章
1698瀏覽量
45980 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:NLP+CV《橋接視覺與語言的研究綜述》,帶你全面了解視覺+語言最新應用和方法
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論