本文將為大家介紹CVPR 2023年最佳論文兩篇中的Visual Programming: Compositional visual reasoning without training (視覺編程:無需訓練的組合式視覺推理),代碼已開源。
Title:
VisualProgramming:Compositionalvisualreasoningwithouttraining
Paper:
https://openaccess.thecvf.com/content/CVPR2023/html/Gupta_Visual_Programming_Compositional_Visual_Reasoning_Without_Training_CVPR_2023_paper.html
Code:
https://github.com/allenai/visprog
01
/導讀/
VISPROG是一種神經符號方法,可利用自然語言指令解決復雜的組合式視覺任務。VISPROG避免了任何特定于任務的訓練需求。相反,它利用大型語言模型的上下文學習能力生成類似Python的可組合程序,這些程序將被執行以獲得解決方案和全面可解釋的推理結果。生成的程序的每一行可以調用多個現成的計算機視覺模型、圖像處理子程序或Python函數以生成中間輸出,后續程序部分可以使用這些中間輸出。在四項不同的任務中展示了VISPROG的靈活性:組合式視覺問答、基于圖像對的零樣本推理、實際知識對象標注和語言引導圖像編輯。類似VISPROG這樣的神經符號方法是擴展人工智能系統范圍、為人們提供執行復雜任務的有效途徑。
VISPROG是一種可組合和可解釋的神經符號系統,用于進行組合式視覺推理。給定自然語言指令和高層次程序的幾個示例,VISPROG利用GPT-3的上下文學習功能針對任何新指令生成程序,并在輸入的圖像上執行程序以獲取預測結果。VISPROG還將中間輸出總結為可以解釋的視覺說明。
02
/模塊/
VisProg目前支持20個模塊,可實現圖像理解、圖像操作(包括生成)、知識檢索和算術和邏輯操作等能力。在這里顯示的紅色模塊是使用經過訓練的最先進神經模型實現的,而藍色模塊是使用多種Python庫(如PIL、OpenCV和AugLy)實現的非神經Python函數。
在VISPROG中,每個模塊都被實現為一個Python類,見下述代碼,其具有以下方法:
(i)解析行以提取輸入參數的名稱和值以及輸出變量的名稱;
(ii)執行必要的計算,可能涉及訓練過的神經模型,并更新程序狀態以獲得輸出變量的名稱和值;
(iii)使用HTML方式以可視方式總結該步驟的計算(用于創建visual rationales)。
要向VISPROG添加新模塊,只需要實現并注冊一個模塊類,程序的執行使用該模塊將由VISPROG解釋器自動處理。
03
/VISPROG中的程序生成/
VisProg通過向LLM GPT-3提供指令及其相關的示例指令和對應程序,來生成程序。與以前的方法如神經模塊網絡(Neural Module Network)不同,VisProg利用大規模語言模型的上下文學習能力來生成程序,而不是使用預先定義的模塊。這使生成的程序更加靈活且能夠處理更多的組合式視覺任務。
04
/可解釋性/
VisProg不僅生成高度可解釋的程序,還通過將每個步驟的輸入和輸出的摘要拼接在一起生成visual rationales,以幫助理解和調試程序執行期間的信息流。下面是兩個visual rationales的示例。
使用自然語言進行圖像編輯
關于圖像對的推理(自然語言視覺推理)
04
/結果可視化/
在組合式視覺問答、基于零樣本的圖像對推理(僅使用單張圖像VQA模型)、實際知識對象標記和語言引導的圖像編輯等復雜視覺任務上展示了VisProg。下圖展示了VisProg在對象標記和圖像編輯任務上的能力。
更多關于所有任務的定性結果以及相應的視覺說明,包括由于程序生成中的邏輯錯誤或模塊預測錯誤而導致的失敗案例,請根據下面鏈接下載查閱:
https://openaccess.thecvf.com/content/CVPR2023/supplemental/Gupta_Visual_Programming_Compositional_CVPR_2023_supplemental.zip
-
模塊
+關注
關注
7文章
2716瀏覽量
47522 -
人工智能
+關注
關注
1791文章
47350瀏覽量
238734 -
python
+關注
關注
56文章
4797瀏覽量
84744
原文標題:CVPR 2023 最佳論文!VISPROG:以神經符號方式將人工智能推向更廣泛、更復雜的任務領域
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論