圖像摳圖是一個計算機視覺領域內的基礎任務,旨在獲取任意圖像中的精細前景。對于需要精細細節的前景類別尤為關鍵,例如人像,動物,或者植物。圖像摳圖在很多的下游任務中充當著不可或缺的角色,包括電商網站的廣告宣傳,日常生活娛樂中的圖像編輯,視頻會議中的替換背景,或者虛擬現實,游戲等一些元宇宙應用。傳統的研究方法因局限于底層色彩結構,且對人類輔助輸入信息非常敏感,從而在復雜背景中無法得到優秀的摳圖結果。近年來,基于深度學習的解決方案涌現,利用神經網絡優秀的特征提取能力取得了非常優秀的摳圖結果,隨之誕生的還有多種新方向,諸如全自動摳圖,人機交互式摳圖,語言引導摳圖等等。
本綜述首次系統性的概述了深度學習驅動下的圖像摳圖研究進展,涵蓋了自深度學習時代以來(8年時間跨度)各類圖像摳圖算法及應用的研究進展。我們將主流的算法劃分為兩類,即基于人工輔助信息的摳圖和全自動圖像摳圖研究。在每個類別中,我們對相關的任務設定,網絡模型,突出貢獻,優勢和局限性都進行了充分的論述。另外,本文還整合了包括合成圖像和真實圖像在內的諸多圖像摳圖數據集,并在典型的數據集上對具有代表性的諸多方法進行了系統的實驗和主客觀結果評估。最后,我們介紹了整個基于深度學習的圖像摳圖領域的相關應用,討論了目前存在的挑戰以及未來可能的研究方向。
本綜述總結的方法細節,數據集,實驗與評估的結果都已在線公開并會保持更新,詳情請見鏈接 https://github.com/jizhiziLi/matting-survey.
一、圖像摳圖介紹
作為一個自從電影制作產業初期就出現的問題,圖像摳圖已經被學者們用傳統方法研究了幾十年,主流的方法有兩種,基于色彩采樣和相似度矩陣。然而,傳統方法局限于底層色彩特征,且對人類輔助輸入信息非常敏感,從而在復雜背景中無法得到優秀的摳圖結果。
自深度學習出現之后,研究者設計出了多種多樣的基于卷積神經網絡的解決方案。和傳統方法一樣,早期的深度學習方法依然需要依賴一定量的人工輔助信息,例如三分圖(trimap),涂抹(scribble),背景圖像等等,粗糙的初始分割等等。近年來,更多靈活多樣的人工輔助信息被探索,例如用戶點擊和語言引導。在下圖中,我們展現了一些常見的人工輔助信息的樣例。
圖1. 圖像摳圖輸入,預測結果和一些人工輔助信息的展示,例如三分圖,背景,粗糙分割,用戶點擊,用戶涂抹等等。該圖中的語言輸入可以為:圖像中間的可愛的微笑的小狗。
同時,為了使得圖像摳圖能被快速應用于工業場景,全自動摳圖也在近年內被提出。這些方法可以直接從圖像中預測出最終的結果,不需要任何額外的人工輔助信息。但是,因為受訓練數據集的數據分布的影響,它們傾向于得到圖中全部顯著性的前景。為了促進深度學習方法的研究,近年來被研究者構建了大量的相關數據集,包括合成數據集和真實數據集。本文對相關的研究算法和訓練與測試數據集做了詳盡的介紹。同時,我們總結了深度學習時代相關算法的時間軸,列圖如下,可以看出近年來該領域的研究熱度不斷增加。
圖2. 基于深度學習的圖像摳圖方法時間軸
圖3. 基于深度學習的圖像摳圖方法總結表,包括出版刊物,輸入模態,是否自動化,摳圖目標,網絡結構,訓練數據集和測試數據集等。
二、具體研究進展及討論
鑒于圖像摳圖任務是一個未知參數很多的病態問題,使用用戶輔助信息作為輸入是非常常見的解決方法。從傳統時代開始,一張定義了指定前景,背景,和未知區域的三分圖(trimap)就被廣泛使用,隨之一起出現的是指定前景背景的用戶涂抹圖像(scribble)。到了深度學習時代,多種多樣的下游任務催生出了更多類型的用戶輔助信息,諸如背景圖,粗糙的二元分割圖,用戶交互式點擊,語言引導等等。這些方法的網絡結構設計大致可分為三類,如圖4所示:1)單階段網絡;2)單階段網絡,附加邊緣模塊用以提取輔助信息中更多的圖像特征;3)雙分支或多分支網絡,用以分別處理圖像和輔助信息,并一起經過融合網絡以得到最終輸出。這些方法每一項都彌補了前序方法的不足,對輔助信息進行了更輸入的挖掘和信息提煉,以得到更優秀的摳圖結果。然而,此類方法依然存在兩個問題。首先他們依然依賴于不同程度的人力,使得在實用場景的自動化應用有些困難。第二點是這些方法很多依然對輔助信息非常敏感,比如三分圖的未知區域大小,用戶交互點擊的密度等等。因此研發更魯棒的方法既是一個挑戰也是一個非常有前景的研究方向。更多詳情可見文章第三章。
圖4. 基于深度學習和輔助信息的圖像摳圖方法框架分類圖。(a) 單階段網絡。(b) 帶有邊緣模塊的單階段網絡。(3) 雙分支或者多分支網絡。
為了克服基于輔助信息的圖像摳圖方法的局限性,近年來,全自動摳圖也成為了研究熱點。這些方法旨在不經過任何人工參與的情況下,直接預測出圖中的細致前景。根據網絡結構的設計也可以大體分為三類,如圖5所示:1)單階段網絡并利用旁支的全局模塊引導圖像高層的語意信息;2)兩階段網絡來首先預測輔助信息,再設計基于輔助信息的第二階段網絡;3)用共享的編碼網絡獲取不同層次的圖像信息,通過多分支的解碼網絡分別預測高層語意和低層細節,并通過硬融合得到最終的結果。這一類方法由于沒有任何額外信息的引導,非常容易受到訓練數據集的影響。因此大部分方法局限于某些特定的摳圖目標,比如人像,動物,透明物體等等。近年來,也有方法探索通過將通用物體分為三類,即顯著性閉合前景,顯著性透明或細致前景,以及非顯著前景,并用同一個網絡進行全種類摳圖。全自動摳圖方法因為不需要任何人工的干預,在工業界得到了廣泛的實用。然而,此類研究依然存在一些挑戰,例如如何提高方法的泛化性,尤其在訓練數據集中未見到的圖像上得到很好的效果,或者如何在保有高質量摳圖結果的同時提高運算效率,減小模型大小。更多詳情可見文章第四章。
圖5. 基于深度學習的全自動圖像摳圖方法框架分類圖。(a) 基于全局引導信息的單階段網絡。(b) 兩階段網絡。(c) 共享編碼器的雙分支網絡。
作為深度學習方法不可或缺的驅動力,構建大型數據集非常關鍵。因此,本文對于摳圖領域內近年來涌現的數據集做了統一的介紹和比較,包括早期的合成圖像數據集和最近的真實圖像數據集。如圖6所示,我們對現有數據集按照輸入模態,標簽類型,摳圖目標,平均尺寸,標注方法,訓練集和測試集的數目,是否公開,進行了歸類整理和對比。詳情可參見文章第五章。
圖6. 圖像摳圖數據集比較,包括出版刊物,模態,標簽類型,是否是自然圖像,摳圖目標,平均尺寸,標注方式,訓練數據量,測試數據量,是否公開等等。
三、評測基準
在這一節里,我們詳細介紹了整個摳圖領域內深度學習算法常用的損失函數,評價標準,預處理方式和訓練技巧。對于基于輔助信息的方法和全自動方法,我們分別在兩類常用的數據集上對具有代表性的算法進行了詳盡的比較。包括主觀客觀結果比較,方法的模型慘數量,復雜度,以及處理512x512分辨率的圖像的推理時間。我們在同種設定下進行了大量的實驗以公正的評測目前的深度學習方法與早先的傳統算法。相關客觀指標結果如圖7所示。為了給讀者一個對于目前主流方法結果直觀的感受,我們在圖8展示了一些實際結果例子。
圖7. 圖像摳圖算法的客觀指標結果
圖8. 圖像摳圖算法主觀對比圖
四、挑戰與展望
圖像摳圖,作為一個基礎的圖像底層算法,在諸多的下游任務中都有非常廣泛的應用,包括視覺感知能力例如物體檢測,語義分割,障礙物去除,圖像編輯應用例如圖像合成,圖像補全,圖像風格轉換,視頻處理應用例如視頻特效關聯,淺景深合成,視頻摳圖,多模態和3D應用例如遙感,3D圖像渲染等等。這些年來,圖像摳圖領域迅速的崛起與發展也帶來了很多挑戰與新的研究機會。我們在這里做一個簡要的討論,更多詳情請見文章第八章。
1、更精確的評價指標
現有的評價指標可以從客觀上表示預測結果和標簽之間的相似度,然而如何更加精確的反應人類對于預測結果的主觀評價是一個困難的問題。例如SAD可以評價出全圖或者未知區域的相似度,但是對于人類主觀關注的區域,比如頭發,耳環,或者眼鏡框等等卻無法進行精確的評估。一個可能的解決方案是利用基于結構相似性的度量,例如SSIM,來對細節信息進行更精確的評估。
2、更輕量級的模型設計
鑒于圖像摳圖會在實時的全自動化工業領域內有廣泛的應用,如何設計一個輕量級的模型并保有精確的預測結果是一個長久而充滿潛力的研究方向。一些有效的策略包括降維處理,特征復用,剪枝操作,或者混合分辨率結構。
3、多模態摳圖
將圖像摳圖領域與多模態領域進行融合可以進一步擴展圖像摳圖的適用范圍。已經有的研究將摳圖和人類語言輸入進行結合,預測出符合人類描述的指定前景。更多的輸入模態可以包括,語音指令,目光注視點,以及3D的可渲染光線神經場模型。
4、擴散模型
近期,擴散模型已經在圖像生成領域表現出了優秀的潛力。大語言模型和跨模態預訓練的顯著進展為擴散模型的多模態應用提供了極速發展的動力,使得從空白畫板生成并編輯高質量的圖像成為了可能性。這也為圖像摳圖領域帶來了一個開放性的問題:在擴散模型的新時代里,圖像摳圖領域會有怎樣的走向,會是一個方向的終結,還是一個嶄新的開端。
五、總結
我們提供了一份深度學習驅動的圖像摳圖領域的綜述,涵蓋了該領域詳盡的背景介紹,基于輔助信息的方法概述,全自動化的方法概述,數據集的整理和比較,公開的基準測試以及未來的研究方向。為了展示圖像摳圖領域內清晰的發展脈絡和未來趨勢,我們對現有方法做了精細的分類和深入的探討。此外,我們將長期維護一個開放的github倉庫來定期更新最新的工作進展和數據集(https://github.com/jizhiziLi/matting-survey)。我們希望本綜述能夠為相關領域的研究者和從業人員提供一個重要的參考,并一起推動這個領域的發展。
審核編輯 :李倩
-
模型
+關注
關注
1文章
3226瀏覽量
48807 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45976 -
深度學習
+關注
關注
73文章
5500瀏覽量
121111
發布評論請先 登錄
相關推薦
評論