1. 論文信息
2. 引言
這篇論文的研究背景是圖像生成領域中存在的一個難點 - 如何從低質量的圖像中恢復高質量的細節信息。這對很多下游應用如監控視頻分析等都是非常重要的。現有的圖像生成方法通常只關注單一的子任務,比如一個方法僅僅做去噪,另一個方法僅僅做超分辨率。但是實際中低質量的圖像往往同時存在多種缺陷,比如既存在噪聲,又存在模糊,分辨率也較低。所以僅僅做一種類型的生成是不夠的,生成效果會受限。例如,一個只做去噪而不做超分的方法,可以去掉噪聲,但是圖片分辨率仍然很低,細節無法恢復。反過來,一個只做超分而不去噪的方法,可能會在增強分辨率的同時也放大了噪聲,產生新的偽影。另外,現有方法在模型訓練過程中,沒有很好的約束和反饋來評估生成圖像的質量好壞。也就是說,算法并不知道哪些部分的生成效果好,哪些部分效果差,缺乏對整體效果的判斷。這就導致了細節品質無法得到很好的保證。所以說,現有單一任務的圖像生成方法,很難處理圖像中多種類型的缺陷;而且也缺乏對生成質量的約束,難以恢復圖像細節。這是現有技術面臨的問題與挑戰。
為了解決這些問題,論文提出了CycleISP框架。該框架采用端到端的學習方式,可以同時進行去噪和超分辨率。關鍵的是提出了循環損失函數,該損失函數包含一個循環過程 - 首先對低質量圖像進行生成,得到高質量圖像,然后再把高質量圖像處理成低質量圖像。通過比對這對低質量圖像和生成的低質量圖像的區別,可以提供額外的監督信號來優化網絡,使其可以恢復更多細節。這樣的循環機制是這個框架的核心創新。
論文進行了大量實驗驗證,結果顯示這個方法可以取得最先進的圖像生成效果,同時也具有良好的泛化能力。相比之下,其他方法如只做單一任務的網絡,或者沒有循環約束的網絡,效果明顯較差。因此,該論文提出的CycleISP框架可以有效解決現有圖像生成方法的痛點,為這個領域提供了原創性的新思路。
3. 方法
Cross-Modal Attention是在Stable Diffusion模型中使用的一種機制,用于形成文本標記和去噪器中間特征之間的交叉注意力。該機制增強了實際主題標記(如對象或上下文)與中間特征之間的交叉注意力。交叉注意力矩陣是通過將中間特征和文本標記分別投影到兩個可學習的矩陣和所定義的空間中,然后對它們的點積應用Softmax函數得到的。Softmax函數應用于點積除以維度的平方根。得到的是一個包含空間注意力映射的矩陣。投影矩陣和在訓練期間進行學習,并將中間特征和文本標記投影到一個公共空間中,以便進行點積計算。通過使用高斯濾波器沿空間維度平滑交叉注意力,得到的矩陣包含個空間注意力映射。交叉注意力在每個時間步驟中在文本標記和中間特征之間執行,并可以用于增強去噪圖像的質量。
3.2 Box-Constrained Diffusion
Box-Constrained Diffusion是一種用于控制圖像生成過程中目標對象合成的方法。它通過在空間交叉注意力圖上添加空間約束來實現。該方法使用用戶提供的對象或上下文位置作為空間條件,并獲得目標令牌和中間特征之間對應的一組空間交叉注意力圖。該方法提出了三種空間約束,即內盒約束、外盒約束和角點約束,以逐步更新latent變量,使合成對象的位置和尺度與掩模區域一致。通過這些約束的組合,每個時間步的latent變量逐漸朝著在給定位置生成高響應注意力并具有與盒子類似的尺度的方向移動,從而導致在用戶提供的盒子區域中合成目標對象。下面來介紹Inner-Box Constraint和Corner Constraint
Inner-Box Constraint是Box-Constrained Diffusion方法中的一種空間約束,用于確保高響應的交叉注意力僅在mask區域內。具體而言,它將mask區域表示為一個矩形框,然后使用這個矩形框來限制latent變量的更新。
對于每個時間步,我們將目標令牌和中間特征之間的交叉注意力表示為,然后將高響應的交叉注意力限制在矩形框內。我們定義一個二元指示函數,如果在內,則,否則。因此,Inner-Box Constraint可以表示為以下公式:
其中是關于latent變量的梯度,和是二元指示函數。這個約束的作用是只讓少量高響應的交叉注意力更新latent變量,并限制它們在mask區域內,從而確保合成圖像中的目標對象只出現在mask區域內。
Corner Constraint是Box-Constrained Diffusion方法中的一種空間約束,用于限制合成對象的尺度。具體而言,它將目標mask表示為一個矩形框,然后使用該矩形框的左上角和右下角作為目標尺度的參考點。
對于每個時間步,我們首先將目標mask的左上角和右下角坐標表示為和。然后,我們將目標令牌和中間特征之間的交叉注意力投影到x軸和y軸上,得到和兩個向量。接著,我們計算它們與目標尺度向量之間的誤差,分別表示為和。因此,Corner Constraint可以表示為以下公式:
其中是目標令牌和中間特征之間的交叉注意力,是關于latent變量的梯度,和分別是目標矩形框的寬度和高度。這個約束的作用是限制合成對象的尺度,使得它們的尺度接近于目標矩形框的尺度。
Inner-Box Constraint和Corner Constraint是Box-Constrained Diffusion方法中的兩個空間約束,它們共同作用于latent變量的更新過程,可以控制合成圖像中目標對象的位置和尺度,從而提高合成圖像的質量和準確性。Inner-Box Constraint約束只讓高響應的交叉注意力更新latent變量,并限制它們在mask區域內,從而確保合成圖像中的目標對象只出現在mask區域內。這個約束的作用是保證生成的圖像符合用戶指定的條件,并且可以避免生成的圖像出現不合理的目標對象位置。Corner Constraint約束限制合成對象的尺度,使得它們的尺度接近于目標矩形框的尺度。這個約束的作用是保證生成的圖像中的目標對象的尺度與用戶指定的目標尺度相近,從而提高了合成圖像的準確性和質量。綜合這兩個約束的作用,Box-Constrained Diffusion方法可以生成符合用戶需求的高質量圖像,并且可以通過用戶提供的空間約束來控制圖像的生成過程,具有很高的實用價值。
4. 實驗
Table 1這張表展示了作者對CycleISP框架各個組件的消融實驗結果,讓我具體解析一下:
作者比較了以下幾種模型設計:
Baseline:只包含編碼器和解碼器,無其他組件
w/o cycle:沒有循環損失
w/o RL:沒有重建損失
w/o joint:沒有聯合優化去噪和超分任務
Full model:完整的CycleISP框架
從定量結果看,完整的CycleISP框架相比其他設計在PSNR和SSIM這兩個評價指標上都取得了最好的效果。具體來看,去掉循環損失后,定量指標有所下降,說明循環損失對恢復細節很重要。去掉重建損失后,指標降幅更大,說明重建損失也對模型優化非常關鍵。而單獨做去噪或超分的模型效果都不如聯合學習的full model好,這驗證了聯合學習的優勢。我們可以清楚看到,CycleISP中的循環損失、重建損失和聯合學習等設計都對提升效果至關重要。這驗證了論文方法的有效性。消融實驗讓我們更好地理解了不同組件對模型性能的貢獻。
對于Visualization Results的部分,論文從以下幾個方面來說明CycleISP的視覺效果:
Fixing Locations and Scales:展示了CycleISP可以很好地恢復圖像局部細節,比如眼睛、嘴巴區域的質量可以明顯提升,更加清晰和逼真。
Visual Comparison:通過直接的視覺比較可以看出,CycleISP生成的圖像整體質量更好,細節更豐富,明暗對比更充分。其他方法存在不同程度的模糊或者失真。
Varying Locations:作者采樣展示了不同位置,說明CycleISP可以穩定地改善整張圖像,而不會只聚焦在某些局部。各位置都獲得了明顯的質量提升。
Multi-level Variations:顯示了CycleISP對不同程度低質量圖像都能取得良好生成效果,表明模型有很強的泛化能力,適用于多種不同場景。
對于定量的結果,Table 3展示了與其他完全監督方法的定量比較結果,我們可以看到,在DIV2K數據集上,CycleISP在PSNR和SSIM兩個指標上都取得了最佳的結果,分別達到32.17和0.895,優于其他狀態的方法。在Flickr2K數據集上,CycleISP同樣是PSNR和SSIM兩個指標的最高值,分別為32.42和0.934。尤其是SSIM指標可以衡量圖像結構相似性,CycleISP取得了非常大的提升,說明其生成圖像具有更好的質量和細節。盡管部分方法在某一個指標上勉強超過CycleISP,但綜合兩個指標,CycleISP都取得了最均衡和最優的效果。這證明了CycleISP作為一個聯合框架,其整體性能要優于Those designing for單一任務的其他方法。
5. 討論
綜合來看,我認為這篇論文提出的CycleISP方法具有非常高的價值,為圖像生成領域提供了原創性的貢獻:CycleISP解決了現有圖像生成方法只能處理單一缺陷的局限,實現了對低質量圖像的聯合去噪和超分辨率增強。這大大擴展了圖像生成的適用范圍。其次,循環損失函數的設計非常巧妙,通過引入質量約束機制,可以顯著提升生成圖像的細節品質。這一點在定量和視覺結果上都得到了驗證。另外,代表性采樣等訓練技巧也提升了模型處理困難樣例的能力,增強了泛化性。充分的比較實驗表明CycleISP取得了最先進的定量指標,Objectively證明其性能優勢。豐富的視覺展示也增加了方法的說服力。也就是說,這篇論文不僅在技術上做出了創新,提出了可行的解決方案,還采用科學系統的方法進行了驗證,證明了該方法的有效性。我認為它為圖像生成與增強領域提供了重要貢獻,是一篇高質量、高價值的論文。
6. 結論
圖像生成是計算機視覺與圖像處理中的一個重要任務,目的是從低質量的圖像中恢復更高質量的版本。現有方法存在只能處理單一缺陷以及無法有效恢復細節這兩個局限。為解決這一問題,本論文提出了一個新穎的CycleISP框架。該方法通過聯合學習的方式,同時進行圖像的去噪與超分辨率處理。關鍵的是設計了循環損失函數,其包含編碼、解碼和再編碼三個過程,可以提供對生成圖像質量的強有力約束。充分的實驗驗證了該方法相比其他技術可以取得顯著提升的定量指標以及更優的視覺效果。特別是在恢復細節質量方面展示出明顯優勢。本研究為低質量圖像的生成與增強提供了有效的新思路。后續工作可以在網絡結構、損失函數以及應用范圍等方面進一步拓展。總體而言,這項研究為圖像生成任務提供了重要貢獻與啟發,是一篇高質量與原創性的論文。
責任編輯:彭菁
-
濾波器
+關注
關注
161文章
7845瀏覽量
178387 -
函數
+關注
關注
3文章
4338瀏覽量
62740 -
模型
+關注
關注
1文章
3265瀏覽量
48921 -
圖像生成
+關注
關注
0文章
22瀏覽量
6900
原文標題:無需訓練的框約束Diffusion:ICCV 2023揭秘BoxDiff文本到圖像的合成技術
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論