傳統的肉眼識別方法是很難直接識別出 NIs (自然圖像) 和 CG (計算機生成的圖像)。本文中提出了一種高效的、基于卷積神經網絡 (CNN) 的圖像識別方法。通過大量的實驗來評估模型的性能。實驗結果表明,該方法優于現有的其他識別方法,與傳統方法中采用 CNN 模型來識別圖像,此方法還能借助高級可視化工具。
▌摘要
考慮到對現有的 CCNs 從頭開始訓練或微調預訓練網絡都具有一定的局限性,這個研究提出了一種更合適的想法:設計階段在 CNN 模型的底部增加了兩個級聯卷積層。該網絡能夠根據不同大小的圖像輸入,進行自適應地調整,同時保持固定的深度,以穩定 CNN 結構并實現良好的識別表現。對于所提出的模型,我們采用一種稱為“局部到全局”的策略,即 CNN 能夠獲取局部圖像的識別決策,而全局的識別決策可通過簡單的投票方式獲得。我們通過大量的實驗來評估模型的性能。實驗結果表明,該方法優于現有的其他識別方法,且在后處理的圖像上也具有較好的魯棒性。此外,相比于傳統方法中采用 CNN 模型來識別圖像,我們的方法還能借助高級可視化工具,進一步可視化地了解 NIs 與 CG 之間的差異。
▌簡介
當前,對 NIs 和 CG 的圖像識別研究已經得到了廣泛的關注。解決這個問題的主要挑戰在于 NIs 與 CG 有近乎相同的寫實性及圖像模式。先前的研究通常都是人工設計一些可判別的特征,來區別 NIs 和 CG。但這些方法普遍存在的問題是人為設計的特征對于給定的圖像識別問題來說,并不一定是最適合的,特別對于一些復雜的數據庫而言,該方法的識別效果更差。
相比于需要先驗知識和假設條件的傳統方法,卷積神經網絡 (CNN) 能夠自動地從數據中學習目標的特征及其抽象表征,這使得它能夠更廣泛適用于一些復雜的數據庫。本文,我們提出一種基于 CNN 的框架來識別 NIs 和 CG。這是一種以端到端的方式進行自動特征學習,而無需進行人為設計圖像特征的框架。我們的工作主要總結如下:
提出了一種基于 CNN 的 NIs 與 CG 的通用識別框架,通過微調它能夠自適應于不同尺寸的圖像輸入塊。
對微調訓練后的 CNN 模型,我們針對性地設計了一種改進方案以改進我們的識別表現,這兩種基于 CNN 的方案都優于目前最先進的方法。
我們的方法在 Google 和 PRCG 數據庫上都表現出良好的識別性能,而且對調整圖像大小和壓縮 JPEG 等后處理操作有強大的魯棒性。
利用可視化工具,我們進一步地了解 CNN 模型是如何區分 NIs 和 CG。
▌數據集
我們使用的實驗數據包括 Columbia Photo-graphic 與 PRCG 數據庫。數據庫由三組圖像組成:(1) 從40個 3D 圖形網站中獲取的800張 PRCGs 數據;(2) 我們所采集的800張 NIs;以及 (3) 從 Google 搜索中獲取的795張攝影圖像。
我們所采集的300張 NIs 是通過小型數碼相機拍攝的。先前研究的方法都沒有在 Google 與 PRCG 數據庫上進行過測試,這是因為 Google中的 NIs 與PRCG中的CG圖像起源不同。而我們的研究不僅嘗試解決這個問題,而且還將在 Personal 與 PRCG ,以及 Personal+Google 與 PRCG 兩種不同數據庫組合條件下進行測試。
▌框架
我們將 NIs 與 CG 的圖像識別問題視為是一個二元分類問題。針對此問題,提出了兩種不同的圖像識別標準框架,如圖1所示:其中,f 是特征提取器,c 代表一個分類器 (如 SVM) 。我們的框架是一個二階段模型,其核心在于特征提取器。通常,特征的提取過程不僅需要耗費大量的時間,且提取出來的特征不一定是我們任務所需要的,而我們的 CNN 框架能夠以端到端的方式自動學習并提取所需特征,這為解決特征提取問題提供了一種思路。因此,我們提出了一種適用的 CNN 模型,并采用以下三種不同的訓練方法:(1) 遵循現有的網絡結構,并從頭開始訓練 CNN 模型;(2) 微調一個預先在其他數據集或另外一個任務中訓練好的、現成的 CNN 網絡;(3) 設計一個新的網絡,并從頭開始訓練。
圖1 兩種不同的圖像識別框架
局部到全局策略
考慮到模型的計算成本,圖片尺寸的多樣性以及圖像識別的性能要求,我們采用一種由局部到全局的策略,來對局部圖像進行訓練并使用簡單的投票規則再對全局的圖像進行分類。這種由局部到全局的策略是一種基于數據增強的思想,也是擴展訓練中的常用技巧,尤其是在深度學習領域。
對于圖像分類問題,局部策略 (即高精度的局部圖像) 對于圖像識別來說是非常重要的;另一方面,從 CG 上裁剪下來的圖像本質仍是 CG,而對 Nis 而言也是如此。因此,我們引入數據增強的方法,也就是說,從每次訓練中選擇一些固定尺寸的圖像去增強訓練數據集,并且盡可能地去獲取更高精度的圖像。在實踐階段,我們使用 Maximal Poisson-disk 從每次訓練中隨機裁剪一定數量的圖像來構建新的訓練數據集。在測試階段,從每個測試圖像中裁剪一定數量的局部圖像,并給每張局部圖像加上特定的標簽 ( CG 屬于0,而 NI 屬于1 ),編號較高的標簽作為該圖像的預測結果。
網絡結構
我們所采用的網絡結構由 ConvFilter 層,3個卷積層組,2層 FC 層以及1個softmax 分類層組成,模型的輸入是二進制的圖片格式。其結構如下圖2所示:我們的輸入是一張233*233的 RGB 圖像,用綠色方塊表示;紅色方塊代表卷積核,靠近它的數字代表該卷積核的尺寸,左側的紅色方塊代表一個7*7的卷積核;特征圖則由陰影部分的長方體所示。
圖2 我們的網絡結構
▌實驗結果
實驗設置與細節
我們使用了雙三次插值來調整所有圖像的大小,調整后的圖片的較短邊像素值為512,以此確保所有圖像的大小一致性。基于原始數據集,我們以 3:1 的分離率來設置訓練集和測試集,并用 MPS 從每張訓練數據中裁剪出 200 張,以滿足局部到全局策略的需要并達到擴充訓練數據的目的。同樣地,從每張測試數據中裁剪出 30 張來作為測試集。在訓練時,我們采用128的批次大小,學習率設置為0.001,每 30k 次迭代學習率就除以10,直到迭代完 90k 次為止。此外,除了 60×60 和 30×30 圖像塊大小的正則化設置為 5e-5 和 1e-5 外,其余的正則化權重的默認值為 1e-4。
微調 CaffeNet 和卷積濾波器層的性能分析
微調后的 CaffeNet 的測試結果如下表 1 所示。我們可以看到,微調后網絡 (C-1 到 C-7) 的測試性能要優于從頭開始訓練的網絡 (C-S) 實驗結果,這可能是由于預訓練期間學習大量 NI 對模型的特征學習是有益的。而相比于傳統方法 (準確率最高80.65%),通過微調后,我們的網絡性能更佳,準確率更高。
表1 模型的分類精度,其中 C 表示 CaffeNet,”C-S” 表示從頭開始訓練網絡 CaffeNet,”C-N” 表示微調 CaffeNet 后的前 N 層網絡,N 從1到7。
此外,我們還對 ConvFilter 層進行了四種不同的配置: (1) 兩個級聯卷積層;(2) 刪除 convFilter 層;(3) convFilter 層之后接 ReLU 激活層;以及(4) convFilter 層中加入高通濾波器。下表2 顯示了這四種配置相對應的模型性能,其中使用兩個級聯卷積層時模型的準確率最高。
表2 四種不同配置下的 convFilter 的分類精度
不同尺寸圖像塊上的分類性能
下圖 3 展示了我們的方法與三種人工設計特征的方法在不同尺寸圖像塊上的分類精度。與其他三種方法相比較,我們的方法在任何圖像塊尺寸上的準確率都更高,且隨著圖像塊尺寸的縮小,網絡的分類準確率會降低。
圖3 我們的方法與三種人工設計特征的方法在不同尺寸圖像塊上的分類精度表現
后處理的魯棒性分析
有效的圖像識別算法不僅能處理原始數據,還應該在后處理數據中具有良好的魯棒性。本文的研究中,我們針對圖像縮放和 JPEG 壓縮這兩種典型的后處理進行魯棒性分析。下圖 4 展示了四種分類方法在五種后處理中的分類準確率表現 (實線部分)。可以看到,我們的模型對于后處理的數據具有更強的魯棒性。
圖4 不同分類方法在后處理數據上的分類精度表現
局部到全局策略的分析
進一步地,我們還分析了局部到全局策略在全尺寸圖像上的分類精度表現。如下表3所示,實驗結果表明在全尺寸圖像上的模型精度,比在圖像塊上的模型精度要高,并且采用圖像塊投票的方式獲得的全尺寸分類精度要高于直接在全尺寸上圖像得到的分類精度。而投票準確性對后處理操作的穩健性由上圖4中的虛線表示。
表3 局部到全局策略對六種方法的分類準確率的影響
▌可視化
在計算機視覺任務中,CNN 的訓練普遍存在一種現象:即模型在第一層學習的卷積核類似于 Gabor 濾波器和 color blobs。我們在下圖 5 展示了模型的卷積可視化結果,其中 (a) 表示我們模型的第一層卷積核的傅里葉變換 (FFT) 結果, (b) 表示預訓練的 CaffeNet 的結果,(c) 是對應于 CaffeNet 中第一層的前96個卷積核的可視化結果,而 (d) 則對應于最后的96個結果。濾波器根據三個顏色通道 B,G 和 R 被分為3個組,而像素越亮則代表所對應的B,G,R的值越高。
圖 5 卷積可視化結果
▌結論
本文,我們提出了一種基于 CNN 的通用框架來區別自然圖像 NIs 與計算機生成圖像 CG 之間的差異,這種方法不僅能夠在 Google 和 PRCG 的數據集中進行測試,而在后處理時也表現出較好的魯棒性。這些優點對于現實生活中的圖像識別任務是非常有效且重要的。
未來的工作中,我們將嘗試通過引入語義級別的 CNN 集成模型來進一步改進我們的模型性能。此外,我們還將擴展我們的方法,并應用于視頻數據的差異性探索。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100715 -
圖像
+關注
關注
2文章
1083瀏覽量
40449 -
cnn
+關注
關注
3文章
352瀏覽量
22203
原文標題:學術 | 一種新的CNN網絡可以更高效地區分自然圖像&生成圖像
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論