計算機視覺中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法正在針對某些特定問題取得最新成果。
在最基本的問題上,最有趣的不僅僅是深度學習模型的表現;事實上,單個模型可以從圖像中學習意義并執行視覺任務,從而無需使用專門的手工制作方法。
在這篇文章中,您將發現九個有趣的計算機視覺任務,其中深度學習方法取得了一些進展。
讓我們開始吧。
概觀
在這篇文章中,我們將研究以下使用深度學習的計算機視覺問題:
圖像分類
具有本地化的圖像分類
物體檢測
對象分割
圖像樣式轉移
圖像著色
影像重建
圖像超分辨率
圖像合成
其他問題
注意,當涉及圖像分類(識別)任務時,已采用ILSVRC的命名約定。雖然任務集中在圖像上,但它們可以推廣到視頻幀。
我試圖關注您可能感興趣的最終用戶問題的類型,而不是深度學習能夠做得更好的學術問題。
每個示例都提供了問題的描述,示例以及對演示方法和結果的論文的引用。
圖像分類
圖像分類涉及為整個圖像或照片分配標簽。
該問題也被稱為“對象分類”,并且可能更一般地稱為“圖像識別”,盡管后一任務可以應用于與分類圖像內容相關的更廣泛的任務集。
圖像分類的一些示例包括:
1、將X射線標記為癌癥與否(二元分類)。
2、對手寫數字進行分類(多類分類)。
3、為臉部照片指定名稱(多類別分類)。
用作基準問題的圖像分類的流行示例是MNIST數據集。
分類數字照片的流行真實版本是街景房號(SVHN)數據集。
有許多圖像分類任務涉及對象的照片。兩個流行的例子包括CIFAR-10和CIFAR-100數據集,這些數據集的照片分別分為10類和100類。
大規模視覺識別挑戰賽(ILSVRC)是一項年度競賽,其中團隊在從ImageNet數據庫中提取的數據上競爭一系列計算機視覺任務的最佳性能。圖像分類方面的許多重要進步來自于發布在該挑戰或來自該挑戰的任務的論文,最值得注意的是關于圖像分類任務的早期論文。例如:
使用深度卷積神經網絡的ImageNet分類,2012。
用于大規模圖像識別的非常深的卷積網絡,2014。
圍繞卷積更深入,2015年。
圖像識別的深度殘留學習,2015年。
具有本地化的圖像分類
具有本地化的圖像分類涉及為圖像分配類標簽并通過邊界框(在對象周圍繪制框)來顯示圖像中對象的位置。
這是一個更具挑戰性的圖像分類版本。
本地化圖像分類的一些示例包括:
1.將X射線標記為癌癥或在癌癥區域周圍畫一個盒子。
2.在每個場景中對動物的照片進行分類并在動物周圍畫一個盒子。
用于具有定位的圖像分類的經典數據集是PASCAL視覺對象類數據集,或簡稱為PASCAL VOC(例如VOC 2012)。這些是多年來在計算機視覺挑戰中使用的數據集。
該任務可以涉及在圖像中的同一對象的多個示例周圍添加邊界框。因此,該任務有時可稱為“對象檢測”。
用于本地化圖像分類的ILSVRC2016數據集是一個流行的數據集,包含150,000張照片和1000種對象。
關于本地化圖像分類的論文的一些例子包括:
選擇性搜索對象識別,2013年。
用于精確對象檢測和語義分割的豐富特征層次結構,2014年。
快速R-CNN,2015年。
物體檢測
物體檢測是具有定位的圖像分類的任務,盡管圖像可能包含需要定位和分類的多個對象。
與簡單的圖像分類或具有定位的圖像分類相比,這是一項更具挑戰性的任務,因為在不同類型的圖像中通常存在多個對象。
通常,使用并展示用于具有定位的圖像分類的技術用于對象檢測。
對象檢測的一些示例包括:
繪制邊界框并標記街道場景中的每個對象。
繪制邊界框并在室內照片中標記每個對象。
繪制邊界框并在橫向中標記每個對象。
PASCAL Visual Object Classes數據集或簡稱PASCAL VOC(例如VOC 2012)是用于對象檢測的常見數據集。
用于多個計算機視覺任務的另一個數據集是Microsoft的上下文數據集中的公共對象,通常稱為MS COCO。
關于物體檢測的論文的一些例子包括:
OverFeat:使用卷積網絡的集成識別,本地化和檢測,2014年。
更快的R-CNN:利用區域提案網絡實現實時目標檢測,2015年。
您只看一次:統一,實時對象檢測,2015年。
對象分割
對象分割或語義分割是對象檢測的任務,其中在圖像中檢測到的每個對象周圍繪制線。圖像分割是將圖像分成段的更普遍的問題。
對象檢測有時也稱為對象分割。
與涉及使用邊界框來識別對象的對象檢測不同,對象分割識別圖像中屬于對象的特定像素。這就像一個細粒度的本地化。
更一般地,“圖像分割”可以指將圖像中的所有像素分割成不同類別的對象。
同樣,VOC 2012和MS COCO數據集可用于對象分割。
KITTI Vision Benchmark Suite是另一種流行的對象分割數據集,提供用于自動駕駛車輛訓練模型的街道圖像。
關于對象分割的一些示例論文包括:
同步檢測和分割,2014年。
用于語義分割的完全卷積網絡,2015。
用于對象分割和細粒度本地化的超級列,2015。
SegNet:用于圖像分割的深度卷積編碼器 - 解碼器架構,2016。
Mask R-CNN,2017年。
風格轉移
風格轉移或神經風格轉移是從一個或多個圖像學習風格并將該風格應用于新圖像的任務。
該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。
例子包括將特定著名藝術品(例如Pablo Picasso或Vincent van Gogh)的風格應用于新照片。
數據集通常涉及使用公共領域的著名藝術作品和標準計算機視覺數據集中的照片。
一些論文包括:
藝術風格的神經算法,2015。
使用卷積神經網絡的圖像樣式轉移,2016。
圖像著色
圖像著色或神經著色涉及將灰度圖像轉換為全色圖像。
該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。
例子包括著色舊的黑白照片和電影。
數據集通常涉及使用現有的照片數據集并創建模型必須學習著色的照片的灰度版本。
一些論文包括:
彩色圖像著色,2016年。
讓我們有顏色:全球和本地圖像的聯合端到端學習,用于同步分類的自動圖像著色,2016。
深色著色,2016。
影像重建
圖像重建和圖像修復是填充圖像的缺失或損壞部分的任務。
該任務可以被認為是一種可能沒有客觀評價的照片濾波器或變換。
示例包括重建舊的,損壞的黑白照片和電影(例如照片恢復)。
數據集通常涉及使用現有的照片數據集并創建模型必須學會修復的損壞版本的照片。
一些論文包括:
像素回歸神經網絡,2016年。
使用部分卷積的圖像修復不規則孔,2018年。
使用具有帶通濾波的深度神經網絡進行高度可擴展的圖像重建,2018年。
圖像超分辨率
圖像超分辨率是生成具有比原始圖像更高分辨率和細節的圖像的新版本的任務。
通常為圖像超分辨率開發的模型可用于圖像恢復和修復,因為它們解決了相關問題。
數據集通常涉及使用現有的照片數據集并創建縮小版照片,模型必須學會創建超分辨率版本。
一些論文包括:
使用生成對抗網絡的照片真實單圖像超分辨率,2017。
深拉普拉斯金字塔網絡,快速準確的超分辨率,2017。
Deep Image Prior,2017。
圖像合成
圖像合成是生成現有圖像或全新圖像的目標修改的任務。
這是一個非常廣泛的領域,正在迅速發展。
它可能包括圖像和視頻的小修改(例如圖像到圖像的翻譯),例如:
更改場景中對象的樣式。
將對象添加到場景中。
將面添加到場景中。
它還可能包括生成全新的圖像,例如:
1、生成面孔。
2、生成浴室。
3、生成衣服。
一些論文包括:
用深度卷積生成對抗網絡學習無監督表示,2015。
使用PixelCNN解碼器生成條件圖像,2016。
使用周期一致的對抗網絡進行不成對的圖像到圖像轉換,2017。
其他問題
還有其他重要且有趣的問題我沒有涉及,因為它們不是純粹的計算機視覺任務。
值得注意的例子是圖像到文本和文本到圖像:
1、圖像字幕:生成圖像的文本描述。
Show and Tell:神經圖像標題生成器,2014。
2、圖像描述:生成圖像中每個對象的文本描述。
用于生成圖像描述的深層視覺語義對齊,2015。
3、文本到圖像:基于文本描述合成圖像。
AttnGAN:使用注意生成對抗網絡生成細粒度文本到圖像,2017。
據推測,人們學會在其他模態和圖像之間進行映射,例如音頻。
總結
在這篇文章中,您發現了九種深度學習應用于計算機視覺任務。
編輯:黃飛
?
評論
查看更多