1、什么是池化?
我們之所以使用卷積后的特征,是因為圖像具有“靜態(tài)型”的屬性,也就意味著在一個圖像區(qū)域的特征極有可能在另一個區(qū)域同樣適用。所以,當我們描述一個大的圖像的時候就可以對不同位置的特征進行聚合統(tǒng)計(例如:可以計算圖像一個區(qū)域上的某個特定特征的平均值 or 最大值)這種統(tǒng)計方式不僅可以降低緯度,還不容易過擬合。這種聚合統(tǒng)計的操作就稱之為池化,或平均池化、最大池化。
2、池化的作用?
(1)保留主要特征的同時減少參數(shù)(降低緯度,類似PCA)和計算量,防止過擬合
在通過卷積獲得了特征 (features) 之后,下一步用這些特征去做分類。我們可以用所有提取到的特征去訓練分類器,但是這樣計算成本比較高。例如softmax分類器,例如:對于一個 96X96 像素的圖像,假設我們已經(jīng)學習得到了400個定義在8X8輸入上的特征,每一個特征和圖像卷積都會得到一個(96 ? 8 + 1) * (96 ? 8 + 1) = 7921維的卷積特征,由于有 400 個特征,所以每個樣例 (example) 都會得到一個892* 400 = 3,168,400維的卷積特征向量。學習一個擁有超過 3 百萬特征輸入的分類器十分不便,并且容易出現(xiàn)過擬合 (over-fitting)。
(2)invariance(不變性),這種不變性包括translation(平移),rotation(旋轉(zhuǎn)),scale(尺度)
a、 translation invariance:
這里舉一個直觀的例子(數(shù)字識別),假設有一個16x16的圖片,里面有個數(shù)字1,我們需要識別出來,這個數(shù)字1可能寫的偏左一點(圖1),這個數(shù)字1可能偏右一點(圖2),圖1到圖2相當于向右平移了一個單位,但是圖1和圖2經(jīng)過max pooling之后它們都變成了相同的8x8特征矩陣,主要的特征我們捕獲到了,同時又將問題的規(guī)模從16x16降到了8x8,而且具有平移不變性的特點。圖中的a(或b)表示,在原始圖片中的這些a(或b)位置,最終都會映射到相同的位置。
b、rotation invariance:
下圖表示漢字“一”的識別,第一張相對于x軸有傾斜角,第二張是平行于x軸,兩張圖片相當于做了旋轉(zhuǎn),經(jīng)過多次max pooling后具有相同的特征
c、 scale invariance:
下圖表示數(shù)字“0”的識別,第一張的“0”比較大,第二張的“0”進行了較小,相當于作了縮放,同樣地,經(jīng)過多次max pooling后具有相同的特征
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13196 -
cnn
+關(guān)注
關(guān)注
3文章
352瀏覽量
22237
發(fā)布評論請先 登錄
相關(guān)推薦
評論