為了解決視覺模型依賴有監督預訓練、難以遷移的問題,Facebook何愷明等多名研究者發表了一項獨特的遷移學習研究,無需數據清洗和手工標記數據,通過訓練大型卷積網絡可以預測數十億社交媒體圖像的hashtag,在圖像分類和目標檢測任務上都得到了迄今最高的精度。
用于各種任務的最先進的視覺感知模型都依賴于有監督的預訓練。ImageNet分類實際上是這些模型的預訓練任務。然而,ImageNet現在已有近十年的歷史,并且按現代標準而言,它的規模相當“小”。
即便如此,對于要用多個數量級更大的數據集進行預訓練的行為,我們所知甚少。原因很明顯:這些數據集很難收集,也很難注釋。
為了解決這個問題,來自Facebook的包括何愷明在內的多名研究者發表了一項獨特的遷移學習研究,通過訓練大型卷積網絡,可以預測數十億社交媒體圖像的hashtag。
這一研究再次引起熱議,吳恩達也在推特上盛贊:
“當你在前所未有的35億張(真的很大!)有標記圖像上訓練,然后遷移到新的任務,神經網絡的預訓練能不斷改進。在我看來,我們還遠遠沒有接近預訓練/遷移學習的極限。”
該研究的實驗表明,對大規模 hashtag 預測進行訓練可以得到很好的結果。研究展示了幾項在圖像分類和目標檢測任務上的改進,并報告了迄今為止最高的ImageNet-1k single-crop,top-1 精度:85.4%(top-5 精度是97.6%)。大量實驗還提供了關于大規模預訓練和遷移學習效果之間關系的新的經驗數據。
無需數據清洗和人工標記,得到優異遷移性能
幾乎所有最先進的視覺感知算法都依賴于同一個方案:(1)在一個大型、手動注釋的圖像分類數據集上預訓練卷積網絡;(2)在一個較小的、特定于任務的數據集上微調網絡。這個方案已經廣泛使用多年,并在許多任務上取得了令人印象深刻的改進,包括物體檢測、語義分割、人體姿勢估計、視頻識別、單目深度估計等。事實上,它是如此有效,以至于現在不使用有監督的預訓練被認為是蠻干。
ImageNet數據集實際上是一個預訓練數據集。雖然有研究分析了各種ImageNet預訓練因素對遷移學習的影響,或使用與ImageNet規模一致的其他數據集,但對于在大幾個數量級的數據集上進行預訓練的了解相對較少。
原因有很多:這樣大的數據集很少,因為構建新的數據集需要大量人力,并且需要大量的計算資源來進行實驗。然而,鑒于預訓練的核心作用,擴展在這一領域的科學了解非常重要。
本文試圖通過研究一個未被探索的數據體系來解決這個復雜的問題:數十億張帶有社交媒體“標簽”(hashtags)的真實圖片。這個數據源的優點是:它很大,并且在不斷增長,以及從注釋角度來說它是“免費”的,因為不需要手動標記。但是,這個數據源也有潛在的缺點:hashtag可能噪音太多而不能用作有效的監督信號,并且圖像分布可能存在偏差,從而損害遷移學習。因此,在這些數據上進行訓練不一定能產生良好的遷移學習結果。
本研究的主要結果是,在沒有人工數據集管理或復雜的數據清洗的情況下,使用數千個不同的hashtag作為標簽,在數十億Instagram圖像上訓練的模型表現出了優異的遷移學習性能。例如,我們觀察到在圖像分類和物體檢測任務上相比state-of-the-art的技術有所改進,我們在ImageNet-1k圖像分類數據集 single-crop,top-1的準確率為85.4%,相比此前最優的79.8%要高;在COCO物體檢測數據集獲得45.2% AP,高于此前最優的43.7%。
但是,我們的主要目標是提供關于這個先前未被探索的體系的新實驗數據。為此,我們進行了大量實驗,揭示出一些有趣的趨勢。例如,我們發現“hashtag engineering”(即收集以特定hashtag子集標記的圖像)是改善遷移學習結果的一個有前景的新方向。在大規模hashtag數據上訓練對label noise意外的robust,所學的特征允許簡單的線性分類器實現最優的ImageNet-1k top-1 準確率,即83.6%,沒有任何微調(微調的情況下達到84.2%)。
擴大有監督預訓練
在實驗中,我們訓練了標準的卷積網絡架構來預測多達35億張Instagram公開圖像的hashtag。
Instagram 數據集
表1:用于圖像分類任務的數據集
ImageNet 數據集
除了標準IN-1k數據集之外,我們還嘗試了完整ImageNet 2011版本的更大子集,包含14.2M圖像和22k標簽。我們構建包含5k和9k標簽的訓練集和驗證集。在所有情況下,每個類都使用50張圖像進行驗證。
模型
我們使用具有分組卷積層的殘差網絡ResNeXt[15],實驗使用ResNeXt-101 32×Cd,它有101層,32組,組寬為C。
實驗和結果
在實驗中,我們預訓練了卷積網絡來進行標簽預測,然后將這些網絡遷移到各種任務中。
圖像分類實驗
我們通過三個分類目標任務(ImageNet [30], CUB2011 [21], Places365[14])的分類精度來評估Instagram預處理。我們對224×224中心裁剪的圖像進行推理,并研究(1) hashtag詞匯量大小,(2)訓練集大小,(3) hashtag 目標中的噪聲的數量,以及(4) hashtag的采樣策略對結果的影響。
1、Instagram hashtag集對準確度的影響如何?
圖1顯示,對hashtag預測進行預訓練可以顯著提高目標任務的準確性:在標準的IN-1k基準測試集中,一個在約1B、具有1.5k標簽的Instagram圖像集上預訓練的網絡,最高精度達到84.2%——與僅使用IN-1k訓練的相同模型架構相比,提高了4.6%;與使用優化網絡架構的先前技術相比,提高了1.5%。
圖1:用 IG-1B 數據集訓練ResNeXt-101 的分類精度,包含不同詞匯量大小的hashtag(紫色條)。灰色條表示基線模型。
Instagram預訓練得到的性能改進因ImageNet任務而異。在CUB2011和Places365目標任務中,使用最大 hashtag 集訓練的源模型可能表現最佳,因為17k hashtags跨越了更多對象、場景和細粒度類別。這些模式非常直觀,表明源標簽集和目標標簽集之間的對齊是一個重要因素。
我們還使用具有17k hashtags(深紫色條)的更大的3.5B圖像集,結果如圖1所示。它在所有目標任務中都表現最佳。雖然IN-1M-1k模型在val-IN-1k上獲得了87.5%的rectified top-1 精度,但我們的IG-3.5B-17k預訓練模型精度達到了90.4%。
2、預訓練圖像集大小對準確度的影響如何?
圖2:在IN- {1k,5k,9k}和CUB2011的分類精度。橫軸表示源任務的訓練圖像數量。
圖2顯示了ImageNet驗證集的分類精度(y軸),它是Instagram訓練圖像數量(x軸)的函數,數量范圍從3.5M到3.5B。該圖顯示了預訓練的模型的結果,用于預測具有三種不同容量(由不同顏色表示)的ResNeXt-101模型的1.5k標簽(虛線)或17k標簽(實線)。
3、hashtag標簽的噪聲對模型精度有什么影響?
圖3:在IG-1B-17k上預訓練的ResNeXt-101 32×16d的分類精度
圖3的結果表明,網絡對標簽噪聲具有顯著的彈性:p = 10%的噪聲水平導致分類精度損失小于1%,而標簽噪聲p = 25%,精度降低約2%。這些結果表明,如果在數十億圖像上訓練網絡,標簽噪聲可能問題不大。
4、預訓練數據的采樣如何影響準確性?
圖4:ResInXt-101 32×4d的分類精度,在IG-1B-17k上預訓練,在val-IN- {1k,5k,9k}上用三種不同的標簽采樣策略:自然采樣,均勻采樣和平方根采樣。
結果表明重新采樣標簽分布對于獲得良好的ImageNet圖像分類結果非常重要:使用均勻采樣或平方根采樣可以提高5到6%的準確度,無論ImageNet類的數量是多少。該圖還表明,隨著目標類數量的增長,更大的hashtag詞匯量可以提高準確度。
探索監督預訓練的極限
我們試圖探索監督預訓練(supervised pretraining)的極限。除了在ImageNet-1k基準任務(85.4%single-crop, top-1 精度; 97.6%single-crop, top-5 精度)和其他幾項視覺任務上產生最先進的結果,我們的研究還得到四個重要的觀察:
1、我們的結果表明,雖然增加預訓練數據集的大小是值得的,但為源任務選擇標簽空間以匹配目標任務的標簽空間至少同等重要。我們發現,在設計用于匹配ImageNet-1k數據集中類的標簽詞匯表上訓練的網絡優于那些訓練了兩倍數量的圖像、而沒有仔細選擇hashtag標簽的網絡(圖2左上)。
這一發現為“label-space engineering”方法的設計鋪平了道路,該方法旨在為特定目標任務選擇最佳的(弱監督)標簽集。這種標簽空間工程可能比進一步增加訓練模型的數據規模更有成效。
2、與先前的工作[16,17]一致,我們觀察到在訓練數十億圖像時,當前的網絡架構是欠擬合(underfitting)的。雖然這種underfitting的確導致對hashtag的噪聲具有很高的魯棒性,但我們的結果表明,通過進一步提高網絡容量可以提高目標任務準確性。例如,通過增加現有架構的層數和每層的過濾器數量,或者通過專家混合(使用跨GPU的模型并行化),可以增加容量。
3、實驗結果還強調了在基準測試任務中更多地考慮視覺多樣性的重要性。結果表明,如果在具有更大視覺變化的任務上評估這些特征,則視覺特征質量的差異變得更加明顯。 例如,我們發現使用兩個不同詞匯表預訓練的模型之間的準確度差異隨著目標類數量的增加而增加。 我們相信對更多ImageNet類進行評估有助于更全面地評估視覺識別模型。
4、將模型轉換為目標檢測、實例分割和關鍵點檢測任務的結果表明,大規模標簽預測的訓練可以改善分類,同時可能會損害定位(localization)的性能。這為改進大規模、弱監督的預訓練任務,以更好地適應目標任務(如檢測、姿態估計等)的定位需求開辟了新的方向。
最后,我們反思了一個值得注意的事實,即hashtag prediction的訓練根本不需要額外的手動注釋或數據清理。我們認為,與傳統的人工設計和注釋數據集的方法相比,我們的研究表明了自然數據或“wild”數據的潛力。
-
圖像分類
+關注
關注
0文章
90瀏覽量
11931 -
數據集
+關注
關注
4文章
1208瀏覽量
24723
原文標題:何愷明等新作:用35億社交網絡圖片訓練AI算法,吳恩達推薦
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論