四虎网站最新地址,在线观看男女,婷婷91

為了解決視覺模型依賴有監督預訓練、難以遷移的問題，Facebook何愷明等多名研究者發表了一項獨特的遷移學習研究，無需數據清洗和手工標記數據，通過訓練大型卷積網絡可以預測數十億社交媒體圖像的hashtag，在圖像分類和目標檢測任務上都得到了迄今最高的精度。

用于各種任務的最先進的視覺感知模型都依賴于有監督的預訓練。ImageNet分類實際上是這些模型的預訓練任務。然而，ImageNet現在已有近十年的歷史，并且按現代標準而言，它的規模相當“小”。

即便如此，對于要用多個數量級更大的數據集進行預訓練的行為，我們所知甚少。原因很明顯：這些數據集很難收集，也很難注釋。

為了解決這個問題，來自Facebook的包括何愷明在內的多名研究者發表了一項獨特的遷移學習研究，通過訓練大型卷積網絡，可以預測數十億社交媒體圖像的hashtag。

這一研究再次引起熱議，吳恩達也在推特上盛贊：

“當你在前所未有的35億張（真的很大！）有標記圖像上訓練，然后遷移到新的任務，神經網絡的預訓練能不斷改進。在我看來，我們還遠遠沒有接近預訓練/遷移學習的極限。”

該研究的實驗表明，對大規模 hashtag 預測進行訓練可以得到很好的結果。研究展示了幾項在圖像分類和目標檢測任務上的改進，并報告了迄今為止最高的ImageNet-1k single-crop，top-1 精度：85.4％（top-5 精度是97.6％）。大量實驗還提供了關于大規模預訓練和遷移學習效果之間關系的新的經驗數據。

無需數據清洗和人工標記，得到優異遷移性能

幾乎所有最先進的視覺感知算法都依賴于同一個方案：（1）在一個大型、手動注釋的圖像分類數據集上預訓練卷積網絡；（2）在一個較小的、特定于任務的數據集上微調網絡。這個方案已經廣泛使用多年，并在許多任務上取得了令人印象深刻的改進，包括物體檢測、語義分割、人體姿勢估計、視頻識別、單目深度估計等。事實上，它是如此有效，以至于現在不使用有監督的預訓練被認為是蠻干。

ImageNet數據集實際上是一個預訓練數據集。雖然有研究分析了各種ImageNet預訓練因素對遷移學習的影響，或使用與ImageNet規模一致的其他數據集，但對于在大幾個數量級的數據集上進行預訓練的了解相對較少。

原因有很多：這樣大的數據集很少，因為構建新的數據集需要大量人力，并且需要大量的計算資源來進行實驗。然而，鑒于預訓練的核心作用，擴展在這一領域的科學了解非常重要。

本文試圖通過研究一個未被探索的數據體系來解決這個復雜的問題：數十億張帶有社交媒體“標簽”（hashtags）的真實圖片。這個數據源的優點是：它很大，并且在不斷增長，以及從注釋角度來說它是“免費”的，因為不需要手動標記。但是，這個數據源也有潛在的缺點：hashtag可能噪音太多而不能用作有效的監督信號，并且圖像分布可能存在偏差，從而損害遷移學習。因此，在這些數據上進行訓練不一定能產生良好的遷移學習結果。

本研究的主要結果是，在沒有人工數據集管理或復雜的數據清洗的情況下，使用數千個不同的hashtag作為標簽，在數十億Instagram圖像上訓練的模型表現出了優異的遷移學習性能。例如，我們觀察到在圖像分類和物體檢測任務上相比state-of-the-art的技術有所改進，我們在ImageNet-1k圖像分類數據集 single-crop，top-1的準確率為85.4%，相比此前最優的79.8%要高；在COCO物體檢測數據集獲得45.2% AP，高于此前最優的43.7%。

但是，我們的主要目標是提供關于這個先前未被探索的體系的新實驗數據。為此，我們進行了大量實驗，揭示出一些有趣的趨勢。例如，我們發現“hashtag engineering”（即收集以特定hashtag子集標記的圖像）是改善遷移學習結果的一個有前景的新方向。在大規模hashtag數據上訓練對label noise意外的robust，所學的特征允許簡單的線性分類器實現最優的ImageNet-1k top-1 準確率，即83.6％，沒有任何微調（微調的情況下達到84.2％）。

擴大有監督預訓練

在實驗中，我們訓練了標準的卷積網絡架構來預測多達35億張Instagram公開圖像的hashtag。

Instagram 數據集

表1：用于圖像分類任務的數據集

ImageNet 數據集

除了標準IN-1k數據集之外，我們還嘗試了完整ImageNet 2011版本的更大子集，包含14.2M圖像和22k標簽。我們構建包含5k和9k標簽的訓練集和驗證集。在所有情況下，每個類都使用50張圖像進行驗證。

模型

我們使用具有分組卷積層的殘差網絡ResNeXt[15]，實驗使用ResNeXt-101 32×Cd，它有101層，32組，組寬為C。

實驗和結果

在實驗中，我們預訓練了卷積網絡來進行標簽預測，然后將這些網絡遷移到各種任務中。

圖像分類實驗

我們通過三個分類目標任務（ImageNet [30]， CUB2011 [21]， Places365[14]）的分類精度來評估Instagram預處理。我們對224×224中心裁剪的圖像進行推理，并研究（1） hashtag詞匯量大小,（2）訓練集大小,（3） hashtag 目標中的噪聲的數量，以及（4） hashtag的采樣策略對結果的影響。

1、Instagram hashtag集對準確度的影響如何？

圖1顯示，對hashtag預測進行預訓練可以顯著提高目標任務的準確性：在標準的IN-1k基準測試集中，一個在約1B、具有1.5k標簽的Instagram圖像集上預訓練的網絡，最高精度達到84.2％——與僅使用IN-1k訓練的相同模型架構相比，提高了4.6％；與使用優化網絡架構的先前技術相比，提高了1.5％。

圖1：用 IG-1B 數據集訓練ResNeXt-101 的分類精度，包含不同詞匯量大小的hashtag（紫色條）。灰色條表示基線模型。

Instagram預訓練得到的性能改進因ImageNet任務而異。在CUB2011和Places365目標任務中，使用最大 hashtag 集訓練的源模型可能表現最佳，因為17k hashtags跨越了更多對象、場景和細粒度類別。這些模式非常直觀，表明源標簽集和目標標簽集之間的對齊是一個重要因素。

我們還使用具有17k hashtags（深紫色條）的更大的3.5B圖像集，結果如圖1所示。它在所有目標任務中都表現最佳。雖然IN-1M-1k模型在val-IN-1k上獲得了87.5％的rectified top-1 精度，但我們的IG-3.5B-17k預訓練模型精度達到了90.4％。

2、預訓練圖像集大小對準確度的影響如何？

圖2：在IN- {1k，5k，9k}和CUB2011的分類精度。橫軸表示源任務的訓練圖像數量。

圖2顯示了ImageNet驗證集的分類精度（y軸），它是Instagram訓練圖像數量（x軸）的函數，數量范圍從3.5M到3.5B。該圖顯示了預訓練的模型的結果，用于預測具有三種不同容量（由不同顏色表示）的ResNeXt-101模型的1.5k標簽（虛線）或17k標簽（實線）。

3、hashtag標簽的噪聲對模型精度有什么影響？

圖3：在IG-1B-17k上預訓練的ResNeXt-101 32×16d的分類精度

圖3的結果表明，網絡對標簽噪聲具有顯著的彈性：p = 10％的噪聲水平導致分類精度損失小于1％，而標簽噪聲p = 25％，精度降低約2％。這些結果表明，如果在數十億圖像上訓練網絡，標簽噪聲可能問題不大。

4、預訓練數據的采樣如何影響準確性？

圖4：ResInXt-101 32×4d的分類精度，在IG-1B-17k上預訓練，在val-IN- {1k，5k，9k}上用三種不同的標簽采樣策略：自然采樣，均勻采樣和平方根采樣。

結果表明重新采樣標簽分布對于獲得良好的ImageNet圖像分類結果非常重要：使用均勻采樣或平方根采樣可以提高5到6％的準確度，無論ImageNet類的數量是多少。該圖還表明，隨著目標類數量的增長，更大的hashtag詞匯量可以提高準確度。

探索監督預訓練的極限

我們試圖探索監督預訓練（supervised pretraining）的極限。除了在ImageNet-1k基準任務（85.4％single-crop， top-1 精度; 97.6％single-crop， top-5 精度）和其他幾項視覺任務上產生最先進的結果，我們的研究還得到四個重要的觀察：

1、我們的結果表明，雖然增加預訓練數據集的大小是值得的，但為源任務選擇標簽空間以匹配目標任務的標簽空間至少同等重要。我們發現，在設計用于匹配ImageNet-1k數據集中類的標簽詞匯表上訓練的網絡優于那些訓練了兩倍數量的圖像、而沒有仔細選擇hashtag標簽的網絡（圖2左上）。

這一發現為“label-space engineering”方法的設計鋪平了道路，該方法旨在為特定目標任務選擇最佳的（弱監督）標簽集。這種標簽空間工程可能比進一步增加訓練模型的數據規模更有成效。

2、與先前的工作[16,17]一致，我們觀察到在訓練數十億圖像時，當前的網絡架構是欠擬合（underfitting）的。雖然這種underfitting的確導致對hashtag的噪聲具有很高的魯棒性，但我們的結果表明，通過進一步提高網絡容量可以提高目標任務準確性。例如，通過增加現有架構的層數和每層的過濾器數量，或者通過專家混合（使用跨GPU的模型并行化），可以增加容量。

3、實驗結果還強調了在基準測試任務中更多地考慮視覺多樣性的重要性。結果表明，如果在具有更大視覺變化的任務上評估這些特征，則視覺特征質量的差異變得更加明顯。例如，我們發現使用兩個不同詞匯表預訓練的模型之間的準確度差異隨著目標類數量的增加而增加。我們相信對更多ImageNet類進行評估有助于更全面地評估視覺識別模型。

4、將模型轉換為目標檢測、實例分割和關鍵點檢測任務的結果表明，大規模標簽預測的訓練可以改善分類，同時可能會損害定位（localization）的性能。這為改進大規模、弱監督的預訓練任務，以更好地適應目標任務（如檢測、姿態估計等）的定位需求開辟了新的方向。

最后，我們反思了一個值得注意的事實，即hashtag prediction的訓練根本不需要額外的手動注釋或數據清理。我們認為，與傳統的人工設計和注釋數據集的方法相比，我們的研究表明了自然數據或“wild”數據的潛力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像分類

圖像分類

+關注

關注
0

文章
90

瀏覽量
11931
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24723

原文標題：何愷明等新作：用35億社交網絡圖片訓練AI算法，吳恩達推薦

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

【PYNQ-Z2申請】基于PYNQ的卷積神經網絡加速

項目名稱：基于PYNQ的卷積神經網絡加速試用計劃：申請理由：本人研究生在讀，想要利用PYNQ深入探索卷積神經網絡的硬件加速，在PYNQ上實現圖像

發表于 12-19 11:37

基于賽靈思FPGA的卷積神經網絡實現設計

學習已經在圖像識別和語音識別等任務中取得巨大成功。深度學習技術使用大量已知數據找到一組權重和偏差值，以匹配預期結果。這個過程被稱為訓練，并會產生大型模式。這激勵工程師傾向于利用專用硬件（例如 GPU

發表于 06-19 07:24

卷積神經網絡為什么適合圖像處理？

卷積神經網絡為什么適合圖像處理？

發表于 09-08 10:23

卷積神經網絡簡介：什么是機器學習？

復雜數據中提取特征的強大工具。例如，這包括音頻信號或圖像中的復雜模式識別。本文討論了 CNN 相對于經典線性規劃的優勢。后續文章“訓練卷積神經網絡：什么是機器學習？——第2部分”將討論

發表于 02-23 20:11

通過簡單的「圖像旋轉」預測便可為圖像特征學習提供強大監督信號

我們的研究遵循自監督范例，并提出，通過訓練卷積神經網絡（ConvNets）識別應用于其作為輸入的圖像的幾何變換，從而學習圖像表示。更具體地說

發表于 03-26 13:40 ?4259次閱讀

面向社交媒體的高質量文章內容識別模型

如何從海量多媒體文章中自動識別高質量內容是信息推薦、搜索引擎等系統的核心功能之一。現有的方法在訓練中依賴大量的人工標注數據。針對其未考慮社交媒體中的

發表于 05-11 11:09 ?11次下載

訓練卷積神經網絡通過繪畫3D地形識別畫家

的 research 通過訓練卷積神經網絡，根據繪畫的 3D 地形來學習和識別畫家。這項工作可以幫助歷史學家和藝術專家區分合作作品中的藝術家，并找到偽造的作品。

發表于 04-07 17:06 ?1148次閱讀

python卷積神經網絡cnn的訓練算法

python卷積神經網絡cnn的訓練算法? 卷積神經網絡（Convolutional Neural Network，CNN）一直是深度學習領

發表于 08-21 16:41 ?1701次閱讀

卷積神經網絡模型訓練步驟

模型訓練是將模型結構和模型參數相結合，通過樣本數據的學習訓練模型，使得模型可以對新的樣本數據進行準確的預測和分類。本文將詳細介紹 CNN

發表于 08-21 16:42 ?1734次閱讀

卷積神經網絡如何識別圖像

多層卷積層、池化層和全連接層。CNN模型通過訓練識別并學習高度復雜的圖像模式，對于識別物體和進行圖像分類等任務有著非常優越的表現。本文將會詳細介紹卷

發表于 08-21 16:49 ?1945次閱讀

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網絡模型

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網

發表于 08-21 17:11 ?1253次閱讀

卷積神經網絡的基本原理、結構及訓練過程

、訓練過程以及應用場景。一、卷積神經網絡的基本原理卷積運算卷積運算是卷積神經

發表于 07-02 14:21 ?2661次閱讀

卷積神經網絡在圖像識別中的應用

卷積操作卷積神經網絡的核心是卷積操作。卷積操作是一種數學運算，用于提取圖像中的局部特征。在

發表于 07-02 14:28 ?1165次閱讀

卷積神經網絡訓練的是什么

、訓練過程以及應用場景。 1. 卷積神經網絡的基本概念 1.1 卷積神經網絡的定義卷積神經

發表于 07-03 09:15 ?426次閱讀

卷積神經網絡可以通過輸出反推到輸入嗎

卷積神經網絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。CNN通過

發表于 07-03 09:17 ?686次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

通過訓練大型卷積網絡，可以預測數十億社交媒體圖像的hashtag

評論

【PYNQ-Z2申請】基于PYNQ的卷積神經網絡加速

基于賽靈思FPGA的卷積神經網絡實現設計

卷積神經網絡為什么適合圖像處理？

卷積神經網絡簡介：什么是機器學習？

通過簡單的「圖像旋轉」預測便可為圖像特征學習提供強大監督信號

面向社交媒體的高質量文章內容識別模型

訓練卷積神經網絡通過繪畫3D地形識別畫家

python卷積神經網絡cnn的訓練算法

卷積神經網絡模型訓練步驟

卷積神經網絡如何識別圖像

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網絡模型

卷積神經網絡的基本原理、結構及訓練過程

卷積神經網絡在圖像識別中的應用

卷積神經網絡訓練的是什么

卷積神經網絡可以通過輸出反推到輸入嗎