如何優化深度學習模型?

【導讀】大家好，我是泳魚。本文匯總了深度學習煉丹的常見技巧，如超參數學習率選擇、權重初始化以及數據模型層面的優化。

尋找合適的學習率(learning rate)

學習率是一個非常非常重要的超參數（關于超參數的系統性優化可見：深度學習調參(煉丹)的權威指南！！！），這個參數呢，面對不同規模、不同batch-size、不同優化方式、不同數據集，其最合適的值都是不確定的，我們無法光憑經驗來準確地確定lr的值，我們唯一可以做的，就是在訓練中不斷尋找最合適當前狀態的學習率。

比如下圖利用fastai中的lr_find()函數尋找合適的學習率，根據下方的學習率-損失曲線得到此時合適的學習率為1e-2。

推薦一篇fastai首席設計師「Sylvain Gugger」的一篇博客：How Do You Find A Good Learning Rate[1]

以及相關的論文Cyclical Learning Rates for Training Neural Networks[2]。

learning-rate與batch-size的關系

一般來說，越大的batch-size使用越大的學習率。

原理很簡單，越大的batch-size意味著我們學習的時候，收斂方向的confidence越大，我們前進的方向更加堅定，而小的batch-size則顯得比較雜亂，毫無規律性，因為相比批次大的時候，批次小的情況下無法照顧到更多的情況，所以需要小的學習率來保證不至于出錯。

可以看下圖損失Loss與學習率Lr的關系：

在顯存足夠的條件下，最好采用較大的batch-size進行訓練，找到合適的學習率后，可以加快收斂速度。

另外，較大的batch-size可以避免batch normalization出現的一些小問題，參考如下Pytorch庫Issue[3]

權重初始化

權重初始化相比于其他的trick來說在平常使用并不是很頻繁。

因為大部分人使用的模型都是預訓練模型，使用的權重都是在大型數據集上訓練好的模型，當然不需要自己去初始化權重了。只有沒有預訓練模型的領域會自己初始化權重，或者在模型中去初始化神經網絡最后那幾個全連接層的權重。

常用的權重初始化算法是「kaiming_normal」或者「xavier_normal」。

相關論文：

Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification[4]

Understanding the difficulty of training deep feedforward neural networks[5]

Xavier初始化論文[6]

He初始化論文[7]

不初始化可能會減慢收斂速度，影響收斂效果。

以下??為網絡的輸入大小，?為網絡的輸出大小，?為??或

uniform均勻分布初始化：

Xavier初始法，適用于普通激活函數(tanh, sigmoid)：

He初始化，適用于ReLU：

normal高斯分布初始化，其中stdev為高斯分布的標準差，均值設為0：

Xavier初始法，適用于普通激活函數 (tanh,sigmoid)：

He初始化，適用于ReLU：

svd初始化：對RNN有比較好的效果。參考論文：https://arxiv.org/abs/1312.6120[8]

dropout

dropout是指在深度學習網絡的訓練過程中，對于神經網絡單元，按照一定的概率將其暫時從網絡中丟棄。注意是「暫時」，對于隨機梯度下降來說，由于是隨機丟棄，故而每一個mini-batch都在訓練不同的網絡。

Dropout類似于bagging ensemble減少variance。也就是投通過投票來減少可變性。通常我們在全連接層部分使用dropout，在卷積層則不使用。但「dropout」并不適合所有的情況，不要無腦上Dropout。

Dropout一般適合于全連接層部分，而卷積層由于其參數并不是很多，所以不需要dropout，加上的話對模型的泛化能力并沒有太大的影響。

我們一般在網絡的最開始和結束的時候使用全連接層，而hidden layers則是網絡中的卷積層。所以一般情況，在全連接層部分，采用較大概率的dropout而在卷積層采用低概率或者不采用dropout。

數據集處理

主要有「數據篩選」?以及?「數據增強」

fastai中的圖像增強技術為什么相對比較好[9]

難例挖掘 hard-negative-mining

分析模型難以預測正確的樣本，給出針對性方法。

多模型融合

Ensemble是論文刷結果的終極核武器,深度學習中一般有以下幾種方式

同樣的參數,不同的初始化方式

不同的參數,通過cross-validation,選取最好的幾組

同樣的參數,模型訓練的不同階段，即不同迭代次數的模型。

不同的模型,進行線性融合. 例如RNN和傳統模型.

提高模型性能和魯棒性大法：probs融合和投票法。

假設這里有model 1, model 2, model 3，可以這樣融合：

1. model1 probs + model2 probs + model3 probs ==> final label

2. model1 label , model2 label , model3 label ==> voting ==> final label

3. model1_1 probs + ... + model1_n probs ==> mode1 label, model2 label與model3獲取的label方式與1相同? ==> voting ==> final label

第三個方式的啟發來源于，如果一個model的隨機種子沒有固定，多次預測得到的結果可能不同。

以上方式的效果要根據label個數，數據集規模等特征具體問題具體分析，表現可能不同，方式無非是probs融合和投票法的單獨使用or結合。

差分學習率與遷移學習

首先說下遷移學習，遷移學習是一種很常見的深度學習技巧，我們利用很多預訓練的經典模型直接去訓練我們自己的任務。雖然說領域不同，但是在學習權重的廣度方面，兩個任務之間還是有聯系的。

由上圖，我們拿來「model A」訓練好的模型權重去訓練我們自己的模型權重(「Model B」)，其中，modelA可能是ImageNet的預訓練權重，而ModelB則是我們自己想要用來識別貓和狗的預訓練權重。

那么差分學習率和遷移學習有什么關系呢？我們直接拿來其他任務的訓練權重，在進行optimize的時候，如何選擇適當的學習率是一個很重要的問題。

一般地，我們設計的神經網絡(如下圖)一般分為三個部分，輸入層，隱含層和輸出層，隨著層數的增加，神經網絡學習到的特征越抽象。因此，下圖中的卷積層和全連接層的學習率也應該設置的不一樣，一般來說，卷積層設置的學習率應該更低一些，而全連接層的學習率可以適當提高。

這就是差分學習率的意思，在不同的層設置不同的學習率，可以提高神經網絡的訓練效果，具體的介紹可以查看下方的連接。

上面的示例圖來自：towardsdatascience.com/transfer-le…[10]

余弦退火(cosine annealing)和熱重啟的隨機梯度下降

「余弦」就是類似于余弦函數的曲線，「退火」就是下降，「余弦退火」就是學習率類似余弦函數慢慢下降。

「熱重啟」就是在學習的過程中，「學習率」慢慢下降然后突然再「回彈」(重啟)然后繼續慢慢下降。

兩個結合起來就是下方的學習率變化圖：

更多詳細的介紹可以查看知乎機器學習算法如何調參？這里有一份神經網絡學習速率設置指南[11]
以及相關論文SGDR: Stochastic Gradient Descent with Warm Restarts[12]

嘗試過擬合一個小數據集

這是一個經典的小trick了，但是很多人并不這樣做，可以嘗試一下。

關閉正則化/隨機失活/數據擴充，使用訓練集的一小部分，讓神經網絡訓練幾個周期。確保可以實現零損失，如果沒有，那么很可能什么地方出錯了。

多尺度訓練

多尺度訓練是一種「直接有效」的方法，通過輸入不同尺度的圖像數據集，因為神經網絡卷積池化的特殊性，這樣可以讓神經網絡充分地學習不同分辨率下圖像的特征，可以提高機器學習的性能。

也可以用來處理過擬合效應，在圖像數據集不是特別充足的情況下，可以先訓練小尺寸圖像，然后增大尺寸并再次訓練相同模型，這樣的思想在Yolo-v2的論文中也提到過：

需要注意的是：多尺度訓練并不是適合所有的深度學習應用，多尺度訓練可以算是特殊的數據增強方法，在圖像大小這一塊做了調整。如果有可能最好利用可視化代碼將多尺度后的圖像近距離觀察一下，「看看多尺度會對圖像的整體信息有沒有影響」，如果對圖像信息有影響的話，這樣直接訓練的話會誤導算法導致得不到應有的結果。

Cross Validation 交叉驗證

在李航的統計學方法中說到，交叉驗證往往是對實際應用中「數據不充足」而采用的，基本目的就是重復使用數據。在平常中我們將所有的數據分為訓練集和驗證集就已經是簡單的交叉驗證了，可以稱為1折交叉驗證。「注意，交叉驗證和測試集沒關系，測試集是用來衡量我們的算法標準的，不參與到交叉驗證中來。」

交叉驗證只針對訓練集和驗證集。

交叉驗證是Kaggle比賽中特別推崇的一種技巧，我們經常使用的是5-折(5-fold)交叉驗證，將訓練集分成5份，隨機挑一份做驗證集其余為訓練集，循環5次，這種比較常見計算量也不是很大。還有一種叫做leave-one-out cross validation留一交叉驗證，這種交叉驗證就是n-折交叉，n表示數據集的容量，這種方法只適合數據量比較小的情況，計算量非常大的情況很少用到這種方法。

吳恩達有一節課The nuts and bolts of building applications using deep learning[13]中也提到了。

優化算法

按理說不同的優化算法適合于不同的任務，不過我們大多數采用的優化算法還是是adam和SGD+monmentum。

Adam 可以解決一堆奇奇怪怪的問題（有時 loss 降不下去，換 Adam 瞬間就好了），也可以帶來一堆奇奇怪怪的問題（比如單詞詞頻差異很大，當前 batch 沒有的單詞的詞向量也被更新；再比如Adam和L2正則結合產生的復雜效果）。用的時候要膽大心細，萬一遇到問題找各種魔改 Adam（比如 MaskedAdam[14], AdamW 啥的）搶救。

但看一些博客說adam的相比SGD，收斂快，但泛化能力差，更優結果似乎需要精調SGD。

adam,adadelta等, 在小數據上,我這里實驗的效果不如sgd, sgd收斂速度會慢一些，但是最終收斂后的結果，一般都比較好。

如果使用sgd的話,可以選擇從1.0或者0.1的學習率開始,隔一段時間,在驗證集上檢查一下,如果cost沒有下降,就對學習率減半. 我看過很多論文都這么搞,我自己實驗的結果也很好. 當然,也可以先用ada系列先跑,最后快收斂的時候,更換成sgd繼續訓練.同樣也會有提升.據說adadelta一般在分類問題上效果比較好，adam在生成問題上效果比較好。

adam收斂雖快但是得到的解往往沒有sgd+momentum得到的解更好，如果不考慮時間成本的話還是用sgd吧。

adam是不需要特別調lr，sgd要多花點時間調lr和initial weights。

數據預處理方式

zero-center ,這個挺常用的.

PCA whitening,這個用的比較少.

訓練技巧

要做梯度歸一化,即算出來的梯度除以minibatch size

clip c(梯度裁剪): 限制最大梯度,其實是value = sqrt(w1^2+w2^2….),如果value超過了閾值,就算一個衰減系系數,讓value的值等于閾值: 5,10,15

dropout對小數據防止過擬合有很好的效果,值一般設為0.5

小數據上dropout+sgd在我的大部分實驗中，效果提升都非常明顯.因此可能的話，建議一定要嘗試一下。

dropout的位置比較有講究, 對于RNN,建議放到輸入->RNN與RNN->輸出的位置.關于RNN如何用dropout,可以參考這篇論文//arxiv.org/abs/1409.2329[15]

除了gate之類的地方,需要把輸出限制成0-1之外,盡量不要用sigmoid,可以用tanh或者relu之類的激活函數.

sigmoid函數在-4到4的區間里，才有較大的梯度。之外的區間，梯度接近0，很容易造成梯度消失問題。

輸入0均值，sigmoid函數的輸出不是0均值的。

rnn的dim和embdding size,一般從128上下開始調整. batch size,一般從128左右開始調整. batch size合適最重要,并不是越大越好.

word2vec初始化,在小數據上,不僅可以有效提高收斂速度,也可以可以提高結果.

盡量對數據做shuffle

LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的結果,來自這篇論文//jmlr.org/proceedings/papers/v37/jozefowicz15.pdf[16], 我這里實驗設成1.0,可以提高收斂速度.實際使用中,不同的任務,可能需要嘗試不同的值.

Batch Normalization據說可以提升效果，參考論文：Accelerating Deep Network Training by Reducing Internal Covariate Shift

如果你的模型包含全連接層（MLP），并且輸入和輸出大小一樣，可以考慮將MLP替換成Highway Network,我嘗試對結果有一點提升，建議作為最后提升模型的手段，原理很簡單，就是給輸出加了一個gate來控制信息的流動，詳細介紹請參考論文: http://arxiv.org/abs/1505.00387[17]

來自@張馨宇的技巧：一輪加正則，一輪不加正則，反復進行。

在數據集很大的情況下，一上來就跑全量數據。建議先用 1/100、1/10 的數據跑一跑，對模型性能和訓練時間有個底，外推一下全量數據到底需要跑多久。在沒有足夠的信心前不做大規模實驗。

subword 總是會很穩定地漲點，只管用就對了。

GPU 上報錯時盡量放在 CPU 上重跑，錯誤信息更友好。例如 GPU 報 "ERRORModel diverged with loss = NaN" 其實很有可能是輸入 ID 超出了 softmax 詞表的范圍。

在確定初始學習率的時候，從一個很小的值（例如 1e-7）開始，然后每一步指數增大學習率（例如擴大1.05 倍）進行訓練。訓練幾百步應該能觀察到損失函數隨訓練步數呈對勾形，選擇損失下降最快那一段的學習率即可。

補充一個rnn trick，仍然是不考慮時間成本的情況下，batch size=1是一個很不錯的regularizer, 起碼在某些task上,這也有可能是很多人無法復現alex graves實驗結果的原因之一，因為他總是把batch size設成1。

注意實驗的可復現性和一致性，注意養成良好的實驗記錄習慣 ==> 不然如何分析出實驗結論。

超參上，learning rate 最重要，推薦了解 cosine learning rate 和 cyclic learning rate，其次是 batchsize 和 weight decay。當你的模型還不錯的時候，可以試著做數據增廣和改損失函數錦上添花了。

審核編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
圖像增強(9955) 圖像增強(9955)
深度學習(119798) 深度學習(119798)

深度學習的硬件架構解析

深度學習在這十年，甚至是未來幾十年內都有可能是最熱門的話題。雖然深度學習已是廣為人知了，但它并不僅僅包含數學、建模、學習和優化。算法必須在優化后的硬件上運行，因為學習成千上萬的數據可能需要長達幾周的時間。因此，深度學習網絡亟需更快、更高效的硬件。接下來，讓我們重點來看深度學習的硬件架構。

2016-11-18 16:00:37

5544

如何才能高效地進行深度學習模型訓練？

分布式深度學習框架中，包括數據/模型切分、本地單機優化算法訓練、通信機制、和數據/模型聚合等模塊。現有的算法一般采用隨機置亂切分的數據分配方式，隨機優化算法（例如隨機梯度法）的本地訓練算法，同步或者異步通信機制，以及參數平均的模型聚合方式。

2018-07-09 08:48:22

13609

優化模型與Lindo/Lingo優化軟件

優化模型與Lindo/Lingo優化軟件 優化模型簡介 LINDO公司的主要軟件產品及功能簡介 LINDO軟件的使用簡介 LINGO軟件的使用簡介  建模與求解實例（結合軟件使用）

2009-09-15 12:22:02

深度學習模型是如何創建的？

具有深度學習模型的嵌入式系統應用程序帶來了巨大的好處。深度學習嵌入式系統已經改變了各個行業的企業和組織。深度學習模型可以幫助實現工業流程自動化，進行實時分析以做出決策，甚至可以預測預警。這些AI

2021-10-27 06:34:15

深度學習中過擬合/欠擬合的問題及解決方案

的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練，然后使用該模型去擬合未來的數據。在我們機器學習和深度學習的訓練過程中，經常會出現過擬合和欠擬合的現象。訓練一開始，模型通常會欠擬合，所以會對模型進行優化，然而等到訓練到一定程度的時候，就需要解決過擬合的問題了。

2021-01-28 06:57:47

深度學習在預測和健康管理中的應用

方法方面的最新進展，目的是發現研究差距并提出進一步的改進建議。在簡要介紹了幾種深度學習模型之后，我們回顧并分析了使用深度學習進行故障檢測，診斷和預后的應用。該調查驗證了深度學習對PHM中各種類型的輸入

2021-07-12 06:46:47

深度學習存在哪些問題？

深度學習常用模型有哪些？深度學習常用軟件工具及平臺有哪些？深度學習存在哪些問題？

2021-10-14 08:20:47

深度學習技術的開發與應用

時間安排大綱具體內容實操案例三天關鍵點1.強化學習的發展歷程2.馬爾可夫決策過程3.動態規劃4.無模型預測學習5.無模型控制學習6.價值函數逼近7.策略梯度方法8.深度強化學習-DQN算法系列9.

2022-04-21 14:57:39

深度學習框架只為GPU?

CPU優化深度學習框架和函數庫機器學***器

2021-02-22 06:01:02

深度融合模型的特點

深度融合模型的特點，背景深度學習模型在訓練完成之后，部署并應用在生產環境的這一步至關重要，畢竟訓練出來的模型不能只接受一些公開數據集和榜單的檢驗，還需要在真正的業務場景下創造價值，不能只是為了PR而

2021-07-16 06:08:20

Mali GPU支持tensorflow或者caffe等深度學習模型嗎

Mali GPU 支持tensorflow或者caffe等深度學習模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運行？我希望把訓練

2022-09-16 14:13:01

Nanopi深度學習之路(1)深度學習框架分析

著手，使用Nanopi2部署已訓練好的檢測模型，例如硅谷電視劇的 Not Hotdog 檢測器應用，會在復雜的深度學習歷程中有些成就感。目前已有幾十種流行的深度學習算法庫，參考網址：https

2018-06-04 22:32:12

SenseTime商湯科技全職/實習招聘！歡迎投遞（深圳、香港）

優先分布式深度學習系統研究員（全職、實習）工作職責： 1、世界一流的超大規模分布式深度學習模型訓練平臺搭建及優化 2、分布式訓練數據存儲平臺搭建及優化，深度學習模型改進及訓練任職要求： 1、工作地

2016-06-21 10:59:41

TDA4對深度學習的重要性

，這比較類似于人腦的運行方式，獲得更多數據后，準確度也會越來越高。TIDL（TI Deep LearningLibrary）是TI平臺基于深度學習算法的軟件生態系統，可以將一些常見的深度學習算法模型

2022-11-03 06:53:11

labview+yolov4+tensorflow+openvion深度學習

缺陷檢測主要知識點：1Tensorflow-GPU環境的搭建Tensorflow object環境搭建學會如何標注圖片如何labview快速通過遷移學習訓練自己的模型如何利用labview生成優化后的OPENVINO模型IR如何利用labview調用訓練后的PB模型和IR模型進行目標檢測

2021-05-10 22:33:46

labview實現深度學習，還在用python？

算法。其編程特點是上手快，開發效率高，兼容性強，能快速調用c++，c#等平臺的dll類庫。如何將labview與深度學習結合起來，來解決視覺行業越來越復雜的應用場景所遇到的困難。下面以開關面板為例講解

2020-07-23 20:33:10

labview測試tensorflow深度學習SSD模型識別物體

安裝labview2019 vision，自帶深度學習推理工具，支持tensorflow模型。配置好python下tensorflow環境配置好object_detection API下載SSD模型

2020-08-16 17:21:38

labview調用深度學習tensorflow模型非常簡單，附上源碼和模型

本帖最后由 wcl86 于 2021-9-9 10:39 編輯 `labview調用深度學習tensorflow模型非常簡單，效果如下，附上源碼和訓練過的模型：[hide][/hide

2021-06-03 16:38:25

labview調用yolo 目標檢測速度太慢？yolov4：速度和精度的完美結合，性能和精度碾壓yolov3

gpu加速），labview調用openvino優化深度學習模型（cpu加速），以及labview調用yolov4深度學習模型（gpu加速）3個模塊的內容，另外還有海量工業實際項目數據集提供給學員。如需

2021-01-05 09:22:02

　　華為云深度學習服務，讓企業智能從此不求人

，分布式訓練線性加速比能達到0.8。這就意味著在億級圖片規模下的模型訓練，華為深度學習的分布式模型訓練時間可以從30天縮短至小時級。　　　　不同GPU數量下模型訓練收斂時間　　　　神機妙算—算法優化

2018-08-02 20:44:09

【NanoPi K1 Plus試用體驗】搭建深度學習框架

，非線性回歸，手寫數字分類模型開始講起。逐步講到一些深度學習網絡的應用如CNN，LSTM。最后會帶著大家完成一些實際的應用案例如圖像識別，圖片風格轉換，seq2seq模型的應用，情感分類，生成對抗網絡等。下面

2018-07-17 11:40:31

【詳解】FPGA：深度學習的未來？

的固定架構之外進行模型優化探究。同時，FPGA在單位能耗下性能更強，這對大規模服務器部署或資源有限的嵌入式應用的研究而言至關重要。本文從硬件加速的視角考察深度學習與FPGA，指出有哪些趨勢和創新使得

2018-08-13 09:33:30

為什么說FPGA是機器深度學習的未來？

都出現了重大突破。深度學習是這些領域中所最常使用的技術，也被業界大為關注。然而，深度學習模型需要極為大量的數據和計算能力，只有更好的硬件加速條件，才能滿足現有數據和模型規模繼續擴大的需求。　　 FPGA

2019-10-10 06:45:41

什么是深度學習？

深度學習是什么意思

2020-11-11 06:58:03

什么是深度學習？使用FPGA進行深度學習的好處？

什么是深度學習為了解釋深度學習，有必要了解神經網絡。神經網絡是一種模擬人腦的神經元和神經網絡的計算模型。作為具體示例，讓我們考慮一個輸入圖像并識別圖像中對象類別的示例。這個例子對應機器學習中的分類

2023-02-17 16:56:59

以MegCC為例介紹如何開發一個深度學習編譯器

，同時進行上述優化。MegCC簡介MegCC 實現的原理是：深度學習模型在推理時候，每一個 Operator 都會對應一個計算 kernel 并完成計算，所以整個深度學習模型在推理時就是一次執行所有

2023-02-09 16:35:34

全網唯一一套labview深度學習教程：tensorflow+目標檢測：龍哥教你學視覺—LabVIEW深度學習教程

進行學習3、該套課程不需要有很強的python語言編程基礎，小白學員即可進行學習4、labview對cpu上推理深度學習模型進行了優化，其運行速度和效率優于python平臺5、課程不僅講授了環境配置

2020-08-10 10:38:12

如何使用MATLAB幫助相關人員執行深度學習任務

MATLAB支持的模型有哪些呢？如何使用MATLAB幫助相關人員執行深度學習任務呢？

2021-11-22 07:48:19

超參數優化是深度學習中的重要組成部分

超參數優化是深度學習中的重要組成部分。其原因在于，神經網絡是公認的難以配置，而又有很多參數需要設置。最重要的是，個別模型的訓練非常緩慢。在這篇文章中，你會了解到如何使用scikit-learn

2017-09-30 16:22:16

基于深度學習的多尺幅深度網絡監督模型

針對場景標注中如何產生良好的內部視覺信息表達和有效利用上下文語義信息兩個至關重要的問題，提出一種基于深度學習的多尺度深度網絡監督模型。與傳統多尺度方法不同，模型主要由兩個深度卷積網絡組成：首先網絡

2017-11-28 14:22:10

模型驅動深度學習的標準流程與學習方法解析

模型驅動的深度學習方法近年來，深度學習在人工智能領域一系列困難問題上取得了突破性成功應用。

2018-01-24 11:30:13

4608

一種新的目標分類特征深度學習模型

為提高低配置計算環境中的視覺目標實時在線分類特征提取的時效性和分類準確率，提出一種新的目標分類特征深度學習模型。根據高時效性要求，選用分類器模型離線深度學習的策略，以節約在線訓練時間。針對網絡深度

2018-03-20 17:30:42

根據美團“猜你喜歡”來深度學習排序模型實踐

本文將主要介紹深度學習模型在美團平臺推薦排序場景下的應用和探索。

2018-04-02 09:35:24

6070

關于如何從零開始構建深度學習項目的詳細教程

第一部分：啟動一個深度學習項目第二部分：創建一個深度學習數據集第三部分：設計深度模型第四部分：可視化深度網絡模型及度量指標第五部分：深度學習網絡中的調試第六部分：改善深度學習模型性能及網絡調參

2018-04-19 15:21:23

3520

深讀解析反向傳播算法在解決模型優化問題的方面應用

反向傳播算法隸屬于深度學習，它在解決模型優化問題的方面有著重要的地位。

2018-11-01 15:48:54

5183

如何使用英特爾深度學習SDK解決問題

了解如何使用英特爾?深度學習SDK輕松插入，訓練和部署深度學習模型，以解決圖像和文本分析問題。

2018-11-08 06:25:00

2992

在可擴展的分布式深度學習中使用Python

學習使用neon?在本地實施深度學習模型

2018-11-05 06:46:00

2227

基于深度學習模型的點云目標檢測及ROS實現

近年來，隨著深度學習在圖像視覺領域的發展，一類基于單純的深度學習模型的點云目標檢測方法被提出和應用，本文將詳細介紹其中一種模型——SqueezeSeg，并且使用ROS實現該模型的實時目標檢測。

2018-11-05 16:47:29

17181

深度學習優化器方法及學習率衰減方式的詳細資料概述

深度學習作為現今機器學習領域中的重要的技術手段，在圖像識別、機器翻譯、自然語言處理等領域都已經很成熟，并獲得了很好的成果。文中針對深度學習模型優化器的發展進行了梳理，介紹了常用的梯度下降、動量的梯度

2018-12-18 16:47:50

快速了解神經網絡與深度學習的教程資料免費下載

本文檔的詳細介紹的是快速了解神經網絡與深度學習的教程資料免費下載主要內容包括了：機器學習概述，線性模型，前饋神經網絡，卷積神經網絡，循環神經網絡，網絡優化與正則化，記憶與注意力機制，無監督學習，概率圖模型，玻爾茲曼機，深度信念網絡，深度生成模型，深度強化學習

2019-02-11 08:00:00

如何優化深度學習模型

看過了各式各樣的教程之后，你現在已經了解了神經網絡的工作原理，并且也搭建了貓狗識別器。你嘗試做了了一個不錯的字符級RNN。

2019-04-29 15:31:36

2546

針對線性回歸模型和深度學習模型，介紹了確定訓練數據集規模的方法

具體來看，對于傳統的機器學習算法，模型的表現先是遵循冪定律（power law），之后趨于平緩；而對于深度學習，該問題還在持續不斷地研究中，不過圖一為目前較為一致的結論，即隨著數據規模的增長，深度

2019-05-05 11:03:31

5747

深度學習模型壓縮與加速綜述

目前在深度學習領域分類兩個派別，一派為學院派，研究強大、復雜的模型網絡和實驗方法，為了追求更高的性能；另一派為工程派，旨在將算法更穩定、高效的落地在硬件平臺上，效率是其追求的目標。復雜的模型固然具有

2019-06-08 17:26:00

4836

回顧3年來的所有主流深度學習CTR模型

微軟于2016年提出的Deep Crossing可以說是深度學習CTR模型的最典型和基礎性的模型。如圖2的模型結構圖所示，它涵蓋了深度CTR模型最典型的要素，即通過加入embedding層將稀疏特征轉化為低維稠密特征，用stacking layer

2019-07-18 14:33:16

5870

深度學習模型小型化處理的五種方法

現在深度學習模型開始走向應用，因此我們需要把深度學習網絡和模型部署到一些硬件上，而現有一些模型的參數量由于過大，會導致在一些硬件上的運行速度很慢，所以我們需要對深度學習模型進行小型化處理。

2020-01-28 17:40:00

3658

晶心科技和Deeplite攜手合作高度優化深度學習模型解決方案

晶心科技今日宣布將攜手合作，在基于AndeStar? V5架構的晶心RISC-V CPU核心上配置高度優化的深度學習模型，使AI深度學習模型變得更輕巧、快速和節能。

2019-12-31 16:30:11

1002

機器學習模型切實可行的優化步驟

這篇文章提供了可以采取的切實可行的步驟來識別和修復機器學習模型的訓練、泛化和優化問題。

2020-05-04 12:08:00

2347

如何使用深度學習實現語音聲學模型的研究

的分析識別更是研究的重中之重。近年來深 10 度學習模型的廣泛發展和計算能力的大幅提升對語音識別技術的提升起到了關鍵作用。本文立足于語音識別與深度學習理論緊密結合，針對如何利用深度學習模型搭建區分能力更強魯棒性更

2020-05-09 08:00:00

深度學習中多種優化算法

在深度學習中，有很多種優化算法，這些算法需要在極高維度（通常參數有數百萬個以上）也即數百萬維的空間進行梯度下降，從最開始的初始點開始，尋找最優化的參數，通常這一過程可能會遇到多種的情況

2020-08-28 09:52:45

2268

什么是深度學習，深度學習能解決什么問題

深度學習是機器學習與神經網絡、人工智能、圖形化建模、優化、模式識別和信號處理等技術融合后產生的一個領域。

2020-11-05 09:31:19

4711

愛奇藝深度學習平臺對TF Serving毛刺問題的優化

決這個問題，愛奇藝深度學習平臺團隊經過多個階段的優化實踐，最后對 TF Serving 和 TensorFlow 的源碼進行深入優化，將模型熱更新時的毛刺現象解決，本文將分享 TensorFlow

2020-12-17 16:48:47

3930

深度主動學習的相關工作全面概述

Abstract 主動學習試圖通過標記最少量的樣本使得模型的性能收益最大化。而深度學習則對數據比較貪婪，需要大量的數據供給來優化海量的參數，從而使得模型學會如何提取高質量的特征。近年來，由于互聯網

2021-02-17 11:55:00

3128

GPU引領的深度學習

早期的機器學習以搜索為基礎，主要依靠進行過一定優化的暴力方法。但是隨著機器學習逐漸成熟，它開始專注于加速技術已經很成熟的統計方法和優化問題。同時深度學習的問世更是帶來原本可能無法實現的優化方法。本文

2021-02-26 06:11:43

深度學習模型的對抗攻擊及防御措施

深度學習作為人工智能技術的重要組成部分，被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能，但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅

2021-03-12 13:45:53

綜述深度學習的卷積神經網絡模型應用及發展

深度學習是機器學習和人工智能研究的最新趨勢，作為一個十余年來快速發展的嶄新領域，越來越受到研究者的關注。卷積神經網絡（CNN）模型是深度學習模型中最重要的一種經典結構，其性能在近年來深度學習任務

2021-04-02 15:29:04

深度模型中的優化與學習課件下載

2021-04-07 16:21:01

基于深度學習的圖像修復模型及實驗對比

深度學習技術在解決¨大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響，文中在簡要介紹傳統圖像修復方法的基礎上，重點介紹了基于深度學習的修復模型，主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的

2021-04-08 09:38:00

如何理解泛化是深度學習領域尚未解決的基礎問題

如何理解泛化是深度學習領域尚未解決的基礎問題之一。為什么使用有限訓練數據集優化模型能使模型在預留測試集上取得良好表現？這一問題距今已有 50 多年的豐富歷史，并在機器學習中得到廣泛研究。

2021-04-08 17:56:17

2373

深度神經網絡模型的壓縮和優化綜述

數據集上的表現非常卓越。然而，由于其計算量大、存儲成本高、模型復雜等特性，使得深度學習無法有效地應用于輕量級移動便攜設備。因此，壓縮、優化深度學習模型成為目前硏究的熱點。當前主要的模型壓縮方法有模型裁剪、輕

2021-04-12 10:26:59

模型化深度強化學習應用研究綜述

深度強化學習（DRL）作為機器學習的重要分攴，在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互，并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型強化學習和模型

2021-04-12 11:01:52

基于預訓練模型和長短期記憶網絡的深度學習模型

作為模型的初始化詞向量。但是，隨機詞向量存在不具備語乂和語法信息的缺點;預訓練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預訓練模型BERT和長短期記憶網絡的深度學習

2021-04-20 14:29:06

基于深度強化學習仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質量，釆用深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力控制模型，結合深度神經網絡的感知能力與強化學習的決策能力，進行

2021-05-27 10:32:39

什么？不用GPU也能加速你的YOLOv3深度學習模型

你還在為神經網絡模型里的冗余信息煩惱嗎？或者手上只有CPU，對一些只能用昂貴的GPU建立的深度學習模型“望眼欲穿”嗎？最近，創業公司Neural Magic帶來了一種名叫新的稀疏化方法，可以幫你

2021-06-10 15:33:02

1975

基于評分矩陣與評論文本的深度學習模型

2021-06-24 11:20:30

基于深度學習的文本主題模型研究綜述

2021-06-24 11:49:18

結合基擴展模型和深度學習的信道估計方法

2021-06-30 10:43:39

深度學習嵌入式系統

2021-10-20 19:05:58

移植深度學習算法模型到海思AI芯片

本文大致介紹將深度學習算法模型移植到海思AI芯片的總體流程和一些需要注意的細節。海思芯片移植深度學習算法模型，大致分為模型轉換，...

2022-01-26 19:42:35

如何為深度學習模型設計審計方案

　　在本文中，我們開發了一個深度學習（ DL ）模型審計框架。越來越多的人開始關注 DL 模型中的固有偏見，這些模型部署在廣泛的環境中，并且有多篇關于部署前審核 DL 模型的必要性的新聞文章。我們的框架將這個審計問題形式化，我們認為這是在部署期間提高 DL 模型的安全性和道德使用的一個步驟。

2022-04-19 14:50:24

1083

何時使用機器學習或深度學習

　　部署到嵌入式 GPU 也很受歡迎，因為它可以在部署的環境中提供快速的推理速度。GPU Coder 支持從 MATLAB 中的深度學習模型生成代碼，該模型利用來自 Intel、NVIDIA

2022-07-08 15:23:34

1304

深度學習并非“簡單的統計”

與此同時，Boaz Barak 通過展示擬合統計模型和學習數學這兩個不同的場景案例，探討其與深度學習的匹配性；他認為，雖然深度學習的數學和代碼與擬合統計模型幾乎相同，但在更深層次上，深度學習中的極大部分都可在“向學生傳授技能”場景中被捕獲。

2022-08-09 10:01:10

956

超詳細配置教程：用Windows電腦訓練深度學習模型

雖然大多數深度學習模型都是在 Linux 系統上訓練的，但 Windows 也是一個非常重要的系統，也可能是很多機器學習初學者更為熟悉的系統。要在 Windows 上開發模型，首先當然是配置開發環境

2022-11-08 10:57:44

1101

百度王海峰：深度學習平臺+大模型，產業智能化基座

及應用國家工程研究中心技術委員會副主任、中國工程院丁文華院士受邀致辭，百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰發表題為《深度學習平臺加大模型，產業智能化基座》的主旨演講。（以下為發言全文）尊敬的各位專家、開發者

2022-12-01 18:03:32

816

深度學習聚類的綜述

。 1. 什么是深度聚類？經典聚類即數據通過各種表示學習技術以矢量化形式表示為特征。隨著數據變得越來越復雜和復雜，淺層（傳統）聚類方法已經無法處理高維數據類型。為了解決該問題，深度聚類的概念被提出，即聯合優化表示學習

2022-12-30 11:15:08

649

什么是深度學習中優化算法

先大致講一下什么是深度學習中優化算法吧，我們可以把模型比作函數，一種很復雜的函數：h(f(g(k(x))))，函數有參數，這些參數是未知的，深度學習中的“學習”就是通過訓練數據求解這些未知的參數。

2023-02-13 15:31:48

1019

大模型為什么是深度學習的未來？

與傳統機器學習相比，深度學習是從數據中學習，而大模型則是通過使用大量的模型來訓練數據。深度學習可以處理任何類型的數據，例如圖片、文本等等；但是這些數據很難用機器完成。大模型可以訓練更多類別、多個級別的模型，因此可以處理更廣泛的類型。另外：在使用大模型時，可能需要一個更全面或復雜的數學和數值計算的支持。

2023-02-16 11:32:37

1605

深度學習編譯器之Layerout Transform優化

繼續深度學習編譯器的優化工作解讀，本篇文章要介紹的是OneFlow系統中如何基于MLIR實現Layerout Transform。

2023-05-18 17:32:42

389

為什么深度學習是非參數的？

今天我想要與大家分享的是深度神經網絡的工作方式，以及深度神經與“傳統”機器學習模型的不同之處。

2023-05-25 15:13:54

268

PyTorch教程12.1之優化和深度學習

電子發燒友網站提供《PyTorch教程12.1之優化和深度學習.pdf》資料免費下載

2023-06-05 15:08:41

PyTorch教程-12.1. 優化和深度學習

12.1. 優化和深度學習? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:30

327

從淺層到深層神經網絡：概覽深度學習優化算法

優化算法一直以來是機器學習能根據數據學到知識的核心技術。而好的優化算法可以大大提高學習速度，加快算法的收斂速度和效果。該論文從淺層模型到深度模型縱覽監督學習中常用的優化算法，并指出了每一種優化算法

2023-06-15 11:20:22

395

什么是深度學習算法？深度學習算法的應用

什么是深度學習算法？深度學習算法的應用深度學習算法被認為是人工智能的核心，它是一種模仿人類大腦神經元的計算模型。深度學習是機器學習的一種變體，主要通過變換各種架構來對大量數據進行學習以及分類處理

2023-08-17 16:03:04

1305

深度學習框架是什么？深度學習框架有哪些？

深度學習框架是什么？深度學習框架有哪些？? 深度學習框架是一種軟件工具，它可以幫助開發者輕松快速地構建和訓練深度神經網絡模型。與手動編寫代碼相比，深度學習框架可以大大減少開發和調試的時間和精力，并提

2023-08-17 16:03:09

1589

深度學習框架的作用是什么

的任務，需要使用深度學習框架。深度學習框架是對深度學習算法和神經網絡模型進行構建、調整和優化的軟件工具集。這些框架不僅能夠提高深度學習的效率，還能使開發者更好地理解和操作深度學習。以下是深度學習框架的作用：

2023-08-17 16:10:57

1072

深度學習框架連接技術

深度學習框架連接技術深度學習框架是一個能夠幫助機器學習和人工智能開發人員輕松進行模型訓練、優化及評估的軟件庫。深度學習框架連接技術則是需要使用深度學習模型的應用程序必不可少的技術，通過連接技術

2023-08-17 16:11:16

443

深度學習框架和深度學習算法教程

了基于神經網絡的機器學習方法。深度學習算法可以分為兩大類：監督學習和無監督學習。監督學習的基本任務是訓練模型去學習輸入數據的特征和其對應的標簽，然后用于新數據的預測。而無監督學習通常用于聚類、降維和生成模型等任務中

2023-08-17 16:11:26

638

深度學習服務器怎么做深度學習服務器diy 深度學習服務器主板用什么

。因此，深度學習服務器逐漸成為了人們進行深度學習實驗的必要工具。本文將介紹深度學習服務器的DIY，并討論如何選擇主板。一、深度學習服務器的DIY 1.選擇適合的處理器深度學習對處理器的要求非常高，因為訓練一個深度學習模型需要進行

2023-08-17 16:11:29

489

深度學習的定義和特點深度學習典型模型介紹

深度學習（Deep Learning）是一種基于人工神經網絡的機器學習算法，其主要特點是模型由多個隱層組成，可以自動地學習特征，并進行預測或分類。該算法在計算機視覺、語音識別、自然語言處理、推薦系統和數據挖掘等領域被廣泛應用，成為機器學習領域的一種重要分支。

2023-08-21 18:22:53

929

機器學習和深度學習的區別

　　機器學習和深度學習是當今最流行的人工智能(AI)技術之一。這兩種技術都有助于在不需要人類干預的情況下讓計算機自主學習和改進預測模型。本文將探討機器學習和深度學習的概念以及二者之間的區別。

2023-08-28 17:31:09

891

深度學習模型部署與優化：策略與實踐；L40S與A100、H100的對比分析

深度學習、機器學習、生成式AI、深度神經網絡、抽象學習、Seq2Seq、VAE、GAN、GPT、BERT、預訓練語言模型、Transformer、ChatGPT、GenAI、多模態大模型、視覺大模型

2023-09-22 14:13:09

607

深度學習的由來深度學習的經典算法有哪些

深度學習作為機器學習的一個分支，其學習方法可以分為監督學習和無監督學習。兩種方法都具有其獨特的學習模型：多層感知機、卷積神經網絡等屬于監督學習；深度置信網、自動編碼器、去噪自動編碼器、稀疏編碼等屬于無監督學習。

2023-10-09 10:23:42

303

基于深度學習的情感語音識別模型優化策略

基于深度學習的情感語音識別模型的優化策略，包括數據預處理、模型結構優化、損失函數改進、訓練策略調整以及集成學習等方面的內容。

2023-11-09 16:34:14

227

深度學習如何訓練出好的模型

算法工程、數據派THU深度學習在近年來得到了廣泛的應用，從圖像識別、語音識別到自然語言處理等領域都有了卓越的表現。但是，要訓練出一個高效準確的深度學習模型并不容易。不僅需要有高質量的數據、合適的模型

2023-12-07 12:38:24

547

如何基于深度學習模型訓練實現圓檢測與圓心位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現圓檢測與圓心位置預測，主要是通過對YOLOv8姿態評估模型在自定義的數據集上訓練，生成一個自定義的圓檢測與圓心定位預測模型

2023-12-21 10:50:05

529

如何基于深度學習模型訓練實現工件切割點位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現工件切割點位置預測，主要是通過對YOLOv8姿態評估模型在自定義的數據集上訓練，生成一個工件切割分離點預測模型

2023-12-22 11:07:46

259

已全部加載完成

搜索歷史

如何優化深度學習模型?

評論