四虎在线精品观看免费,香蕉91,在线中文字幕第一页

在應用機器學習算法時，我們通常采用梯度下降法來對采用的算法進行訓練。其實，常用的梯度下降法還具體包含有三種不同的形式，它們也各自有著不同的優缺點。

下面我們以線性回歸算法來對三種梯度下降法進行比較。

一般線性回歸函數的假設函數為：

對應的能量函數（損失函數）形式為：

下圖為一個二維參數（θ0和 θ1）組對應能量函數的可視化圖：

批量梯度下降法BGD

批量梯度下降法（Batch Gradient Descent，簡稱BGD）是梯度下降法最原始的形式，它的具體思路是在更新每一參數時都使用所有的樣本來進行更新，其數學形式如下：

(1) 對上述的能量函數求偏導：

(2) 由于是最小化風險函數，所以按照每個參數θ的梯度負方向來更新每個 θ ：

具體的偽代碼形式為：

從上面公式可以注意到，它得到的是一個全局最優解，但是每迭代一步，都要用到訓練集所有的數據，如果樣本數目 m 很大，那么可想而知這種方法的迭代速度！所以，這就引入了另外一種方法，隨機梯度下降。

優點：

全局最優解；易于并行實現；

缺點：

當樣本數目很多時，訓練過程會很慢。

從迭代的次數上來看，BGD迭代的次數相對較少。其迭代的收斂曲線示意圖可以表示如下：

隨機梯度下降法SGD

由于批量梯度下降法在更新每一個參數時，都需要所有的訓練樣本，所以訓練過程會隨著樣本數量的加大而變得異常的緩慢。隨機梯度下降法（Stochastic Gradient Descent，簡稱SGD）正是為了解決批量梯度下降法這一弊端而提出的。

將上面的能量函數寫為如下形式：

利用每個樣本的損失函數對θ求偏導得到對應的梯度，來更新 θ ：

具體的偽代碼形式為：

隨機梯度下降是通過每個樣本來迭代更新一次，如果樣本量很大的情況（例如幾十萬），那么可能只用其中幾萬條或者幾千條的樣本，就已經將theta迭代到最優解了，對比上面的批量梯度下降，迭代一次需要用到十幾萬訓練樣本，一次迭代不可能最優，如果迭代10次的話就需要遍歷訓練樣本10次。但是，SGD伴隨的一個問題是噪音較BGD要多，使得SGD并不是每次迭代都向著整體最優化方向。

優點：

訓練速度快；

缺點：

準確度下降，并不是全局最優；不易于并行實現。

從迭代的次數上來看，SGD迭代的次數較多，在解空間的搜索過程看起來很盲目。其迭代的收斂曲線示意圖可以表示如下：

小批量梯度下降法MBGD

有上述的兩種梯度下降法可以看出，其各自均有優缺點，那么能不能在兩種方法的性能之間取得一個折衷呢？即，算法的訓練過程比較快，而且也要保證最終參數訓練的準確率，而這正是小批量梯度下降法（Mini-batch Gradient Descent，簡稱MBGD）的初衷。

MBGD在每次更新參數時使用b個樣本（b一般為10），其具體的偽代碼形式為：

4. 總結

Batch gradient descent:Use all examples in each iteration；

Stochastic gradient descent:Use 1 example in each iteration；

Mini-batch gradient descent:Use b examples in each iteration.

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4327

瀏覽量
62573
梯度

梯度

+關注

關注
0

文章
30

瀏覽量
10317
機器學習

機器學習

+關注

關注
66

文章
8406

瀏覽量
132567

原文標題：梯度下降法的三種形式BGD、SGD以及MBGD

文章出處：【微信號：Imgtec，微信公眾號：Imagination Tech】歡迎添加關注！文章轉載請注明出處。

常見算法優缺點比較

梯度下降法對最小二乘法形式的誤差函數進行優化。優點：實現簡單，計算簡單；缺點：不能擬合非線性數據。4.最近鄰算法優點：1）對數據沒有假設，準

發表于 12-02 15:40

分享一個自己寫的機器學習線性回歸梯度下降算法

單變量線性回歸算法，利用Batch梯度梯度下降算法迭

發表于 10-02 21:48

回歸預測之入門

的方法，在stanford機器學習開放課最后的部分會推導最小二乘法的公式的來源，這個來很多的機器學習和數學書上都可以找到，這里就不提最小二乘法，而談談梯度下降法。梯度

發表于 10-15 10:19

機器學習新手必學的三種優化算法（牛頓法、梯度下降法、最速下降法）

用迭代的算法來對優化函數求最小值。在這種情形下，最速下降法與梯度下降法相比就比較慢了。因此，最速

發表于 05-07 08:30

從梯度下降法、牛頓法到擬牛頓法它們的聯系與區別是什么

從梯度下降法、牛頓法到擬牛頓法，淺談它們的聯系與區別

發表于 05-21 11:06

回歸算法有哪些，常用回歸算法（3種）詳解

隨機梯度下降來估計系數。損失函數通常被定義為交叉熵項：邏輯回歸用于分類問題，例如，對于給定的醫療數據，可以使用邏輯回歸判斷一個人是否患有癌

發表于 07-28 14:36

TensorFlow實現簡單線性回歸

?？梢詫祿?b class='flag-5'>進行歸一化處理：為訓練數據聲明 TensorFlow 占位符：創建 TensorFlow 的權重和偏置變量且初始值為零：定義用于預測的線性回歸模型：定義損失函數：選擇梯度

發表于 08-11 19:34

基于梯度下降法和互補濾波的航向姿態參考系統

針對微型無人機航向姿態參考系統低成本、小型化的工程實現需求，基于三軸陀螺儀、加速度計和磁力計，提出了一種在線實時姿態估計算法。該算法采用四元數描述系統模型，采用改進的

發表于 11-16 10:29 ?15次下載

一種結合梯度下降法的二層搜索粒子群算法

，采用梯度下降法進行二次搜索，并以最優極值點為中心、某一具體半徑設定禁忌區域，防止粒子重復搜索該區域；最后，依據種群多樣性準則生成新粒子，替代被淘汰的粒子。將二次搜索粒子群算法及其他四

發表于 11-27 17:28 ?5次下載

機器學習中梯度下降法的過程

梯度下降法是一個用于尋找最小化成本函數的參數值的最優化算法。當我們無法通過分析計算（比如線性代數運算）求得函數的最優解時，我們可以利用梯度

發表于 04-26 16:44 ?3421次閱讀

梯度下降算法及其變種：批量梯度下降，小批量梯度下降和隨機梯度下降

現在我們來討論梯度下降算法的三個變種，它們之間的主要區別在于每個學習步驟中計算梯度時使用的數據量

發表于 05-03 15:55 ?2.1w次閱讀

掌握logistic regression模型，有必要先了解線性回歸模型和梯度下降法

先回想一下線性回歸，線性回歸模型幫助我們用最簡單的線性方程實現了對數據的擬合，然而，這只能完成回歸

發表于 06-04 11:31 ?7593次閱讀

機器學習優化算法中梯度下降,牛頓法和擬牛頓法的優缺點詳細介紹

梯度下降法實現簡單，當目標函數是凸函數時，梯度下降法的解是全局解。一般情況下，其解不保證是全局最優解，梯度

發表于 08-04 11:40 ?5.2w次閱讀

各種梯度下降法是如何工作的

導讀一圖勝千言，什么？還是動畫，那就更棒啦！本文用了大量的資源來解釋各種梯度下降法（gradient descents），想給大家直觀地介紹一下這些方法是如何工作的。

發表于 08-17 11:50 ?1111次閱讀

梯度下降法在機器學習中的應用

梯度下降法沿著梯度的反方向進行搜索，利用了函數的一階導數信息。

發表于 05-18 09:20 ?1376次閱讀