批量,即Batch,是深度學習中的一個重要概念。批量通常指兩個不同的概念——如果對應的是模型訓練方法,那么批量指的是將所有數據處理完以后一次性更新權重或者參數的估計;如果對應的是模型訓練中的數據,那么批量通常指的是一次輸入供模型計算用的數據量。
基于批量概念的模型訓練通常按照如下步驟進行:
初始化參數
重復以下步驟
● 處理所有數據● 更新參數
和批量算法相對應的是遞增算法,其步驟如下:
初始化參數
重復以下步驟
● A.處理一個或者一組數據點●B.更新參數。
這里的主要區別是批量算法一次處理所有的數據;而在遞增算法中,每處理一個或者數個觀測值就要更新一次參數。在后向傳播算法中,“處理”對應的具體操作就是計算損失函數的梯度變化曲線。如果是批量算法,則計算平均或者總的損失函數的梯度變化曲線;而如果是遞增算法,則計算損失函數僅在對應于該觀測值或者數個觀測值時的梯度變化曲線。“更新”則是從已有的參數值中減去梯度變化率和學習速率的乘積。
在線學習和離線學習
在深度學習中,另外兩個常見的概念是在線學習和離線學習。在離線學習中,所有的數據都可以被反復獲取,比如上面的批量學習就是離線學習的一種。而在在線學習中,每個觀測值在處理以后會被遺棄,同時得到更新。在線學習永遠是遞增算法的一種,但是遞增算法卻既可以離線學習也可以在線學習。
離線學習有如下幾個優點:
對于任何固定個數的參數,目標函數都可以直接被計算出來,因此很容易驗證模型訓練是否在朝著所需要的方向發展。
計算精度可以達到任意合理的程度。
可以使用各種不同的算法來避免出現局部最優的情況
可以采用訓練、驗證、測試三分法對模型的普適性進行驗證
可以計算預測值及其置信區間
在線學習無法實現上述功能,因為數據并沒有被存儲,不能反復獲取,因此對于任何固定的參數集,無法在訓練集上計算損失函數,也無法在驗證集上計算誤差。這就造成在線算法一般來說比離線算法更加復雜和不穩定。但是離線遞增算法并沒有在線算法的問題,因此有必要理解在線學習和遞增算法的區別。
偏移/閾值
在深度學習中,采用sigmoid激活函數的隱藏層或者輸出層的神經元通常在計算網絡輸入時加入一個偏移值,稱為Bias。對于線性輸出神經元,偏移項就是回歸中的截距項。 跟截距項的作用類似,偏移項可以被視為一個由特殊神經元引起的鏈接權重,這是因為偏移項通常鏈接到一個取固定單位值的偏移神經元。比如在一個多層感知器神經網絡中,某一個神經元的輸入變量為N維,那么這個神經元在這個高維空間中根據參數畫一個超平面,一邊是正值,一邊為負值。所使用的參數決定了這個超平面在輸入空間的相對位置。如果沒有偏移項,這個超平面的位置就被限制住了,必須通過原點;如果多個神經元都需要各自的超平面,那么就嚴重限制住了模型的靈活性。這就好比一個沒有截距項的回歸模型,其斜率的估計值在大多數情況下會大大偏移最優估計值,因為生成的擬合曲線必須通過原點。因此,如果缺少偏移項,多層感知器的普適擬合能力就不存在了。 通常來說,每個隱藏層和輸出層的神經元都有自己的偏移項。但是如果輸入神經已經被等比例轉換到一個有限值域中,比如[0,1]區間,那么等第一個隱藏層的神經元已經設置過偏移項以后,后面任何層跟這些具備偏移項的神經元有鏈接的其他神經元就不需要再額外設置偏移項了。
標準化數據 在機器學習和深度學習中,常常會出現對數據標準化這個動作。那么什么是標準化數據呢?其實這里是用“標準化”這個詞代替了幾個類似的但又不同的動作。
下面詳細講解三個常見的“標準化”數據處理動作。
(1)重放縮:通常指將一個向量加上或減去一個向量,再乘以或者除以一個常亮。比如將華氏溫度轉換成攝氏溫度就是一個重放縮的過程。
(2)規范化:通常指將一個向量除以其范數,比如采用歐式空間距離,即用向量的方差作為范數來規范化向量。在深度學習中,規范化通常采用極差為范數,即將向量減去最小值,并除以其極差,從而使數值范圍在0和1之間。
(3)標準化:通常指將一個向量移除其位置和規模的度量。比如一個服從正態分布的向量,可以減去其均值,并除以其方差來標準化數據,從而獲得一個服從標準正態分布的向量。
-
標準化
+關注
關注
1文章
30瀏覽量
8035 -
深度學習
+關注
關注
73文章
5504瀏覽量
121221
原文標題:深度學習中常見概念
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論