在實(shí)際問(wèn)題中,已知量是數(shù)據(jù)和數(shù)據(jù)標(biāo)簽,決策函數(shù)是未知的,即神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)未知。
因此,在使用人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決實(shí)際問(wèn)題時(shí),需先假設(shè)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),再將訓(xùn)練數(shù)據(jù)輸入到該結(jié)構(gòu)中 ,最后求解待求參數(shù)。
一、假設(shè)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
假設(shè)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要需要確定兩個(gè)問(wèn)題:
(1)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)共有多少層?
(2)每層神經(jīng)元的數(shù)量是多少?
目前,上述兩個(gè)問(wèn)題沒(méi)有標(biāo)準(zhǔn)答案,開(kāi)發(fā)人員需根據(jù)經(jīng)驗(yàn)解決上述兩個(gè)問(wèn)題。解決上述兩個(gè)問(wèn)題時(shí),開(kāi)發(fā)人員可根據(jù)以下準(zhǔn)則:
(1)若問(wèn)題是簡(jiǎn)單的,兩個(gè)類別的分界曲線是不復(fù)雜的,則可選用較簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)層數(shù)和每層神經(jīng)數(shù)量均可較少。
圖片來(lái)源:中國(guó)慕課大學(xué)《機(jī)器學(xué)習(xí)概論》
(2)若問(wèn)題是復(fù)雜的,例如:人臉識(shí)別問(wèn)題,則可選用較復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)層數(shù)和每層神經(jīng)數(shù)量均可較多。
(3)若訓(xùn)練數(shù)據(jù)較少,則可選用較簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
(4)若訓(xùn)練數(shù)據(jù)較多,則可選用較復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
二、求解人工神經(jīng)網(wǎng)絡(luò)待求參數(shù)
以兩層神經(jīng)網(wǎng)絡(luò)模型為例,如圖一所示,輸入為(X,Y),其中,X=[x1,x2]T,Y是標(biāo)簽值(label),問(wèn)題為通過(guò)改變?chǔ)睾蚥的值,使得標(biāo)簽值Y與實(shí)際的人工神經(jīng)網(wǎng)絡(luò)輸出值y最接近。
圖一,圖片來(lái)源:中國(guó)慕課大學(xué)《機(jī)器學(xué)習(xí)概論》
根據(jù)前篇文章,y的表達(dá)式為: y=ω1φ(ω11x1+ω12x2+b1)+ω2φ(ω21x1+ω22x2+b1)+b3
使得y和Y最接近可表達(dá)為: Minimize:E(ω,b)=E(X,Y)[(Y-y)2]
其中,E(X,Y)為訓(xùn)練樣本和標(biāo)簽的數(shù)學(xué)期望(平均值)。因?yàn)閥是(ω,b)的非凸函數(shù),所以該問(wèn)題無(wú)法求得唯一最小值。
因此,采用梯度下降法(Gradient Descent Method)求解局部極小值。梯度下降法的步驟如下:
(1)隨機(jī)選取ω和b的初始值(ω(0),b(0))
(2)應(yīng)用迭代算法求目標(biāo)函數(shù)的局部極值,在第n步迭代中,ω和b的迭代公式為: ω(n+1)=ω(n)-α·?E/?ω b(n+1)=b(n)-α·?E/?b
其中,α為學(xué)習(xí)率(Learning rate),α由開(kāi)發(fā)人員設(shè)定,開(kāi)發(fā)人員需選取合適的α值,若α值被設(shè)定得過(guò)大,則容易錯(cuò)過(guò)局部極值點(diǎn),若α值被設(shè)定得過(guò)小,則可能較長(zhǎng)時(shí)間不能找到局部極值點(diǎn),只有當(dāng)α值被設(shè)定得合適時(shí),才能快速收斂至局部極值點(diǎn)。但因?yàn)槿斯ど窠?jīng)網(wǎng)絡(luò)對(duì)應(yīng)的決策函數(shù)未知,所以沒(méi)有一種可求解α值的方法,開(kāi)發(fā)人員需根據(jù)經(jīng)驗(yàn)設(shè)定α值。
圖片來(lái)源:中國(guó)慕課大學(xué)《機(jī)器學(xué)習(xí)概論》
梯度下降法的含義:如圖二所示,通過(guò)迭代的方式逐步遍歷x1,x2,x3,…,xn,最終找到函數(shù)的局部極小值,此值即為y和Y最接近的值。
圖片來(lái)源:中國(guó)慕課大學(xué)《機(jī)器學(xué)習(xí)概論》
審核編輯:劉清
-
人工神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
1文章
119瀏覽量
14638 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132743
原文標(biāo)題:機(jī)器學(xué)習(xí)相關(guān)介紹(27)——人工神經(jīng)網(wǎng)絡(luò)(梯度下降算法)
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論