最常見(jiàn)的機(jī)器學(xué)習(xí)算法是學(xué)習(xí)映射Y = f(X)來(lái)預(yù)測(cè)新X的Y,這叫做預(yù)測(cè)建?;蝾A(yù)測(cè)分析,我們的目標(biāo)是盡可能作出最準(zhǔn)確的預(yù)測(cè)。 我們不知道函數(shù)f的樣子或形式,如果知道的話(huà),我們將會(huì)直接使用它,不需要用機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中學(xué)習(xí)。
下面將概述常用的機(jī)器學(xué)習(xí)算法:
1、線性回歸
線性回歸的表示是一個(gè)方程,它通過(guò)找到輸入變量的特定權(quán)重(稱(chēng)為系數(shù)B),來(lái)描述一條最適合表示輸入變量x與輸出變量y關(guān)系的直線??赡苁墙y(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中最知名和最易理解的算法之一,預(yù)測(cè)建模主要關(guān)注最小化模型誤差或者盡可能作出最準(zhǔn)確的預(yù)測(cè),以可解釋性為代價(jià)。
2、Logistic回歸
Logistic回歸與線性回歸相似,目標(biāo)都是找到每個(gè)輸入變量的權(quán)重,即系數(shù)值。與線性回歸不同的是,Logistic回歸對(duì)輸出的預(yù)測(cè)使用被稱(chēng)為 logistic 函數(shù)的非線性函數(shù)進(jìn)行變換。 它是一個(gè)快速的學(xué)習(xí)模型,并且對(duì)于二分類(lèi)問(wèn)題非常有效。
3、線性判別分析(LDA)
線性判別分析進(jìn)行預(yù)測(cè)的方法是計(jì)算每個(gè)類(lèi)別的判別值,并對(duì)具備最大值的類(lèi)別進(jìn)行預(yù)測(cè)。該技術(shù)假設(shè)數(shù)據(jù)呈高斯分布,因此最好預(yù)先從數(shù)據(jù)中刪除異常值。這是處理分類(lèi)預(yù)測(cè)建模問(wèn)題的一種簡(jiǎn)單而強(qiáng)大的方法。
4、分類(lèi)與回歸樹(shù)
決策樹(shù)的葉節(jié)點(diǎn)包含一個(gè)用于預(yù)測(cè)的輸出變量y,通過(guò)遍歷該樹(shù)的分割點(diǎn),直到到達(dá)一個(gè)葉節(jié)點(diǎn)并輸出該節(jié)點(diǎn)的類(lèi)別值就可以作出預(yù)測(cè)。決策樹(shù)模型的表示是一個(gè)二叉樹(shù),學(xué)習(xí)速度和預(yù)測(cè)速度都很快,可以解決大量問(wèn)題,并且不需要對(duì)數(shù)據(jù)做特別準(zhǔn)備。
5、樸素貝葉斯
樸素貝葉斯是一個(gè)簡(jiǎn)單但是很強(qiáng)大的預(yù)測(cè)建模算法,該模型由兩種概率組成,這兩種概率都可以直接從訓(xùn)練數(shù)據(jù)中計(jì)算出來(lái):1)每個(gè)類(lèi)別的概率;2)給定每個(gè)x的值,每個(gè)類(lèi)別的條件概率。如果數(shù)據(jù)是實(shí)值時(shí),通常假設(shè)一個(gè)高斯分布,這樣可以簡(jiǎn)單的估計(jì)這些概率。
6、K近鄰算法
KNN 算法在整個(gè)訓(xùn)練集中搜索K個(gè)最相似實(shí)例(近鄰)并匯總這 K 個(gè)實(shí)例的輸出變量,以預(yù)測(cè)新數(shù)據(jù)點(diǎn)。KNN需要大量?jī)?nèi)存或空間來(lái)存儲(chǔ)所有數(shù)據(jù),但是只有在需要預(yù)測(cè)時(shí)才執(zhí)行計(jì)算(或?qū)W習(xí))??梢噪S時(shí)更新和管理訓(xùn)練實(shí)例,以保持預(yù)測(cè)的準(zhǔn)確性。
7、學(xué)習(xí)向量量化
學(xué)習(xí)向量量化(簡(jiǎn)稱(chēng) LVQ)是一種人工神經(jīng)網(wǎng)絡(luò)算法,它允許你選擇訓(xùn)練實(shí)例的數(shù)量,并精確地學(xué)習(xí)這些實(shí)例應(yīng)該是什么樣的。在學(xué)習(xí)之后,最相似的近鄰?fù)ㄟ^(guò)計(jì)算每個(gè)碼本向量和新數(shù)據(jù)實(shí)例之間的距離找到。然后返回最佳匹配單元的類(lèi)別值作為預(yù)測(cè)。
8、支持向量機(jī)(SVM)
超平面是分割輸入變量空間的一條線,超平面和最近的數(shù)據(jù)點(diǎn)之間的距離被稱(chēng)為間隔,分開(kāi)兩個(gè)類(lèi)別的最好的或最理想的超平面具備最大間隔。實(shí)際上,優(yōu)化算法用于尋找最大化間隔的系數(shù)的值。
9、Bagging
Bagging 是從數(shù)據(jù)樣本中估算數(shù)量的一種強(qiáng)大的統(tǒng)計(jì)方法。在訓(xùn)練數(shù)據(jù)中抽取多個(gè)樣本,然后對(duì)每個(gè)數(shù)據(jù)樣本建模。當(dāng)你需要對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),每個(gè)模型都進(jìn)行預(yù)測(cè),并將所有的預(yù)測(cè)值平均以便更好的估計(jì)真實(shí)的輸出值。
10、隨機(jī)森林
隨機(jī)森林是對(duì)Bagging方法的一種調(diào)整,在隨機(jī)森林的方法中決策樹(shù)被創(chuàng)建以便于通過(guò)引入隨機(jī)性來(lái)進(jìn)行次優(yōu)分割,而不是選擇最佳分割點(diǎn)。針對(duì)每個(gè)數(shù)據(jù)樣本創(chuàng)建的模型將會(huì)與其他方式得到的有所不同,可以更好的估計(jì)真實(shí)的輸出值。
-
算法
+關(guān)注
關(guān)注
23文章
4607瀏覽量
92840 -
建模
+關(guān)注
關(guān)注
1文章
304瀏覽量
60765 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132567
原文標(biāo)題:機(jī)器學(xué)習(xí)十大算法
文章出處:【微信號(hào):NeXt8060,微信公眾號(hào):HALCON圖像處理與機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論