在线播放美天传媒tm0065,亚洲天堂热,一个人免费观看的www视频

1.集成學(xué)習(xí)

集成學(xué)習(xí)（ensemble learning）通過組合多個(gè)基分類器（base classifier）來完成學(xué)習(xí)任務(wù)，頗有點(diǎn)“三個(gè)臭皮匠頂個(gè)諸葛亮”的意味?；诸惼饕话悴捎玫氖侨蹩蓪W(xué)習(xí)（weakly learnable）分類器，通過集成學(xué)習(xí)，組合成一個(gè)強(qiáng)可學(xué)習(xí)（strongly learnable）分類器。所謂弱可學(xué)習(xí)，是指學(xué)習(xí)的正確率僅略優(yōu)于隨機(jī)猜測的多項(xiàng)式學(xué)習(xí)算法；強(qiáng)可學(xué)習(xí)指正確率較高的多項(xiàng)式學(xué)習(xí)算法。集成學(xué)習(xí)的泛化能力一般比單一的基分類器要好，這是因?yàn)榇蟛糠只诸惼鞫挤诸愬e(cuò)誤的概率遠(yuǎn)低于單一基分類器的。

偏差與方差

“偏差-方差分解”（bias variance decomposition）是用來解釋機(jī)器學(xué)習(xí)算法的泛化能力的一種重要工具。對于同一個(gè)算法，在不同訓(xùn)練集上學(xué)得結(jié)果可能不同。對于訓(xùn)練集，由于噪音，樣本的真實(shí)類別為（在訓(xùn)練集中的類別為），則噪聲為

學(xué)習(xí)算法的期望預(yù)測為

使用樣本數(shù)相同的不同訓(xùn)練集所產(chǎn)生的方法

期望輸入與真實(shí)類別的差別稱為bias，則

為便于討論，假定噪聲的期望為0，即，通過多項(xiàng)式展開，可對算法的期望泛化誤差進(jìn)行分解（詳細(xì)的推導(dǎo)參看[2]）：

也就是說，誤差可以分解為3個(gè)部分：bias、variance、noise。bias度量了算法本身的擬合能力，刻畫模型的準(zhǔn)確性；variance度量了數(shù)據(jù)擾動(dòng)所造成的影響，刻畫模型的穩(wěn)定性。為了取得較好的泛化能力，則需要充分?jǐn)M合數(shù)據(jù)（bias?。?，并受數(shù)據(jù)擾動(dòng)的影響?。╲ariance小）。但是，bias與variance往往是不可兼得的：

當(dāng)訓(xùn)練不足時(shí)，擬合能力不夠強(qiáng)，數(shù)據(jù)擾動(dòng)不足以產(chǎn)生較大的影響，此時(shí)bias主導(dǎo)了泛化錯(cuò)誤率；

隨著訓(xùn)練加深時(shí)，擬合能力隨之加強(qiáng)，數(shù)據(jù)擾動(dòng)漸漸被學(xué)習(xí)到，variance主導(dǎo)了泛化錯(cuò)誤率。

Bagging與Boosting

集成學(xué)習(xí)需要解決兩個(gè)問題：

如何調(diào)整輸入訓(xùn)練數(shù)據(jù)的概率分布及權(quán)值；

如何訓(xùn)練與組合基分類器。

從上述問題的角度出發(fā)，集成學(xué)習(xí)分為兩類流派：Bagging與Boosting。Bagging（BootstrapAggregating）對訓(xùn)練數(shù)據(jù)擦用自助采樣（boostrap sampling），即有放回地采樣數(shù)據(jù)；每一次的采樣數(shù)據(jù)集訓(xùn)練出一個(gè)基分類器，經(jīng)過MM次采樣得到MM個(gè)基分類器，然后根據(jù)最大表決（majority vote）原則組合基分類器的分類結(jié)果。

Boosting的思路則是采用重賦權(quán)（re-weighting）法迭代地訓(xùn)練基分類器，即對每一輪的訓(xùn)練數(shù)據(jù)樣本賦予一個(gè)權(quán)重，并且每一輪樣本的權(quán)值分布依賴上一輪的分類結(jié)果；基分類器之間采用序列式的線性加權(quán)方式進(jìn)行組合。

從“偏差-方差分解”的角度看，Bagging關(guān)注于降低variance，而Boosting則是降低bias；Boosting的基分類器是強(qiáng)相關(guān)的，并不能顯著降低variance。Bagging與Boosting有分屬于自己流派的兩大殺器：Random Forests（RF）和Gradient Boosting Decision Tree（GBDT）。本文所要講的AdaBoost屬于Boosting流派。

2.AdaBoost算法

AdaBoost是由Freund與Schapire [1] 提出來解決二分類問題

根據(jù)加型模型（additive model），第m輪的分類函數(shù)

其中，為基分類器的組合系數(shù)。AdaBoost采用前向分布（forward stagewise）這種貪心算法最小化損失函數(shù)（1），求解子模型的

其中，為的分類誤差率。第m+1輪的訓(xùn)練數(shù)據(jù)集權(quán)值分布

其中，為規(guī)范化因子

則得到最終分類器

是的單調(diào)遞減函數(shù)，特別地，當(dāng)時(shí)，；當(dāng)時(shí)，即基分類器不滿足弱可學(xué)習(xí)的條件（比隨機(jī)猜測好），則應(yīng)該停止迭代。具體算法流程如下：

在算法第4步，學(xué)習(xí)過程有可能停止，導(dǎo)致學(xué)習(xí)不充分而泛化能力較差。因此，可采用“重采樣”（re-sampling）避免訓(xùn)練過程過早停止；即拋棄當(dāng)前不滿足條件的基分類器，基于重新采樣的數(shù)據(jù)訓(xùn)練分類器，從而獲得學(xué)習(xí)“重啟動(dòng)”機(jī)會。

AdaBoost能夠自適應(yīng)（addaptive）地調(diào)整樣本的權(quán)值分布，將分錯(cuò)的樣本的權(quán)重設(shè)高、分對的樣本的權(quán)重設(shè)低；所以被稱為“Adaptive Boosting”。sklearn的AdaBoostClassifier實(shí)現(xiàn)了AdaBoost，默認(rèn)的基分類器是能fit()帶權(quán)值樣本的DecisionTreeClassifier。

老師木在微博上提出了關(guān)于AdaBoost的三個(gè)問題：

1，adaboost不易過擬合的神話。

2，adaboost人臉檢測器好用的本質(zhì)原因，

3，真的要求每個(gè)弱分類器準(zhǔn)確率不低于50%。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4607

瀏覽量
92840
集成學(xué)習(xí)

集成學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
7319
分類器

分類器

+關(guān)注

關(guān)注
0

文章
152

瀏覽量
13179

原文標(biāo)題：【十大經(jīng)典數(shù)據(jù)挖掘算法】AdaBoost

文章出處：【微信號：AI_shequ，微信公眾號：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于邏輯回歸算法的乳腺癌腫瘤二分類預(yù)測

ML之LoR：基于LoR(邏輯回歸)算法對乳腺癌腫瘤進(jìn)行二分類預(yù)測(良惡性)

發(fā)表于 06-18 07:06

實(shí)現(xiàn)AdaBoost算法的代碼

AdaBoost算法實(shí)現(xiàn)

發(fā)表于 11-07 09:19

利用單詞超團(tuán)的二分圖文本聚類算法

鑒于目前傳統(tǒng)文本聚類方法中利用文檔間的相似度進(jìn)行聚類存在的問題，在傳統(tǒng)的文本挖掘基礎(chǔ)上提出了一種新的文本聚類算法—— 利用單詞超團(tuán)的二分圖文

發(fā)表于 02-27 15:39 ?21次下載

基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱

發(fā)表于 01-07 18:56 ?2次下載

基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法

針對不平衡分類中小類樣本識別率低問題，提出一種基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法。首先，利用主動(dòng)學(xué)習(xí)方法通過多次迭代抽樣，選取

發(fā)表于 11-30 17:12 ?3次下載

一種多分類的AdaBoost算法

多類指數(shù)損失函數(shù)逐步添加模型（ SAMME）是一種多分類的AdaBoost算法，為進(jìn)一步提升SAMME算法的性能，針對使用加權(quán)概率和偽損失對

發(fā)表于 12-01 16:50 ?1次下載

基于聚類算法的二分網(wǎng)絡(luò)社區(qū)挖掘算法

針對二分網(wǎng)絡(luò)中社區(qū)挖掘的準(zhǔn)確性不高、對額外參數(shù)的依賴較大的問題，基于譜聚類算法的思想，從二分網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)展開，提出了一種改進(jìn)的社區(qū)挖掘算法

發(fā)表于 12-27 10:06 ?0次下載

基于聚<b class='flag-5'>類</b><b class='flag-5'>算法</b>的<b class='flag-5'>二分</b>網(wǎng)絡(luò)社區(qū)挖掘<b class='flag-5'>算法</b>

非線性AdaBoost算法

AdaBoost是數(shù)據(jù)挖掘領(lǐng)域最常見的提升算法之一。對傳統(tǒng)AdaBoost將各個(gè)基分類器線性相加所存在的不足進(jìn)行分析，并針對AdaBoost

發(fā)表于 01-04 16:58 ?0次下載

基于可能性二均值聚類的二分類支持向量機(jī)

提出基于可能性二均值聚類（Possibilistic Two Means， P2M）的二分類支持向量機(jī)（Support Vector Machine，SVM）。該算法先用P2M對未知類

發(fā)表于 01-09 10:45 ?0次下載

閾值分類器組合的多標(biāo)簽分類算法

，證明了該算法能克服固定分段閾值分類器對分類邊界附近點(diǎn)分類不穩(wěn)定的缺點(diǎn)從而提高分類準(zhǔn)確率；然后，采用二分

發(fā)表于 01-22 17:01 ?1次下載

Adaboost算法總結(jié)

集成學(xué)習(xí)的Boosting算法通過結(jié)合多個(gè)弱學(xué)習(xí)器組成強(qiáng)學(xué)習(xí)器，AdaBoost算法是Boosting算法中的一種，本文詳細(xì)的總結(jié)了AdaBoost

發(fā)表于 12-29 16:08 ?3096次閱讀

基于AdaBoost算法的復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測

鄰接矩陣，完成樣本的矩陣化處理;然后采用 Adaboost算法進(jìn)行分類訓(xùn)練，通過權(quán)重投票獲取預(yù)測結(jié)果;最后，考慮到復(fù)雜網(wǎng)絡(luò)弱分類器預(yù)測正負(fù)誤差分布的不均衡問題，設(shè)置權(quán)重調(diào)整因子η及其調(diào)

發(fā)表于 04-08 11:21 ?15次下載

一種融合語義模型的二分網(wǎng)絡(luò)推薦算法

當(dāng)前基于二分網(wǎng)絡(luò)的推薦算法未考慮推薦對象之間的語義關(guān)系，因此文中提出一種融合語義模型的二分網(wǎng)絡(luò)推薦算法。該算法利用作者主題模型將推薦對象的語

發(fā)表于 04-28 13:53 ?4次下載

二分搜索算法運(yùn)用的框架套路

我們前文我作了首詩，保你閉著眼睛也能寫對二分查找詳細(xì)介紹了二分搜索的細(xì)節(jié)問題，探討了「搜索一個(gè)元素」，「搜索左側(cè)邊界」，「搜索右側(cè)邊界」這三個(gè)情況，教你如何寫出正確無 bug 的二分搜索算

發(fā)表于 08-25 16:06 ?1825次閱讀

如何理解二分查找算法

本文就來探究幾個(gè)最常用的二分查找場景：尋找一個(gè)數(shù)、尋找左側(cè)邊界、尋找右側(cè)邊界。而且，我們就是要深入細(xì)節(jié)，比如不等號是否應(yīng)該帶等號，mid 是否應(yīng)該加一等等。分析這些細(xì)節(jié)的差異以及出現(xiàn)這些差異的原因，保證你能靈活準(zhǔn)確地寫出正確的二分查找

發(fā)表于 04-19 11:10 ?617次閱讀