決策樹C4.5算法屬性取值優(yōu)化研究
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
決策樹算法是一種最簡單、最直接、最有效的文本分類算法。最早的決策樹算法是ID3算法,于1986年由Quinlan提出,該算法是一種基于信息熵的決策樹分類算法。由于該算法是以信息熵作為屬性選擇的標(biāo)準(zhǔn),偏向于選擇屬性取值較多的屬性,而屬性取值較多的屬性往往分類的貢獻(xiàn)不大。因此,于1993年Quinlan在ID3算法的基礎(chǔ)上又提出了一種改進(jìn)算法,即C4.5算法。該算法采用信息增益率作為屬性選擇的標(biāo)準(zhǔn),繼承了ID3算法的所有優(yōu)點(diǎn),克服了ID3算法中偏向于選擇屬性取值較多的屬性作為測(cè)試屬性的不足,同時(shí)還能對(duì)連續(xù)屬性與未知屬性進(jìn)行處理,在剪枝方面也有很大的改進(jìn)。
C4.5算法作為經(jīng)典的決策樹分類算法,己被廣泛的應(yīng)用到各個(gè)領(lǐng)域。但其仍然存在以下不足之處:1)在計(jì)算信息增益的過程中(包括:分類所需信息量、信息熵、分割信息量)涉及的復(fù)雜的對(duì)數(shù)運(yùn)算,計(jì)算機(jī)每一次計(jì)算都需要調(diào)用庫函數(shù),增大了生成決策樹所需的時(shí)間開銷;2)生成決策樹中分支數(shù)量過多,部分分支還能進(jìn)行合并,進(jìn)一步精簡生成決策樹的結(jié)構(gòu)。
本文針對(duì)生成決策樹分支數(shù)量過多的不足,提出了一種新的屬性取值優(yōu)化方法,并用實(shí)例分析驗(yàn)證了該方法的有效性。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
決策樹C4.5算法屬性取值優(yōu)化研究下載
相關(guān)電子資料下載
- 深入探討機(jī)器學(xué)習(xí)的可視化技術(shù) 191
- 深度解析機(jī)器學(xué)習(xí)各大模型原理 1144
- 什么是隨機(jī)森林?隨機(jī)森林的工作原理 1851
- 機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)全攻略 126
- 決策樹:技術(shù)全解與案例實(shí)戰(zhàn) 762
- 一種基于決策樹的飛機(jī)級(jí)故障診斷建模方法研究 739
- 基于粗糙集聯(lián)合決策樹法的智能變電站遠(yuǎn)程調(diào)度管理優(yōu)化 392
- 數(shù)據(jù)挖掘十大算法 2071
- 常見的機(jī)器學(xué)習(xí)算法及其應(yīng)用場景 622
- 為什么GBDT用回歸樹不用分類樹?CART決策樹是怎么計(jì)算基尼值呢? 1396