海量嘈雜數據決策樹算法
大?。?/span>0.73 MB 人氣: 2018-01-13 需要積分:2
標簽:決策樹(13474)
針對當前決策樹算法較少考慮訓練集的嘈雜程度對模型的影響,以及傳統駐留內存算法處理海量數據困難的問題,提出一種基于Hadoop平臺的不確定概率C4.5算法-IP-C4.5算法。在訓練模型時,IP-C4.5算法認為用于建樹的訓練集是不可靠的,通過用基于不確定概率的信息增益率作為分裂屬性選擇標準,減小了訓練集的嘈雜性對模型的影響。在Hadoop平臺下,通過將IP-C4.5算法以文件分裂的方式進行MapReduce化程序設計,增強了處理海量數據的能力。與C4.5和完全信條樹(CCDT)算法的對比實驗結果表明,在訓練集數據是嘈雜的情況下,IP-C4.5算法的準確率相對更高,尤其當數據嘈雜度大于10%時,表現更加優秀;并且基于Hadoop的并行化的IP-C4.5算法具有處理海量數據的能力。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
海量嘈雜數據決策樹算法下載
相關電子資料下載
- 深入探討機器學習的可視化技術 191
- 深度解析機器學習各大模型原理 1144
- 什么是隨機森林?隨機森林的工作原理 1851
- 機器學習基礎知識全攻略 126
- 決策樹:技術全解與案例實戰 762
- 一種基于決策樹的飛機級故障診斷建模方法研究 739
- 基于粗糙集聯合決策樹法的智能變電站遠程調度管理優化 392
- 數據挖掘十大算法 2071
- 常見的機器學習算法及其應用場景 622
- 為什么GBDT用回歸樹不用分類樹?CART決策樹是怎么計算基尼值呢? 1396