基于免疫克隆特征選擇和US集成的二元分類器算法
大?。?/span>0.79 MB 人氣: 2017-12-15 需要積分:1
標簽:分類器(13141)
為解決垃圾網頁檢測過程中的“維數災難”和不平衡分類問題,提出一種基于免疫克隆特征選擇和欠采樣(US)集成的二元分類器算法。首先,使用欠采樣技術將訓練樣本集大類抽樣成多個與小類樣本數相近的樣本集,再將其分別與小類樣本合并構成多個平衡的子訓練樣本集;然后,設計一種免疫克隆算法遴選出多個最優的特征子集;基于最優特征子集對平衡的子樣本集進行投影操作,生成平衡數據集的多個視圖;最后,用隨機森林(RF)分類器對測試樣本進行分類,采用簡單投票法確定測試樣本的最終類別。在WEBSPAM UK-2006數據集上的實驗結果表明,該集成分類器算法應用于垃圾網頁檢測:與隨機森林算法及其Bagging和AdaBoost集成分類器算法相比,準確率、F1測度、AUC等指標均提高11%以上;與其他最優的研究結果相比,該集成分類器算法在F1測度上提高2%,在AUC上達到最優。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%