亚洲精品中文字幕一区在线,揄拍自拍日韩精品,一个人看免费视频www在线观看

本文作者：格創東智OT團隊（轉載請注明來源及作者）

在之前格物匯的文章中，我們介紹了特征構建的幾種常用方法。特征構建是一種升維操作，針對特征解釋能力不足，可以通過特征構建的方法來增加特征解釋力，從而提升模型效果。隨著近幾年大數據技術的普及，我們可以獲取海量數據，但是這些海量數據帶給我們更多信息的同時，也帶來了更多的噪音和異常數據。如何降維去噪成為很多企業關注的焦點，今天我們將介紹特征工程中的一種降維方法——特征選擇。

什么是特征選擇

特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS )，或屬性選擇( Attribute Selection )。是指從已有的N個特征(Feature)中選擇M個特征使得系統的特定指標最優化。

圖1.jpg

特征選擇主要有兩個功能

減少特征數量、降維，使模型泛化能力更強，減少過擬合
增強對特征和特征值之間的理解

特征選擇的流程

特征選擇的目標是尋找一個能夠有效識別目標的最小特征子集。尋找的一般流程可用下圖表示：

一般來說，通過枚舉來對特征子集進行選擇是一個比較費時的步驟,所以應使用一些策略來進行特征選擇，通常來說，我們會從兩個方面考慮來選擇特征：

>>>>

特征是否發散

如果一個特征不發散，例如方差接近于0，也就是說樣本在這個特征上基本上沒有差異，這個特征對于樣本的區分并沒有什么用。

>>>>

特征與目標的相關性

這點比較顯見，與目標相關性高的特征，應當優選選擇。除方差法外，本文介紹的其他方法均從相關性考慮。

根據特征選擇的形式又可以將特征選擇方法分為3種：

Filter
Wrapper
Embedded

特征選擇的方法

Filter

過濾法，按照發散性或者相關性對各個特征進行評分，設定閾值或者待選擇閾值的個數，選擇特征。

評分指標有：

方差：評價指標的離散程度，越離散說明包含的信息越多。
相關性：衡量特征對目標的解釋能力，相關系數越大說明解釋能力越強。
卡方檢驗：檢驗定性自變量對定性因變量的相關性。

圖3.jpg

互信息：也是評價定性自變量對定性因變量的相關性的。

圖4.jpg

Wrapper

包裝法，根據目標函數（通常是預測效果）評分，每次選擇若干特征，或者排除若干特征，主要的方法是遞歸特征消除法。遞歸消除特征法使用一個基模型來進行多輪訓練，每輪訓練后，減少若干特征，或者新增若干特征，進行評估看新增的特征是否需要保留，剔除的特征是否需要還原。最后再基于新的特征集進行下一輪訓練。

Embedded

嵌入法，先使用某些機器學習的算法和模型進行訓練，得到各個特征的權值系數，根據系數從大到小選擇特征。類似于Filter方法，但是是通過訓練來確定特征的優劣。

一般分為如下兩大類：

>>>>

基于懲罰項的特征選擇法

這個方法可以用線性回歸模型來舉例說明，我們在線性模型的目標函數中增加L1正則項（實際上這就是lasso模型）。由于該正則項的存在，某些與目標y不太相關的特征的系數將縮減至0，而保留的特征系數將相應調整，從而達到了對特征進行篩選的效果，L1正則項系數越大，篩選的力度也就越大。

>>>>

基于樹模型的特征選擇法

在我們之前的文章中介紹過隨機森林，GDBT等等基于樹的模型，他們均有一個特點就是模型可以計算出特征的重要性。決策樹會優先將對預測目標y幫助最大的特征放在模型的頂端，因此根據這個效果我們計算得到特征的重要性，進而我們可以根據特征重要性對特征進行選擇。

今天我們大致了解了如何給工業大數據降維去噪，進行特征選擇，在后續文章中，我們將繼續帶大家了解特征工程的另一個內容——特征抽取，敬請期待。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴