一区二区福利视频,色色色色色色网,中文字幕色网站

本文作者：格創東智OT團隊（轉載請注明作者及來源）

之前格物匯的文章給大家介紹過，隨著近幾年大數據技術的普及，企業可以獲取海量數據，但是這些海量數據帶給我們更多信息的同時，也帶來了更多的噪音和異常數據，如何降維去噪成為很多企業關注的焦點。而特征抽取和特征選擇都是降維的重要方法，針對于the curse of dimensionality(維數災難)，都可以達到降維的目的，但是這兩種方法有所不同。

>>>>

特征抽取（Feature Extrac tion)

Creatting a subset ofnew features by combinations of the exsiting features.也就是說，特征抽取后的新特征是原來特征的一個映射。

>>>>

特征選擇（Feature Selection）

choosing a subset of allthe features(the ones more informative。也就是說，特征選擇后的特征是原來特征的一個子集。

特征抽取是如何對數據進行變換的呢？其兩個經典的方法：主成分分析(Principle Components Analysis ,PCA)和線性評判分析（LinearDiscriminant Analysis,LDA）給出了解答，今天我們就先來看一下什么是主成分分析。

什么是主成分分析

主成分分析（principal component analysis），PCA是其縮寫。此方法是一種無監督線性轉換技術，其目標是找到數據中最主要的元素和結構，去除噪音和冗余，將原有的復雜數據降維，揭露出隱藏在復雜數據背后的簡單結構。

主成分分析就是試圖在力保數據信息丟失最少的原則下，對這種多變量的數據表進行最佳綜合簡化。這些綜合指標就稱為主成分,也就是說，對高維變量空間進行降維處理，從線性代數角度來看，PCA目標是找到一組新正交基去重新描述得到的數據空間，這些新維度就是主成分。

PCA的原理

我們現在來看一下PCA算法是如何實現的，我們通過一個具體實例來理解，假設我們有這樣一些標準化后的數據：[-1,-2],[-1,0],……,[2,1],[0,1]。我們寫成向量的形式如下：

我們還可以在二維坐標系中畫出來：

PCA主要的目的是降維簡化數據，這些數據本就是二維，想要再降維則需要重新找一個方向，并把這些點映射到這個方向上（降到1維）。試想，怎么才能找到這個方向，且不損失大部分信息呢？PCA的做法是，找到新映射的方法需要滿足如下兩個原則：

在新映射的方向上每個數據的映射點方差盡可能大。因為方差大的數據所包含的信息量越大。

新映射的方向應彼此正交，這樣映射出的坐標點選取才更有意義。

尋找新映射也可以看作基變換，我們可以不斷旋轉基，尋找滿足上面兩個原則的情況。如下圖所示，中間的映射方向圖里數據在新基上映射點的方差就比右邊圖映射點方差大的多。而方差大則表示該數據在該方向上含有的信息量多，反之另一個新基的方向上含有的信息量就少的多。如果這個方向上的信息量非常少，即使舍去也無傷大雅，我們就可以考慮將其舍去，實現降維的操作。