四虎影视网址,亚洲精品在线观看视频,亚洲精品第一国产综合高清

如果我們有許多冗余的數(shù)據(jù)，我們可能需要對(duì)特征量進(jìn)行降維(Dimensionality Reduction)。

我們可以找到兩個(gè)非常相關(guān)的特征量，可視化，然后用一條新的直線來準(zhǔn)確的描述這兩個(gè)特征量。例如圖10-1所示，x1和x2是兩個(gè)單位不同本質(zhì)相同的特征量，我們可以對(duì)其降維。

圖10-1 一個(gè)2維到1維的例子

又如圖10-2所示的3維到2維的例子，通過對(duì)x1,x2,x3的可視化，發(fā)現(xiàn)雖然樣本處于3維空間，但是他們大多數(shù)都分布在同一個(gè)平面中，所以我們可以通過投影，將3維降為2維。

圖10-2 一個(gè)3維到2維的例子

降維的好處很明顯，它不僅可以數(shù)據(jù)減少對(duì)內(nèi)存的占用，而且還可以加快學(xué)習(xí)算法的執(zhí)行。

注意，降維只是減小特征量的個(gè)數(shù)(即n)而不是減小訓(xùn)練集的個(gè)數(shù)(即m)。

10.1.2 Motivation two: Visualization

我們可以知道，但特征量維數(shù)大于3時(shí)，我們幾乎不能對(duì)數(shù)據(jù)進(jìn)行可視化。所以，有時(shí)為了對(duì)數(shù)據(jù)進(jìn)行可視化，我們需要對(duì)其進(jìn)行降維。我們可以找到2個(gè)或3個(gè)具有代表性的特征量，他們(大致)可以概括其他的特征量。

例如，描述一個(gè)國(guó)家有很多特征量，比如GDP，人均GDP，人均壽命，平均家庭收入等等。想要研究國(guó)家的經(jīng)濟(jì)情況并進(jìn)行可視化，我們可以選出兩個(gè)具有代表性的特征量如GDP和人均GDP，然后對(duì)數(shù)據(jù)進(jìn)行可視化。如圖10-3所示。

圖10-3 一個(gè)可視化的例子

10.2 Principal Component Analysis

主成分分析(Principal Component Analysis : PCA)是最常用的降維算法。

10.2.1 Problem formulation

首先我們思考如下問題，對(duì)于正交屬性空間(對(duì)2維空間即為直角坐標(biāo)系)中的樣本點(diǎn)，如何用一個(gè)超平面(直線/平面的高維推廣)對(duì)所有樣本進(jìn)行恰當(dāng)?shù)谋磉_(dá)？

事實(shí)上，若存在這樣的超平面，那么它大概應(yīng)具有這樣的性質(zhì)：

最近重構(gòu)性: 樣本點(diǎn)到這個(gè)超平面的距離都足夠近；

最大可分性：樣本點(diǎn)在這個(gè)超平面上的投影能盡可能分開。

下面我們以3維降到2維為例，來試著理解為什么需要這兩種性質(zhì)。圖10-4給出了樣本在3維空間的分布情況，其中圖(2)是圖(1)旋轉(zhuǎn)調(diào)整后的結(jié)果。在10.1節(jié)我們默認(rèn)以紅色線所畫平面(不妨稱之為平面s1)為2維平面進(jìn)行投影(降維)，投影結(jié)果為圖10-5的(1)所示，這樣似乎還不錯(cuò)。那為什么不用藍(lán)色線所畫平面（不妨稱之為平面s2）進(jìn)行投影呢? 可以想象，用s2投影的結(jié)果將如圖10-5的(2)所示。

圖10-4 樣本在3維正交空間的分布

圖10-5 樣本投影在2維平面后的結(jié)果

由圖10-4可以很明顯的看出，對(duì)當(dāng)前樣本而言，s1平面比s2平面的最近重構(gòu)性要好（樣本離平面的距離更近）；由圖10-5可以很明顯的看出，對(duì)當(dāng)前樣本而言，s1平面比s2平面的最大可分性要好(樣本點(diǎn)更分散)。不難理解，如果選擇s2平面進(jìn)行投影降維，我們會(huì)丟失更多（相當(dāng)多）的特征量信息，因?yàn)樗耐队敖Y(jié)果甚至可以在轉(zhuǎn)化為1維。而在s1平面上的投影包含更多的信息(丟失的更少)。

這樣是否就是說我們從3維降到1維一定會(huì)丟失相當(dāng)多的信息呢? 其實(shí)也不一定，試想，如果平面s1投影結(jié)果和平面s2的類似，那么我們可以推斷這3個(gè)特征量本質(zhì)上的含義大致相同。所以即使直接從3維到1維也不會(huì)丟失較多的信息。這里也反映了我們需要知道如何選擇到底降到幾維會(huì)比較好(在10.2.3節(jié)中討論)。

讓我們高興的是，上面的例子也說明了最近重構(gòu)性和最大可分性可以同時(shí)滿足。更讓人興奮的是，分別以最近重構(gòu)性和最大可分性為目標(biāo)，能夠得到PCA的兩種等價(jià)推導(dǎo)。

一般的，將特征量從n維降到k維：

以最近重構(gòu)性為目標(biāo)，PCA的目標(biāo)是找到k個(gè)向量，將所有樣本投影到這k個(gè)向量構(gòu)成的超平面，使得投影的距離最小（或者說投影誤差projection error最小）。

以最大可分性為目標(biāo)，PCA的目標(biāo)是找到k個(gè)向量，將所有樣本投影到這k個(gè)向量構(gòu)成的超平面，使得樣本點(diǎn)的投影能夠盡可能的分開，也就是使投影后的樣本點(diǎn)方差最大化。

注意: PCA和線性回歸是不同的，如圖10-6所示，線性回歸是以平方誤差和(SSE)最小為目標(biāo)，參見1.2.4節(jié)；而PCA是使投影(二維即垂直)距離最小；PCA與標(biāo)記或者預(yù)測(cè)值完全無關(guān)，而線性回歸是為了預(yù)測(cè)y的值。

圖10-6 PCA不是線性回歸

分別基于上述兩種目標(biāo)的具體推導(dǎo)過程參見周志華老師的《機(jī)器學(xué)習(xí)》P230。從方差的角度推導(dǎo)參見李宏毅老師《機(jī)器學(xué)習(xí)》課程Unsupervised Learning: Principle Component Analysis（http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/PCA.mp4）。

兩種等價(jià)的推導(dǎo)結(jié)論是：對(duì)協(xié)方差矩陣進(jìn)行特征值分解，將求得的特征值進(jìn)行降序排序，再取前k個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成。

其中

10.2.2 Principal Component Analysis Algorithm

基于上一節(jié)給出的結(jié)論，下面給出PCA算法。

輸入：訓(xùn)練集：

過程：

數(shù)據(jù)預(yù)處理：對(duì)所有樣本進(jìn)行中心化(即使得樣本和為0)

計(jì)算樣本的協(xié)方差矩陣（Sigma）

在matlab中具體實(shí)現(xiàn)如下，其中X為m*n的矩陣：

Sigma = (1/m) * X'* X;

對(duì)2中求得的協(xié)方差矩陣Sigma進(jìn)行特征值分解

在實(shí)踐中通常對(duì)協(xié)方差矩陣進(jìn)行奇異值分解代替特征值分解。在matlab中實(shí)現(xiàn)如下：

[U, S, V] = svd(Sigma); (svd即為matlab中奇異值分解的內(nèi)置函數(shù))

取最大的k個(gè)特征值所對(duì)應(yīng)的特征向量

在matlab具體實(shí)現(xiàn)時(shí)，Ureduce =

經(jīng)過了上述4步得到了投影矩陣Ureduce，利用Ureduce就可以得到投影后的樣本值

下面總結(jié)在matlab中實(shí)現(xiàn)PCA的全部算法（假設(shè)數(shù)據(jù)已被中心化）

Sigma = (1/m) * X' * X; % compute the covariance matrix

[U,S,V] = svd(Sigma); % compute our projected directions

Ureduce = U(:,1:k); % take the first k directions

Z = Ureduce' * X; % compute the projected data points

10.2.3 Choosing the Number of Principal Components

如何選擇k（又稱為主成分的個(gè)數(shù)）的值？

首先，試想我們可以使用PCA來壓縮數(shù)據(jù)，我們應(yīng)該如何解壓？或者說如何回到原本的樣本值？事實(shí)上我們可以利用下列等式計(jì)算出原始數(shù)據(jù)的近似值Xapprox：

Xapprox = Z * Ureduce (m*n = m*k * k*n )

自然的，還原的數(shù)據(jù)Xapprox越接近原始數(shù)據(jù)X說明PCA誤差越小，基于這點(diǎn)，下面給出選擇k的一種方法：

結(jié)合PCA算法，選擇K的算法總結(jié)如下：

這個(gè)算法效率特別低。在實(shí)際應(yīng)用中，我們只需利用svd()函數(shù)，如下：

10.2.4 Advice for Applying PCA

PCA通常用來加快監(jiān)督學(xué)習(xí)算法。

PCA應(yīng)該只是通過訓(xùn)練集的特征量來獲取投影矩陣Ureduce，而不是交叉檢驗(yàn)集或測(cè)試集。但是獲取到Ureduce之后可以應(yīng)用在交叉檢驗(yàn)集和測(cè)試集。

避免使用PCA來防止過擬合，PCA只是對(duì)特征量X進(jìn)行降維，并沒有考慮Y的值；正則化是防止過擬合的有效方法。

不應(yīng)該在項(xiàng)目一開始就使用PCA: 花大量時(shí)間來選擇k值，很可能當(dāng)前項(xiàng)目并不需要使用PCA來降維。同時(shí)，PCA將特征量從n維降到k維，一定會(huì)丟失一些信息。

僅僅在我們需要用PCA的時(shí)候使用PCA: 降維丟失的信息可能在一定程度上是噪聲，使用PCA可以起到一定的去噪效果。

PCA通常用來壓縮數(shù)據(jù)以加快算法，減少內(nèi)存使用或磁盤占用，或者用于可視化(k=2, 3)。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4657

瀏覽量
93925
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8466

瀏覽量
133540

原文標(biāo)題：Stanford機(jī)器學(xué)習(xí)筆記-10. 降維(Dimensionality Reduction)

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

常用python機(jī)器學(xué)習(xí)庫盤點(diǎn)

現(xiàn)在人工智能非常火爆，機(jī)器學(xué)習(xí)應(yīng)該算是人工智能里面的一個(gè)子領(lǐng)域，而其中有一塊是對(duì)文本進(jìn)行分析，對(duì)數(shù)據(jù)進(jìn)行深入的挖掘提取一些

發(fā)表于 05-10 15:20

文本分類中一種混合型特征降維方法

提出一種基于特征選擇和特征抽取的混合型文本特征降維方法，分析基于選擇和抽取的特征

發(fā)表于 04-01 08:46 ?7次下載

基于Autoencoder網(wǎng)絡(luò)的數(shù)據(jù)降維和重構(gòu)

在機(jī)器學(xué)習(xí)，模式識(shí)別以及數(shù)據(jù)挖掘等諸多研究領(lǐng)域中，往往會(huì)面臨著“維數(shù)災(zāi)難”問題。因此，特征數(shù)據(jù)的

發(fā)表于 11-18 13:58 ?16次下載

基于雜波協(xié)方差矩陣特征向量分析STAP降維方法

基于雜波協(xié)方差矩陣特征向量分析STAP降維方法本文在對(duì)雜波協(xié)方差矩陣的特征值、陣特征向量做出分析的基礎(chǔ)上，討論了無信噪比損失的

發(fā)表于 10-21 08:51 ?1782次閱讀

基于雜波協(xié)方差矩陣<b class='flag-5'>特征</b>向量分析STAP<b class='flag-5'>降</b><b class='flag-5'>維</b>方法

基于譜特征嵌入的腦網(wǎng)絡(luò)狀態(tài)觀測(cè)矩陣降維方法

拉普拉斯矩陣；然后對(duì)拉普拉斯矩陣進(jìn)行特征分解，選取前兩個(gè)主要的特征向量構(gòu)建2維特征向量空間以達(dá)到數(shù)據(jù)集由高

發(fā)表于 11-29 16:36 ?0次下載

想掌握機(jī)器學(xué)習(xí)技術(shù)？從了解特征工程開始

，對(duì)數(shù)據(jù)進(jìn)行升維來提升特征解釋能力；2.特征冗余，維度太高，噪聲太多，我們可以通過

發(fā)表于 12-05 09:36 ?2204次閱讀

如何使用自適應(yīng)嵌入的半監(jiān)督多視角特征實(shí)現(xiàn)降維的方法概述

半監(jiān)督模式下的多視角特征降維方法，大多并未考慮到不同視角間特征投影的差異，且由于缺乏對(duì)降維后的低

發(fā)表于 12-18 14:19 ?10次下載

如何使用自適應(yīng)嵌入的半監(jiān)督多視角<b class='flag-5'>特征</b>實(shí)現(xiàn)<b class='flag-5'>降</b><b class='flag-5'>維</b>的方法概述

機(jī)器學(xué)習(xí)算法都有哪一些

降維是機(jī)器學(xué)習(xí)另一個(gè)重要的領(lǐng)域，降維有很多重要的應(yīng)用，特

發(fā)表于 03-30 09:53 ?2467次閱讀

機(jī)器學(xué)習(xí)之特征提取 VS 特征選擇

機(jī)器學(xué)習(xí)中特征選擇和特征提取區(qū)別 demi 在周四, 06/11/2020 - 16:08 提交 1. 特征提取 V.S

發(fā)表于 09-14 16:23 ?4262次閱讀

如何使用FPGA實(shí)現(xiàn)高光譜圖像奇異值分解降維技術(shù)

自相關(guān)模塊、特征求解模塊、特征提取模塊和降維實(shí)現(xiàn)模塊4個(gè)模塊進(jìn)行編程實(shí)現(xiàn)、仿真和驗(yàn)證。仿真結(jié)果表明。高光譜圖像

發(fā)表于 03-11 16:07 ?10次下載