在之前的格物匯文章中,我們介紹了特征抽取的經(jīng)典算法——主成分分析(PCA),了解了PCA算法實(shí)質(zhì)上是進(jìn)行了一次坐標(biāo)軸旋轉(zhuǎn),盡可能讓數(shù)據(jù)映射在新坐標(biāo)軸方向上的方差盡可能大,并且讓原數(shù)據(jù)與新映射的數(shù)據(jù)在距離的變化上盡可能小。方差較大的方向代表數(shù)據(jù)含有的信息量較大,建議保留。方差較小的方向代表數(shù)據(jù)含有的信息量較少,建議舍棄。今天我們就來看一下PCA的具體應(yīng)用案例和特征映射的另一種方法:線性判別分析(LDA)。
PCA案例
在機(jī)器學(xué)習(xí)中,所使用的數(shù)據(jù)往往維數(shù)很大,我們需要使用降維的方法來突顯信息含量較大的數(shù)據(jù),PCA就是一個(gè)很好的降維方法。下面我們來看一個(gè)具體的應(yīng)用案例,為了簡單起見,我們使用一個(gè)較小的數(shù)據(jù)集來展示:
顯而易見,我們數(shù)據(jù)有6維,維數(shù)雖然不是很多但不一定代表數(shù)據(jù)不可以降維。我們使用sklearn中的PCA算法擬合數(shù)據(jù)集得到如下的結(jié)果:
我們可以看到經(jīng)過PCA降維后依然生成了新的6個(gè)維度,但是數(shù)據(jù)映射在每一個(gè)維度上的方差大小不一樣。我們會(huì)對(duì)每一個(gè)維度上的方差進(jìn)行歸一化,每一個(gè)維度上的方差量我們稱為可解釋的方差量(Explained Variance)。由圖可知,每一個(gè)維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據(jù)經(jīng)驗(yàn)來說我們期望可解釋的方差量累計(jì)值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號(hào)中的數(shù)字為累計(jì)可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標(biāo)軸上的映射向量大小。在前兩維度上表現(xiàn)如下圖所示:
PCA雖然能實(shí)現(xiàn)很好的降維效果,但是它卻是一種無監(jiān)督的方法。實(shí)際上我們更加希望對(duì)于有類別標(biāo)簽的數(shù)據(jù)(有監(jiān)督),也能實(shí)現(xiàn)降維,并且降維后能更好的區(qū)分每一個(gè)類。此時(shí),特征抽取的另一種經(jīng)典算法——線性判別分析(LDA)就閃亮登場了。
審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
智能計(jì)算
-
智能制造
-
工業(yè)互聯(lián)網(wǎng)
相關(guān)推薦
的乘法器和除法器設(shè)計(jì),在不同專業(yè)芯片領(lǐng)域有著廣泛應(yīng)用的數(shù)字信號(hào)發(fā)生器、復(fù)數(shù)求模求角度運(yùn)算器、普通濾波器、E△ADC中使用的抽取濾波器、基于 E△結(jié)構(gòu)實(shí)現(xiàn)的小數(shù)倍分頻器、CRC校驗(yàn)器等。每個(gè)電路均給出了算法
發(fā)表于 11-21 17:14
1.用ADS采集數(shù)據(jù),將時(shí)域的數(shù)據(jù)進(jìn)行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數(shù)據(jù)嗎?
2.這個(gè)和手冊(cè)上的頻譜不
發(fā)表于 11-20 06:05
我客戶目前正在評(píng)估AMC1306M25,有以下疑問需要解答,可否幫忙確認(rèn)一下:
圖為官方的例程,兩個(gè)都應(yīng)該指的是抽取率OSR。但是當(dāng)客戶在第一個(gè)函數(shù)中填的抽取率為64,到第二張圖中ratio的值
發(fā)表于 11-14 07:09
數(shù)據(jù)中提取數(shù)值表示以供無監(jiān)督模型使用的方法(例如,試圖從之前非結(jié)構(gòu)化的數(shù)據(jù)集中提取結(jié)構(gòu))。特征工程包括這兩種情況,以及更多內(nèi)容。數(shù)據(jù)從業(yè)者通常依賴ML和深度學(xué)習(xí)算法
發(fā)表于 10-23 08:07
?279次閱讀
AD7190可以通過模式寄存器的FS[0:9]設(shè)置輸出速率, 0-1023的范圍;此時(shí)設(shè)置的數(shù)據(jù)速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比?
關(guān)于抽取濾波器,此時(shí)我設(shè)置的為1023,那我是否
發(fā)表于 09-09 06:11
息壤一體化智算服務(wù)平臺(tái)升級(jí),天翼云幫助AI天命人踏上取經(jīng)路
發(fā)表于 09-05 16:06
?2300次閱讀
圖像識(shí)別算法是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,其目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解和識(shí)別圖像中的內(nèi)容。圖像識(shí)別算法的核心技術(shù)包括以下幾個(gè)方面: 特征提取 特征提取是圖像識(shí)別
發(fā)表于 07-16 11:02
?654次閱讀
在使用rtthread settings配置完i2c后,與pca9535pw的第一通訊報(bào)錯(cuò),不知道為什么?代碼如下:
main:
/* 初始化PCA
發(fā)表于 07-09 08:04
電子發(fā)燒友網(wǎng)為你提供ON Semiconductor(ON Semiconductor)PCA9655E相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有PCA9655E的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料,PCA9655E真值表,
發(fā)表于 06-28 16:28
關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含3類共150條記錄,每類各50個(gè)數(shù)
發(fā)表于 06-27 08:27
?1665次閱讀
在工業(yè)自動(dòng)化領(lǐng)域,變頻器和PLC/PCA系統(tǒng)是兩個(gè)不可或缺的核心組成部分。變頻器以其對(duì)電機(jī)轉(zhuǎn)速和扭矩的精確控制,為工業(yè)自動(dòng)化提供了強(qiáng)大的動(dòng)力支持;而PLC/PCA系統(tǒng)則以其強(qiáng)大的邏輯處理能力和靈活
發(fā)表于 06-25 14:48
?729次閱讀
在電氣維修和檢測中,萬用表是一種不可或缺的工具。它能夠幫助我們快速準(zhǔn)確地判斷電路中的各種問題,如短路、斷路和接地等。本文將詳細(xì)介紹如何使用萬用表來檢查線路是短路還是接地,并圍繞這一主題展開詳細(xì)的討論。
發(fā)表于 05-30 14:55
?2603次閱讀
energy和Bluetooth smart兩者又有什么區(qū)別?我的應(yīng)用應(yīng)該選經(jīng)典藍(lán)牙技術(shù)還是低功耗藍(lán)牙技術(shù)?首先,在2010年以前,當(dāng)我們談?wù)撍{(lán)牙的時(shí)候,就是在說的經(jīng)典藍(lán)牙,因?yàn)槟莻€(gè)時(shí)候還沒有低功耗藍(lán)牙
發(fā)表于 05-23 17:57
?1279次閱讀
鉗形表和萬用表都是電氣測量中常用的工具,它們各自具有獨(dú)特的功能和優(yōu)勢。選擇鉗形表還是萬用表取決于具體的測量需求、使用場景和個(gè)人偏好。
發(fā)表于 05-09 17:03
?5182次閱讀
首先,問大家一個(gè)問題:你們寫單片機(jī)程序【死循環(huán)】時(shí),喜歡用for(;;)還是while(1)?快來為你喜歡用的【死循環(huán)】打call,評(píng)論區(qū)等你哦~一位工程師發(fā)現(xiàn),國外工程師在給demo在做死循環(huán)時(shí)
發(fā)表于 04-29 08:10
?1374次閱讀
評(píng)論