高維數據的概念其實不難,簡單的說就是多維數據的意思。平時我們經常接觸的是一維數據或者可以寫成表形式的二維數據,高維數據也可以類推,不過維數較高的時候,直觀表示很難。
目前高維數據挖掘是研究重點,
這是它的特點:
高維數據挖掘是基于高維度的一種數據挖掘,它和傳統的數據挖掘最主要的區別在于它的高維度。目前高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易,導致數據庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
由于高維數據存在的普遍性,使得對高維數據挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數據挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常采用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數據挖掘算法的性能下降,另一方面很多基于全空間距離函數的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然后用低維數據的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。
高維數據挖掘是基于高維度的一種數據挖掘,它和傳統的數據挖掘最主要的區別在于它的高維度。目前高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易,導致數據庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
由于高維數據存在的普遍性,使得對高維數據挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數據挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常采用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數據挖掘算法的性能下降,另一方面很多基于全空間距離函數的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然后用低維數據的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。
高維數據處理
PCA
非監督
利用協方差矩陣尋找投射函數ω使得投射到低維空間后的最大離散(方差)使用拉格朗日解不等式
根據求得的特征值進行特征向量的選擇
一般求信息率90%以上的特征向量集
對于N遠大于D的數據,使用SVD(奇異值)進行求解
先進行一次自乘降維再進行訓練
LDA
監督性
尋求使得類內方差最小并且類間差異性最大的投射空間
SOM
聚類方法
- 取差異性對周圍范圍的鄰居進行更新
MDS
非監督降維
注重數據的相對距離(關系),有利于流型數據的降維和可視化
但對原數據整體結構破壞嚴重
三個基本步驟:
計算stress
更新投射函數
檢查disparity
ReliefF
ReliefF處理多分類的情況,Relief只能處理兩分類
用于對特征進行賦權,通過權值進行過濾
算法輸入: 數據集D, 包含c類樣本,子集采樣數m,權值閾值δ, kNN系數k算法步驟:
LLE和ISOMAP
一些總結
高緯度數據建模的基本思想是尋找函數f(x):
f(x)將數據投射到一個低維的空間
在低維空間中數據的某些特征可以保持
方法的選擇:
注重降低維度并提高數據的可分析性則使用PCA,對于大量數據使用SVD
注重類間區分和類內區分,則使用LDA
注重數據的相互關聯,并且數據復雜不可分,則使用MDS
對于流形,使用LLE和IOSMAP
-
數據
+關注
關注
8文章
7048瀏覽量
89073 -
數據挖掘
+關注
關注
1文章
406瀏覽量
24245 -
高維數據
+關注
關注
1文章
1瀏覽量
1408
發布評論請先 登錄
相關推薦
評論