数据预处理与降维
1 為什么要進行數(shù)據(jù)預處理
1.1 數(shù)據(jù)清洗
1.1.1 數(shù)據(jù)清洗常見問題
a. 缺失值處理
b. 噪聲數(shù)據(jù)處理
c. 異常值處理
d. 臟數(shù)據(jù)處理
e. 去重處理
f. ETL - extract、transform、load
g. 離群點與噪聲
????????????????噪聲: 被測量的變量的隨機誤差或者方差(一般指錯誤的數(shù)據(jù))?
????????????????離群點: 數(shù)據(jù)集中包含一些數(shù)據(jù)對象,他們與數(shù)據(jù)的一般行為或模型不一致。(正常值, 但偏離大多數(shù)數(shù)據(jù))?
h. 數(shù)據(jù)清洗常見問題簡介
1.2 數(shù)據(jù)變換的一般方法
1.3 離群點檢測
1.4 數(shù)據(jù)簡化
1.4.1 數(shù)據(jù)簡化定義
????????????????也稱為數(shù)據(jù)“規(guī)約”,指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,它小得多, 但是保持原始數(shù)據(jù)的完整性。也就是說,在歸約后的數(shù)據(jù)集上挖掘更有效果,仍然產(chǎn)生相同( 或幾乎形同)的分析結(jié)果。注意:用于數(shù)據(jù)歸約的時間不應當超過或“抵消”在歸約后的數(shù)據(jù)挖掘上挖掘節(jié)省的時間。
1.4.2 數(shù)據(jù)簡化常見方法
a. 維規(guī)約 - 即“降維”
????????????????也稱“降維”,減少要考慮的變量及屬性的個數(shù)。方法包括小波變換和主成分分析,他們把原始數(shù)據(jù)變換或投影到較小的空間。另外屬性子集選擇也是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測和刪除。
b. 數(shù)量規(guī)約
????????????????用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù)。
c. 數(shù)據(jù)壓縮
????????????????使用變換,以便得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約稱為無損的。反之,稱之為有損的。維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮。
2 數(shù)據(jù)降維
2.1 選擇合適的角度投影,你將看到更多的信息
????????????????????????????????????????????????????????????????
2.1 什么是數(shù)據(jù)降維
2.1.1 概念:將數(shù)據(jù)從高維特征空間向低緯特征空間映射的過程
2.1.2 目的: 直觀地好處是維度降低了,便于計算和可視化,其更深層次的意義在于有效信息的提取綜合及無用信息的擯棄。
????????????????????????????????????????????????????????????????
2.2 為什么要進行數(shù)據(jù)降維
2.2.1 共線性
????????????????數(shù)據(jù)的多重共線性:特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會導致解的空間不穩(wěn)定,從而導致模型的泛化能力弱;
2.2.2 稀疏性
????????????????高緯空間樣本具有稀疏性,導致模型比較難找到數(shù)據(jù)特征;
2.2.3 找規(guī)律
????????????????過多的變量會妨礙模型查找規(guī)律;
2.2.4 潛在關(guān)系
????????????????僅僅考慮單個變量對于目標屬性的影響可能忽略變量之間的潛在關(guān)系;
2.2.5 減少特征屬性
????????????????減少特征屬性的個數(shù);
2.2.6 相互獨立
????????????????確保特征屬性之間是相互獨立的;
2.3 數(shù)據(jù)降維的好處
????????????????有時候也存在特征矩陣過大,導致計算量比較大,訓練時間長的問題。?
????????????????降維可以方便數(shù)據(jù)可視化+數(shù)據(jù)分析+數(shù)據(jù)壓縮+數(shù)據(jù)提取等。
2.4 數(shù)據(jù)降維的常見方法
????????????????????????????????????????????????????????????????
2.4.1 LDA(線性判別式分析)法
????????????????LDA的思想可以用一句話概括,就是“投影后類內(nèi)方差最小,類間方差最大”。我們要將數(shù)據(jù)在低維度上進行投影,投影后希望每一種類別數(shù)據(jù)的投影點盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。
a. 優(yōu)點
在降維過程中可以使用類別的先驗知識經(jīng)驗,而像PCA這樣的無監(jiān)督學習則無法使用類別先驗知識;
LDA在樣本分類信息依賴均值而不是方差的時候,比PCA之類的算法較優(yōu);
b. 缺點
LDA不適合對非高斯分布樣本進行降維,PCA也有這個問題。
LDA降維最多降到類別數(shù)k-1的維數(shù),如果我們降維的維度大于k-1,則不能使用LDA。當然目前有一些LDA的進化版算法可以繞過這個問題;
LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好;
LDA可能過度擬合數(shù)據(jù)
2.4.2 PCA(主成分分析)法:
????????????????主成分分析(Principal components analysis,以下簡稱PCA)是重要的降維方法之一。PCA顧名思義,就是找出數(shù)據(jù)里最主要的方面,用數(shù)據(jù)里最主要的方面來代替原始數(shù)據(jù)。中心思想:“使得降維后數(shù)據(jù)整體的方差最大!”
2.5 PCA與LDA降維方法對比分析
?????????????????
?????????????????????? A:PCA降維????????????????????????????????????????????????????????????????????????????????????????????????????????????B:LDA降維
PCA與LDA的區(qū)別
3 流形學習方法
3.1 流形學習思想
????????????????基本思想就是在高維空間中發(fā)現(xiàn)低維結(jié)構(gòu)。?
?????????????????????????????????????????????????????????????????????????????????????????
????????????????這些點都處于一個三維空間里,但我們?nèi)艘豢淳椭浪褚粔K卷起來的布,圖中圈出來的兩個點更合理的距離是A中藍色實線標注的距離,而不是兩個點之間的歐式距離(A中藍色虛線)。?
????????????????此時如果你要用PCA降維的話,它根本無法發(fā)現(xiàn)這樣卷曲的結(jié)構(gòu)(因為PCA是典型的線性降維,而圖示的結(jié)構(gòu)顯然是非線性的),最后的降維結(jié)果就會一團亂麻,沒法很好的反映點之間的關(guān)系。而流形學習在這樣的場景就會有很好的效果 。?
????????????????????????????????????????????????????????????????????
3.2 流形學習的步驟
通過kNN(k-Nearest Neighbor)找到點的k個最近鄰(小范圍),將它們連接起來構(gòu)造一張圖。
通過計算圖中各點之間的最短路徑,作為點之間的距離dij放入距離矩陣D
將D傳給流形學習算法(MDS),得到降維后的結(jié)果。
?????????????????????????????????????????
3.3 PCA與流形學習對比
PCA:提供點的坐標降維,找出最能體現(xiàn)數(shù)據(jù)特點的特征?
流形學習:提供點之間距離的降維,更注重原始數(shù)據(jù)之間的相對關(guān)系并展現(xiàn)出來(多維結(jié)構(gòu))
4 各種降維方法展示
????????????????????????????????????????
---------------------?
作者:撇味大白菜?
來源:CSDN?
原文:https://blog.csdn.net/weixin_42219368/article/details/81009387?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請附上博文鏈接!
總結(jié)
- 上一篇: 初探百度大数据分析挖掘平台Jarvis
- 下一篇: categorical data and