python统计分析---6.主成分分析
生活随笔
收集整理的這篇文章主要介紹了
python统计分析---6.主成分分析
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 1. 主成分分析
1. 主成分分析
#導(dǎo)入包 import numpy as np import pandas as pd import statsmodels.formula.api as smf from sklearn import linear_model import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline#使用pandas讀取數(shù)據(jù)支持xls和xlsx data=pd.read_excel("bankloan_binning.xlsx") data.head(6)#顯示數(shù)據(jù)開(kāi)頭6行主成分分析自帶的案例
import mglearn mglearn.plots.plot_pca_illustration()可能需要先導(dǎo)入mglearn包
pip install mglearn- 主成分分析特點(diǎn)
降維:將高維降為低維
降維導(dǎo)致信息量損失
降維損失達(dá)到70%以?xún)?nèi)就能達(dá)到要求
PCA相當(dāng)于一種特殊的回歸
主成分幾個(gè)標(biāo)準(zhǔn)
1. Z1>50%;
2. Z1+Z2>70%;
3. Z1/Z2>3;
4. 盡量壓縮到前兩個(gè)主成分Z1和Z2(理想的情況下),因?yàn)樵谧鰯?shù)據(jù)展示的時(shí)候二維空間更好的表達(dá)圖形
5. 不管有多少維度盡量用兩個(gè)維度來(lái)表達(dá)
降維到2到3個(gè)為最佳
Z1和Z2不是特征變量的任何一個(gè),而是這些變量整合而來(lái)的共同成分,整合到一起的兩個(gè)主要特征。
大數(shù)據(jù)的包實(shí)現(xiàn)主成分分析
小數(shù)據(jù)的包實(shí)現(xiàn)主成分分析
from statsmodels.multivariate.pca import PCA # 小數(shù)據(jù)的包實(shí)現(xiàn)主成分分析兩個(gè)包都能實(shí)現(xiàn)主成分分析,但是適用場(chǎng)景會(huì)不一樣。
- 大數(shù)據(jù)分析
- 小數(shù)據(jù)分析
總結(jié)
以上是生活随笔為你收集整理的python统计分析---6.主成分分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Python统计分析--- 5.统计法与
- 下一篇: python的matplotlib问题