python主成分分析各变量重要性_主成分分析的理解
主成分分析
主成分分析PCA是將多指標(biāo)重新組合成一組新的無(wú)相關(guān)的幾個(gè)綜合指標(biāo),是根據(jù)實(shí)際需要從中選取盡可能少的綜合指標(biāo),以達(dá)到盡可能多地反應(yīng)原指標(biāo)信息的分析方法。由于這種方法的第一主成分在所有的原始變量中方差最大,因而綜合評(píng)價(jià)函數(shù)的方差總不會(huì)超過第一主成分的方差,所以該方法有一定的缺陷,且提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較小),所以在變量較少時(shí)就不太適合先用主成分篩選變量,這個(gè)視數(shù)據(jù)情況而定
主成分分析實(shí)現(xiàn)步驟:
1、原始數(shù)據(jù)標(biāo)準(zhǔn)化,消除變量量綱不同的影響;
2、計(jì)算相關(guān)系數(shù)矩陣,計(jì)算特征值和對(duì)應(yīng)的特征向量;
3、計(jì)算貢獻(xiàn)率和累計(jì)貢獻(xiàn)率。
疑問解答:
1.計(jì)算特征值的含義?
PCA的本質(zhì)是對(duì)角化協(xié)方差矩陣,后對(duì)一個(gè)n x n的對(duì)稱協(xié)方差矩陣分解求特征值和特征向量,就會(huì)產(chǎn)生n個(gè)n維正交基,每個(gè)正交基對(duì)應(yīng)一個(gè)特征值,吧矩陣投影在這n個(gè)基上,此時(shí)的特征值的橫就表示在該基上的投影長(zhǎng)度,特征值越大,說(shuō)明矩陣對(duì)應(yīng)的特征向量上的方差越大,樣本點(diǎn)越離散,越容易區(qū)分,包含的信息量越多
2.主成分系數(shù)
根據(jù)主成分系數(shù)判斷主成分主要依賴的幾個(gè)變量,根據(jù)主要依賴變量總結(jié)該主成分(綜合指標(biāo))代表的性質(zhì)
3.主成分得分
主成分得分其實(shí)就是降維之后數(shù)據(jù),可對(duì)降維之后的主成分得分進(jìn)行聚類分析,得到相似的類別群體
總結(jié)
以上是生活随笔為你收集整理的python主成分分析各变量重要性_主成分分析的理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用Python构建和可视化决策树
- 下一篇: websocket python爬虫_p