當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

关于PCA算法的一点学习总结

發(fā)布時間：2023/11/27 生活经验 30 豆豆

生活随笔收集整理的這篇文章主要介紹了关于PCA算法的一点学习总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文出處：http://blog.csdn.net/xizhibei

=============================

PCA，也就是PrincipalComponents Analysis，主成份分析，是個非常優(yōu)秀的算法，依照書上的說法：

尋找最小均方意義下，最能代表原始數(shù)據(jù)的投影方法

然后自己的說法就是：主要用于特征的降維

另外，這個算法也有一個經(jīng)典的應(yīng)用：人臉識別。這里略微扯一下，無非是把處理好的人臉圖片的每一行湊一起作為特征向量，然后用PAC算法降維搞定之。

PCA的主要思想是尋找到數(shù)據(jù)的主軸方向，由主軸構(gòu)成一個新的坐標(biāo)系，這里的維數(shù)能夠比原維數(shù)低，然后數(shù)據(jù)由原坐標(biāo)系向新的坐標(biāo)系投影，這個投影的過程就能夠是降維的過程。

推導(dǎo)過程神馬的就不扯了，推薦一個課件：http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf，講得挺具體的

然后說下算法的步驟

1.計算全部樣本的均值m和散布矩陣S，所謂散布矩陣同協(xié)方差矩陣；

2.計算S的特征值，然后由大到小排序；

3.選擇前n'個特征值相應(yīng)的特征矢量作成一個變換矩陣E=[e1, e2, …, en’]；

4.最后，對于之前每個n維的特征矢量x能夠轉(zhuǎn)換為n’維的新特征矢量y：

? y = transpose(E)(x-m)

最后還得親自做下才干記得住：用Python的numpy做的，用C做的話那就是沒事找事，太費事了，由于對numpy不熟，以下可能有錯誤，望各位大大指正

mat = np.load("data.npy")#每一行一個類別數(shù)字標(biāo)記與一個特征向量
data = np.matrix(mat[:,1:])
avg = np.average(data,0)
means = data - avgtmp = np.transpose(means) * means / N #N為特征數(shù)量
D,V = np.linalg.eig(tmp)#DV分別相應(yīng)特征值與特征向量組成的向量，須要注意下的是，結(jié)果是自己主動排好序的，再次膜拜numpy  OTL
#print V
#print D
E = V[0:100,:]#這里僅僅是簡單取前100維數(shù)據(jù)，實際情況能夠考慮取前80%之類的
y = np.matrix(E) * np.transpose(means)#得到降維后的特征向量np.save("final",y)

另外，須要提一下的是OpenCV（無所不能的OpenCV啊OTL）中有PCA的實現(xiàn)：

void cvCalcPCA( const CvArr* data,//輸入數(shù)據(jù) CvArr* avg, //平均（輸出）CvArr* eigenvalues, //特征值（輸出）CvArr* eigenvectors, //特征向量（輸出）int flags );//輸入數(shù)據(jù)中的特征向量是怎么放的，比方CV_PCA_DATA_AS_ROW

最后，說下PCA的缺點：PCA將全部的樣本（特征向量集合）作為一個總體對待，去尋找一個均方誤差最小意義下的最優(yōu)線性映射投影，而忽略了類別屬性，而它所忽略的投影方向有可能剛好包括了重要的可分性信息

嗯，最后的最后——好了，沒了，的確是最后了

強烈推薦：一篇能把PAC說得非常透徹的文章《特征向量物理意義》：http://blog.sina.com.cn/s/blog_49a1f42e0100fvdu.html

轉(zhuǎn)載于:https://www.cnblogs.com/hrhguanli/p/4075686.html

總結(jié)

以上是生活随笔為你收集整理的关于PCA算法的一点学习总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

算法
PCA

上一篇： Android 中自定义控件和属性(at
下一篇：疑问