关于PCA算法的一点学习总结
本文出處:http://blog.csdn.net/xizhibei
=============================
PCA,也就是PrincipalComponents Analysis,主成份分析,是個非常優(yōu)秀的算法,依照書上的說法:
尋找最小均方意義下,最能代表原始數(shù)據(jù)的投影方法
然后自己的說法就是:主要用于特征的降維
另外,這個算法也有一個經(jīng)典的應(yīng)用:人臉識別。這里略微扯一下,無非是把處理好的人臉圖片的每一行湊一起作為特征向量,然后用PAC算法降維搞定之。
PCA的主要思想是尋找到數(shù)據(jù)的主軸方向,由主軸構(gòu)成一個新的坐標(biāo)系,這里的維數(shù)能夠比原維數(shù)低,然后數(shù)據(jù)由原坐標(biāo)系向新的坐標(biāo)系投影,這個投影的過程就能夠是降維的過程。
推導(dǎo)過程神馬的就不扯了,推薦一個課件:http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf,講得挺具體的
然后說下算法的步驟
1.計算全部樣本的均值m和散布矩陣S,所謂散布矩陣同協(xié)方差矩陣; 2.計算S的特征值,然后由大到小排序; 3.選擇前n'個特征值相應(yīng)的特征矢量作成一個變換矩陣E=[e1, e2, …, en’]; 4.最后,對于之前每個n維的特征矢量x能夠轉(zhuǎn)換為n’維的新特征矢量y:? y = transpose(E)(x-m)
最后還得親自做下才干記得住:用Python的numpy做的,用C做的話那就是沒事找事,太費事了,由于對numpy不熟,以下可能有錯誤,望各位大大指正
mat = np.load("data.npy")#每一行一個類別數(shù)字標(biāo)記與一個特征向量
data = np.matrix(mat[:,1:])
avg = np.average(data,0)
means = data - avgtmp = np.transpose(means) * means / N #N為特征數(shù)量
D,V = np.linalg.eig(tmp)#DV分別相應(yīng)特征值與特征向量組成的向量,須要注意下的是,結(jié)果是自己主動排好序的,再次膜拜numpy OTL
#print V
#print D
E = V[0:100,:]#這里僅僅是簡單取前100維數(shù)據(jù),實際情況能夠考慮取前80%之類的
y = np.matrix(E) * np.transpose(means)#得到降維后的特征向量np.save("final",y)另外,須要提一下的是OpenCV(無所不能的OpenCV啊OTL)中有PCA的實現(xiàn):
void cvCalcPCA( const CvArr* data,//輸入數(shù)據(jù) CvArr* avg, //平均(輸出)CvArr* eigenvalues, //特征值(輸出)CvArr* eigenvectors, //特征向量(輸出)int flags );//輸入數(shù)據(jù)中的特征向量是怎么放的,比方CV_PCA_DATA_AS_ROW最后,說下PCA的缺點:PCA將全部的樣本(特征向量集合)作為一個總體對待,去尋找一個均方誤差最小意義下的最優(yōu)線性映射投影,而忽略了類別屬性,而它所忽略的投影方向有可能剛好包括了重要的可分性信息
嗯,最后的最后——好了,沒了,的確是最后了
強烈推薦:一篇能把PAC說得非常透徹的文章《特征向量物理意義》:http://blog.sina.com.cn/s/blog_49a1f42e0100fvdu.html
轉(zhuǎn)載于:https://www.cnblogs.com/hrhguanli/p/4075686.html
總結(jié)
以上是生活随笔為你收集整理的关于PCA算法的一点学习总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android 中自定义控件和属性(at
- 下一篇: 疑问