PAC—主成分分析方法
一.PAC方法引入與介紹
?(1)PAC 引入
???如圖1所示:
圖1.PAC 方法簡介?(2)PAC 基本思想
???如圖2所示:
圖2.PAC 方法基本思想?(3)PAC 求解步驟
???【1】原始數據標準化處理
???【2】計算樣本 相關系數矩陣
???【3】計算 相關系數矩陣 R的特征值和相應的特征向量
???【4】選擇主成分
???【5】計算主成分得分
???【6】依據主成分得分對問題分析與建模
?(4)PAC 方法的作用與利弊
???如圖4所示:
圖4.PAC 方法的優與劣二.PAC方法求解實例
?(1)案例問題
???如圖5所示:
圖5.問題背景與數據?(2)求解代碼
???如下所示:
%== PCA stepping demonstration program==%% Read data from a file (e.g. excel) and place it in a matrix. A=xlsread('Coporation_evaluation.xlsx', 'B2:I16');% Transfer orginal data to standard data a=size(A,1); % Get the row number of A b=size(A,2); % Get the column number of A for i=1:bSA(:,i)=(A(:,i)-mean(A(:,i)))/std(A(:,i)); % Matrix normalization end% Calculate correlation matrix of A. CM=corrcoef(SA);% Calculate eigenvectors and eigenvalues of correlation matrix. [V, D]=eig(CM);% Get the eigenvalue sequence according to descending and the corrosponding % attribution rates and accumulation rates. for j=1:bDS(j,1)=D(b+1-j, b+1-j); end for i=1:bDS(i,2)=DS(i,1)/sum(DS(:,1));DS(i,3)=sum(DS(1:i,1))/sum(DS(:,1)); end % Calculate the numvber of principal components. T=0.9; % set the threshold value for evaluating information preservation level. for K=1:bif DS(K,3)>=TCom_num=K;break;end end% Get the eigenvectors of the Com_num principal components for j=1:Com_numPV(:,j)=V(:,b+1-j); end% Calculate the new socres of the orginal items new_score=SA*PV;for i=1:atotal_score(i,2)=sum(new_score(i,:));total_score(i,1)=i; end new_score_s=sortrows(total_score,-2);% Displays result reports disp('特征值及貢獻率:') DS disp('閥值T對應的主成分數與特征向量:') Com_num PV disp('主成分分數:') new_score disp('主成分分數排序:') new_score_s三.PAC方法總結
?(1)詳細講述步驟:
? ? ?【1】由于原始數據的數量級(量綱)常常不同,所以我們首先要對不同的變量類型進行標準化,消除量綱的影響。具體就是每個值減去該變量類型均值然后除以該變量類型的標準差。
? ? ?【2】計算樣本相關系數矩陣就直接是按照圖6方式求解即可,圖3中公式有誤。
? ? ?【3】計算相關系數矩陣R的特征值和相應的特征向量。使用函數可直接求得[V,D]。矩陣V是一列列的特征向量,而D是對角矩陣,對角線上的值就是特征值,并且特征值是由小到大排序的(越往右下)。
? ? ?【4】將特征值由大到小排序,然后計算貢獻度和累計貢獻度:貢獻度=特征值/特征值之和;累計貢獻度=從第一行到此行特征值之和/總特征值之和。
? ? ?【5】設定閾值,選擇主成分(特征值和對應的特征向量)。規定閾值T是主成分需要累計的貢獻度。當累計貢獻度大于等于T即完成特征值的選擇。
? ? ?【6】翻轉得到主成分包含的特征值對應的特征向量。將標準化矩陣映射到主成分上。計算每一組得分:得分=每一行主成分得分之和。就得到了原始數據在主成分(降維)上的得分。
?(2)意義分析:
? ? ?【1】PCA主成分分析方法:
? ? ? ?針對于:多個變量存在一定相關性時;
? ? ? ?適用于:變量個數較多或者變量之間存在復雜的關系時;
? ? ? ?作用是:消除評價指標間的相關影響(如果互相有關聯關系,則都評價肯定是不合理不客觀不公正的,關聯性越強越不合理PAC作用越強)。可減少指標選擇工作量(減少指標個數)。
? ? ?【2】案例作用分析:
? ? ? ?企業的各個評價指標之間明顯是有關聯的。所以直接標準化然后計算得分是不合理的。主成分分析法就提取出互不相關的變量(維度),然后標準化數據進行映射,提取出主成分來評價。作用:(主要)是消除了指標之間的相關影響,(次要)是減少了變量個數減少了計算。
四.函數解釋和參考文案
?(1)函數解釋:
???【1】std(A):求向量A的標準差。
???【2】mean(A):求矩陣A的平均值。
???【3】corrcoef(A):求矩陣A的相關系數矩陣。
???【4】eig(A)=[V,D]:求矩陣A的全部特征值,構成對角陣D,并求A的特征向量構成V的列向量。
???【5】 sortrows (X, COL):按指定列COL由小到大進行排序。若COL為負數表示按照降序排列。
?(2)參考文案:
??? 對角矩陣
???知乎-簡潔全面PCA方法講述
總結
以上是生活随笔為你收集整理的PAC—主成分分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IBM欧洲裁员一万人、Salesforc
- 下一篇: 主成分分析PAC