日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

主成分分析 与 因子分析

發布時間:2023/12/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 主成分分析 与 因子分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  • 一、 主成分分析
  • 二、因子分析

結論: 因子分析與主成分分析是包含與擴展的關系

?? 為了能夠充分有效的利用數據,化繁為簡是一項必做的工作,希望將原來繁多的描述變量濃縮成少數幾個新指標,同時盡可能多的保存舊變量的信息,這些分析過程被稱為數據降維。主成分分析和因子分析是數據降維分析的主要手段。另一種化繁為簡的手段是聚類。

一、 主成分分析

引言大家都學過線性代數,極大線性無關組的概念想必都很清楚,簡單復習一下:一個向量組由多個列向量(或行向量)組成,但組成它的這些列向量之間可能存在某些線性關系(比如有一個列向量是另一個列向量的2倍),那么這樣的向量組是不是顯得有點臃腫呢?我們對這個向量組進行一些變換(如正交變換)得到一個新的向量組(稱為原向量組的極大線性無關組),這個向量組的列向量個數比原向量組的列向量數量更是,且各個列向量之間線性無關,且原向量組的每一個列向量都可以由這個無關組的向量線性表示。那么,這個極大無關組就可以代表原來的向量組。

?? 同樣的,主成分分析與之有相似的思想,放我們對某個對象進行研究時,往往會收集到與之相關的方方面面的數據,這些數據之間可能有重復、包含的關系,那么如何對多維的數據進行簡化呢?下面就是主成分分析(PCA)要做的事情了。

?? 主成分分析可以簡單的總結成一句話:數據的壓縮和解釋。常被用來尋找判斷某種事物或現象的綜合指標,并且給綜合指標所包含的信息以適當的解釋。在實際的應用過程中,主成分分析常被用作達到目的的中間手段,而非完全的一種分析方法。這也是為什么SPSS軟件沒有為主成分分析專門設置一個菜單選項,而是將其歸并入因子分析。我們可以先了解主成分分析的分析模型。


?? 上面這幅圖是經常被用來形象解釋主成分分析原理。圖中原來有兩個坐標軸X1和X2,從散點分布可以很明顯的知道散點在這兩個坐標軸內存在線性相關。如果將這些散點在坐標軸X1和X2上的取值自變量x1和x2納入到各種回歸模型中,將會由于它們的元共線問題致使擬合結論出現偏差。那么如何處理才能避免呢?

?? 這里給大家強調,統計學上數據信息往往指的是數據變異(數據波動)。在上圖中,散點的分布構成了一個橢圓形點陣,在橢圓的長軸方向,數據波動明顯大于短軸方向。此時如果沿著橢圓的長軸和短軸方向設定新的坐標軸(F1和F2)組成坐標系,那么新坐標系可以完全解釋數據散點的信息,散點在新坐標軸上的取值就形成兩個新的變量(f1和f2),這兩個新變量之間是相互獨立(不相關)。

?? 從散點圖上還可以知道,長軸和短軸能夠解釋的數據信息是不同的,長軸變量攜帶了大部分數據的變異信息,而短軸上的變量只攜帶一小部分變異信息。此時只需要使用長軸方向上的新變量(f1)就可以代表原來兩個變量(x1和x2)的大部分信息,達到降維的作用。

?? 主成分分析的這種坐標軸變化是通過將原來的坐標軸進行線性組合完成的。這個線性組合的過程涉及到線性代數部分的內容,這里不過多解釋。假設描述對象(例如汽車)由k個自變量指標(油耗、車重、軸長、內飾等等)進行描述,因為這些指標很多都是相關的(重量與油耗),因此可以進行主成分分析,濃縮變量。經過坐標軸線性組合以后,可以形成下面的線性組合式子:

f1=a11x1+a12x2+?+a1kxkf _ { 1 } = a _ { 11 } x _ { 1 } + a _ { 12 } x _ { 2 } + \cdots + a _ { 1 k } x _ { k }f1?=a11?x1?+a12?x2?+?+a1k?xk? ......................................................................................................................................................... fk=ak1x1+ak2x2+...+akkxkf _ { k } = a _ { k 1 } x _ { 1 } + a _ { k 2 } x _ { 2 } +...+a _ { k k } x _ { k }fk?=ak1?x1?+ak2?x2?+...+akk?xk?

?? 通過線性組合以后,主成分分析可以形成k個新變量。這里的線性組合大家可以理解成原來坐標軸的空間旋轉,因此原來有多少變量(k個),經過主成分分析以后,形成數量一致的新變量(k個)。新變量之間的方差關系見下式。通常情況下,我們只許取前面幾個即可。

Var?(f1)>Var?(f2)>?>Var?(f3)\operatorname { V a r } ( f _ { 1 } ) \gt \operatorname { V a r } ( f _ { 2 } ) \gt \cdots \gt \operatorname { V a r } ( f _ { 3 } )Var(f1?)>Var(f2?)>?>Var(f3?)

?? 在主成分分析后,SPSS等軟件會輸出下面這個結果。包括特征根值,方差貢獻率和累計方差貢獻率。從表格結果可知,原來的變量數量是6個,經過矩陣的線性組合(正交變換)以后,形成了6個成分,前面2個成分總共貢獻了數據變異的73.2%,且特征根都大于1,因此提取了前面2個成分作為主成分。

  • 特征根是矩陣線性組合后的產物,可以看作主成分的重要性指標,代表引入該主成分后可以解釋多少原始變量的信息。如果特征根小于1,說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大,因此一般可以用特征根大于1作為納入標準。
  • 方差貢獻率表示該主成分的方差在全部方差中的比重。這個值越大,表明主成分解釋數據信息的能力越強,它與特征根是正相關的,特征根越大,方差貢獻率越大。
  • 累計貢獻率表示前面n個主成分累計提取了多少數據信息。一般來說,如果前k個主成分的貢獻率達到85%,表明提取前面k個主成分就基本可以解釋所有數據信息。
  • ?? 主成分分析的一個重要的結論是主成分矩陣,如下表所示。主成分矩陣可以說明各主成分在原來變量上的載荷,所以也被稱為載荷矩陣。

    ?? 通過載荷矩陣可以寫出主成分的組成結構表達式。我們以第一主成分為例,寫出其表達式。從式子可以知道,第一主成分包含原來變量1和變量2信息最多,3和4其次,5,6更少一些。這就是主成分分析的致命缺陷,提取出來的主成分不能明確解釋成某幾個原始變量的概率,為進一步分析制造了困難。(這個問題將由因子分析來解決)

    F1=0.880X1+0.868X2+0.501X3+0.386X4?0.599X5?0.412X6F 1 = 0.880 X _ { 1 } + 0.868 X _ { 2 } + 0.501 X _ { 3 } + 0.386 X _ { 4 } - 0.599 X _ { 5 } - 0.41 2X _ { 6 }F1=0.880X1?+0.868X2?+0.501X3?+0.386X4??0.599X5??0.412X6?

    ?? 主成分分析的另一個結論是主成分得分矩陣。其實就是主成分載荷矩陣除以主成分特征根后得到的矩陣。為什么要除以特征根呢?這是因為主成分載荷矩陣是帶有成分重要性屬性(包含特征根)的,如果要用提取得到的主成分進行綜合排名比較或回歸分析,需先要消除主成分的權重不平等(重要新不同),因此需要除以對應主成分的特征根,得到主成分得分矩陣。上表的主成分得分矩陣為:

    ?? 根據主成分得分矩陣的得分系數,就可以計算每個個案在新變量(主成分)上的數值。進而可以將新變量值用于綜合評分和回歸。

    f1=0.358x1+0.353x2+0.204x3+0.157x4?0.244x5?0.168x6f _ { 1 } = 0.358 x _ { 1 } + 0.353 x _ { 2 } + 0.204 x _ { 3 } + 0.157 x _ { 4 } - 0.244 x _ { 5 } - 0.168 x _ { 6 } f1?=0.358x1?+0.353x2?+0.204x3?+0.157x4??0.244x5??0.168x6?

    f2同理f _ { 2}同理f2?

    ?? 以上就是主成分分析的所有過程。可以通過矩陣變換知道原始數據能夠濃縮成幾個主成分,以及每個主成分與原來變量之間線性組合關系式。但是細心的朋友會發現,每個原始變量在主成分中都占有一定的分量,這些分量(載荷)之間的大小分布沒有清晰的分界線,這就造成**無法明確表述哪個主成分代表哪些原始變量**,也就是說提取出來的主成分無法清晰的解釋其代表的含義。

    二、因子分析

    ?? 鑒于主成分分析現實含義的解釋缺陷,統計學斯皮爾曼又對主成分分析進行擴展。因子分析在提取公因子時,不僅注意變量之間是否相關,而且考慮相關關系的強弱,使得提取出來的公因子不僅起到降維的作用,而且能夠被很好的解釋。因子分析與主成分分析是包含與擴展的關系。

    ?? 首先解釋包含關系。如下圖所示,在SPSS軟件“因子分析”模塊的提取菜單中,提取公因子的方法很多,其中一種就是主成分。由此可見,主成分只是因子分析的一種方法。

    ?? 其次是擴展關系。因子分析解決主成分分析解釋障礙的方法是通過因子軸旋轉(在SPSS軟件中,旋轉的方式有很多種,根據需要選擇)。因子軸旋轉可以使原始變量在公因子(主成分)上的載荷重新分布,從而使原始變量在公因子上的載荷兩級分化,這樣公因子(主成分)就能夠用哪些載荷大的原始變量來解釋。以上過程就解決了主成分分析的現實含義解釋障礙。













    ?? 上面兩個表是旋轉后的成分矩陣和成分得分系數矩陣,這兩個表的數值與主成分分析的結果已經完全不同。從左邊的表可以明顯知道,第一公因子主要由變量1、2、3(或僅有變量1)解釋,第二公因子由變量5、6解釋。右邊表格的得分系數也不在是通過成分載荷/特征根得到,而是通過回歸得出。

    Summarize:

    ?? 從以上內容可以知道,主成分分析和因子分析的關系是包含與擴展。當因子分析提取公因子的方法是主成分(矩陣線性組合)時,因子分析結論的前半部分內容就是主成分分析的內容,而因子旋轉是因子分析的專屬(擴展),主成分分析是因子分析(提取公因子方法為主成分)的中間步驟。這就是為什么很多軟件沒有專門為主成分分析獨立設計模塊的原因。從應用范圍和功能上講,因子分析法完全能夠替代主成分分析,并且解決了主成分分析不利于含義解釋的問題,功能更為強大。

    總結

    以上是生活随笔為你收集整理的主成分分析 与 因子分析的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。