【多元统计分析】01.多元统计的基础
文章目錄
- 一、多元統計基礎
- 1.基本定義與樣本數據陣
- 2.隨機向量的分布
- 3.隨機向量數字特征
- 4.隨機向量數字特征的性質
- 總結回顧
一、多元統計基礎
1.基本定義與樣本數據陣
多元統計與一元統計的最大不同,就在于一元統計的樣本全部來自一元總體,而多元總體的樣本來自多元總體,用多個隨機變量刻畫它的多個維度。比如,要獲得人的身高分布情況,只要對一個人群中體的樣本測量身高,這是一個一元隨機變量;而要獲得人的身高、體重分布情況,每一個樣本就要測量身高、體重,這樣組成一個二元隨機向量。
很顯然,隨機向量中的每一個分量都是隨機變量,那么對多元總體進行分析時,我們能否分開每一個隨機變量分量呢?這是不合理的,因為不同的隨機變量之間很可能存在著關聯。比如身高、體重顯然是存在的關聯的,所以往往用BMI衡量人的身體質量情況,如果分開研究,就會打破它們之間的聯系,失去一部分信息。
因此,多元統計其實是對多維隨機向量的研究,而不是對分開的隨機變量的研究。為了描述隨機向量的性質,我們需要使用一定的概念來描述。要注意的是,以下出現的向量一般都是列向量。
一個總體中每一個個體具有ppp個屬性,它們或存在關聯或不存在關聯,這ppp個屬性分別用ppp個隨機變量總體X1,?,XpX_1,\cdots,X_pX1?,?,Xp?來表示。從總體X=(X1,?,Xp)′X=(X_1,\cdots,X_p)'X=(X1?,?,Xp?)′中抽取nnn個樣本,每一個樣本記作X(1),?,X(n)X_{(1)},\cdots,X_{(n)}X(1)?,?,X(n)?(一般在下標加括號與屬性總體區分),這樣,每一個樣本還可以表示成
X(i)=(Xi1,Xi2,?,Xip)′,X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})', X(i)?=(Xi1?,Xi2?,?,Xip?)′,
將nnn個樣本縱向排列,就得到一個n×pn\times pn×p矩陣,稱為樣本數據陣,如下:
X=[x11x12?x1px21x22?x2p???xn1xn2?xnp]=[X(1)′X(2)′?X(n)′]=def(X1,?,Xp).X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) . X=??????x11?x21??xn1??x12?x22??xn2??????x1p?x2p??xnp????????=??????X(1)′?X(2)′??X(n)′????????=def(X1?,?,Xp?).
樣本數據陣的相關概念如下有:
- 第iii行X(i)′X_{(i)}'X(i)′?:代表第iii個ppp維樣本,具有兩重性。在觀測前,它是ppp維隨機向量;在觀測后,它是ppp維向量。
- 第jjj列Xj\mathcal X_jXj?:代表第jjj個屬性的nnn個觀測值,相當于將樣本的每個屬性分開研究,每一個構成一個樣本容量為nnn的樣本。
2.隨機向量的分布
對nnn個樣本進行研究,用到數理統計的知識,多元情況下也不例外。在一元的情形,數理統計是依賴于概率論,尤其是其中的幾個重要分布;因此在進行多元統計之前,有必要對隨機向量的分布進行討論。隨機向量的分布,指的是聯合分布、邊緣分布、條件分布等。
ppp維隨機向量XXX的聯合分布是一個ppp元函數
F(x1,?,xp)=P(X1≤x1,?,Xp≤xp).F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p). F(x1?,?,xp?)=P(X1?≤x1?,?,Xp?≤xp?).
類似一元的情況,如果有一個ppp元非負函數,使得對一切(x1,?,xp)∈Rp(x_1,\cdots,x_p)\in \R^p(x1?,?,xp?)∈Rp,都有
F(x1,?,xp)=∫?∞x1?∫?∞xpp(s1,?,xp)d(s1,?,sp),F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p), F(x1?,?,xp?)=∫?∞x1???∫?∞xp??p(s1?,?,xp?)d(s1?,?,sp?),
就稱p(x1,?,xp)p(x_1,\cdots,x_p)p(x1?,?,xp?)是XXX的聯合概率密度。
如果我們只考慮隨機變量的部分分量(Xi1,?,Xim),1≤m<p(X_{i_1},\cdots,X_{i_m}),1\le m<p(Xi1??,?,Xim??),1≤m<p的分布,則部分分量的聯合分布,稱為XXX的邊緣分布。要求某幾個分量的邊緣分布,只需要將聯合分布F(x1,?,xp)F(x_1,\cdots,x_p)F(x1?,?,xp?)中不關心的那部分分量值取為+∞+\infty+∞,剩下的就是邊緣分布。
- 如二元總體X=(X1,X2)X=(X_1,X_2)X=(X1?,X2?)的聯合分布是F(x1,x2)F(x_1,x_2)F(x1?,x2?),則X1X_1X1?的邊緣分布是F(x1,∞)F(x_1,\infty)F(x1?,∞),X2X_2X2?的邊緣分布是F(∞,x2)F(\infty,x_2)F(∞,x2?)。
- 如果已知總體聯合密度,要求邊緣密度,則將無關部分進行積分。如二元總體X=(X1,X2)X=(X_1,X_2)X=(X1?,X2?)的聯合密度是p(x1,x2)p(x_1,x_2)p(x1?,x2?),則X1X_1X1?的邊緣密度就是∫?∞∞p(x1,x2)dx2\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2∫?∞∞?p(x1?,x2?)dx2?,X2X_2X2?的邊緣密度就是∫?∞∞p(x1,x2)dx1\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1∫?∞∞?p(x1?,x2?)dx1?。
條件分布指的是給定一部分分量時,另一部分分量的分布。假如X=(X(1),X(2))X=(X^{(1)},X^{(2)})X=(X(1),X(2)),這里X(1)X^{(1)}X(1)是rrr維隨機向量,X(2)X^{(2)}X(2)是p?rp-rp?r維隨機向量,則給定X(2)X^{(2)}X(2)時X(1)X^{(1)}X(1)的條件分布是F(X(1)∣X(2))F(X^{(1)}|X^{(2)})F(X(1)∣X(2))。
- 如果XXX的聯合密度是p(x(1),x(2))p(x^{(1)},x^{(2)})p(x(1),x(2)),則條件密度為
p(x(1)∣x(2))=p(x(1),x(2))p(x(2)).p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}. p(x(1)∣x(2))=p(x(2))p(x(1),x(2))?.
定義條件分布后,可以定義隨機向量分量的獨立性。如果F(x1,?,xp)=F1(x1)?Fp(xp)F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p)F(x1?,?,xp?)=F1?(x1?)?Fp?(xp?),這里F1(x),?,Fp(x)F_1(x),\cdots,F_p(x)F1?(x),?,Fp?(x)是X1,?,XpX_1,\cdots,X_pX1?,?,Xp?的邊緣分布,則稱X1,?,XpX_1,\cdots,X_pX1?,?,Xp?相互獨立。同理,如果f(x1,?,xp)=f1(x1)?fp(xp)f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p)f(x1?,?,xp?)=f1?(x1?)?fp?(xp?),這里f1(x),?,fp(x)f_1(x),\cdots, f_p(x)f1?(x),?,fp?(x)是X1,?,XpX_1,\cdots,X_pX1?,?,Xp?的邊緣密度,也稱X1,?,XpX_1,\cdots,X_pX1?,?,Xp?相互獨立。
以上分布的定義方式,均與一元非常類似,只要區分聯合、邊緣的區別即可。
3.隨機向量數字特征
在一元總體中,我們定義過均值、方差等數字特征,在多元中也可以類似定義一系列數字特征,用來刻畫分布的部分性質。不同的是,在多元統計中,我們還需要考慮一個隨機向量內部的結構。
對于X=(X1,?,Xp)X=(X_1,\cdots,X_p)X=(X1?,?,Xp?),如果對每個分量XiX_iXi?都有EXi=μi{\rm E}X_i=\mu_iEXi?=μi?存在,則定義隨機向量的均值向量為
E(X)=[E(X1)E(X2)?E(Xp)]=[μ1μ2?μp].{\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}. E(X)=??????E(X1?)E(X2?)?E(Xp?)???????=??????μ1?μ2??μp????????.
多元向量中,每一個分量的方差還有兩個分量之間的協方差,可以用一個協方差矩陣來囊括。如果對任何i,ji,ji,j,都有Cov(Xi,Xj)=E(Xi?μi)(Xj?μj)=σij{\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij}Cov(Xi?,Xj?)=E(Xi??μi?)(Xj??μj?)=σij?存在,則定義協方差陣為
D(X)=[σ11σ12?σ1pσ21σ22?σ2p???σp1σp2?σpp]=(σij)p×p=defΣ.{\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma. D(X)=??????σ11?σ21??σp1??σ12?σ22??σp2??????σ1p?σ2p??σpp????????=(σij?)p×p?=defΣ.
- 可以注意到,成立以下等式:
D(X)=E[(X?E(X))(X?E(X))′].{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))']. D(X)=E[(X?E(X))(X?E(X))′].
類似一元隨機變量中由協方差定義相關系數的方式,我們可以定義相關系數陣。如果令rij=rXi,Xj=Cov(Xi,Xj)/D(Xi)D(Xj)=σij/σiiσjjr_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}}rij?=rXi?,Xj??=Cov(Xi?,Xj?)/D(Xi?)D(Xj?)?=σij?/σii?σjj??,那么定義相關系數陣為
R=[r11r12?r1pr21r22?r2p???rp1rp2?rpp]=(rij)p×p.R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}. R=??????r11?r21??rp1??r12?r22??rp2??????r1p?r2p??rpp????????=(rij?)p×p?.
- 如果記V1/2=diag(σ11,?,σpp)V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}})V1/2=diag(σ11??,?,σpp??)為XXX的標準差矩陣,就成立以下等式:
Σ=V1/2RV1/2,R=V?1/2ΣV?1/2.\Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}. Σ=V1/2RV1/2,R=V?1/2ΣV?1/2.
對于兩個總體X,YX,YX,Y,分別是ppp維和qqq維向量,其協方差陣為COV(X,Y)=E[(X?E(X))(Y?E(Y))′]{\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))']COV(X,Y)=E[(X?E(X))(Y?E(Y))′],如果COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}COV(X,Y)=Op×q?,則稱總體X,YX,YX,Y不相關。
- 可以注意到,成立以下等式:
COV(X,Y)=[COV(Y,X)]′.{\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. COV(X,Y)=[COV(Y,X)]′.
4.隨機向量數字特征的性質
首先是隨機向量的運算性質:
E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.\begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array} E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.?
這里A,BA,BA,B是常數矩陣(滿足運算要求),X,YX,YX,Y是隨機向量。這些運算性質需要牢記,有很廣泛的應用。
類比隨機變量獨立、不相關的關系,我們得出COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}COV(X,Y)=Op×q?是X,YX,YX,Y獨立的必要不充分條件,即不相關不一定獨立,但獨立一定不相關。
關于隨機向量的自協方差矩陣Σ\SigmaΣ,又有一些獨特的性質:
- 對于任何隨機向量XXX,其自協方差矩陣Σ\SigmaΣ是非負定對角陣。
- Σ=L2\Sigma=L^2Σ=L2,這里LLL為非負定矩陣,當Σ>0\Sigma>0Σ>0時稱為Σ\SigmaΣ的平方根矩陣。只要注意到非負定對角陣可正交對角化即可。
- 如果Σ\SigmaΣ的特征值是λ1,?,λp\lambda_1,\cdots,\lambda_pλ1?,?,λp?,則由正定性,所有特征值≥0\ge 0≥0,那么Σ=Γ(λ1,?,λp)Γ′\Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma'Σ=Γ(λ1?,?,λp?)Γ′,這里Γ\GammaΓ是正交矩陣。所以令A=Γ(λ1,?,λp)A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p)A=Γ(λ?1?,?,λ?p?),則Σ=AA′\Sigma=AA'Σ=AA′。
總結回顧
樣本數據陣,是將nnn個ppp維向量(即樣本)按列排構成的矩陣。矩陣中每一列代表一個樣本的觀測值,每一行代表一個屬性維度。
隨機向量具有聯合分布、邊緣分布和條件分布,如果是連續型隨機向量,則還有聯合密度、邊緣密度和條件密度。
由條件分布、條件密度刻畫了隨機向量分量間的獨立性,當聯合分布(密度)可拆分為邊緣分布(密度)的乘積時,代表分量獨立。
隨機向量具有均值向量E(X){\rm E}(X)E(X)、自協方差矩陣D(X){\rm D}(X)D(X)、自相關矩陣RRR、標準差對角陣V1/2V^{1/2}V1/2等數字特征,刻畫兩個隨機向量的相關程度用協方差矩陣。如果協方差矩陣為0矩陣,則兩個隨機向量不相關。
隨機向量的數字特征之間存在以下聯系:
D(X)=E[(X?E(X))(X?E(X))′],D(X)=V1/2RV1/2,R=V?1/2D(X)V?1/2,COV(X,Y)=[COV(Y,X)]′.{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. D(X)=E[(X?E(X))(X?E(X))′],D(X)=V1/2RV1/2,R=V?1/2D(X)V?1/2,COV(X,Y)=[COV(Y,X)]′.
有以下計算性質是需要記憶的:
E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.{\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.
隨機向量的協方差矩陣Σ\SigmaΣ是非負定對稱陣,可以正交分解為ΓΛΓ′\Gamma \Lambda\Gamma'ΓΛΓ′,這里Γ\GammaΓ是正交矩陣,Λ\LambdaΛ是特征值對角陣。如果A=ΓΛ1/2A=\Gamma \Lambda^{1/2}A=ΓΛ1/2,則Σ=AA′\Sigma=AA'Σ=AA′;如果L=ΓΛ1/2Γ′L=\Gamma \Lambda^{1/2}\Gamma'L=ΓΛ1/2Γ′,則Σ=L2\Sigma=L^2Σ=L2,當Σ>0\Sigma>0Σ>0時LLL也是正定的,稱為Σ\SigmaΣ的平方根矩陣。
總結
以上是生活随笔為你收集整理的【多元统计分析】01.多元统计的基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Autodesk 3DSMax 2018
- 下一篇: 【观察】 全新紫光云:“云数智”底盘再升