當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【多元统计分析】01.多元统计的基础

發布時間：2024/8/1 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【多元统计分析】01.多元统计的基础小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

一、多元統計基礎
- 1.基本定義與樣本數據陣
- 2.隨機向量的分布
- 3.隨機向量數字特征
- 4.隨機向量數字特征的性質
- 總結回顧

一、多元統計基礎

1.基本定義與樣本數據陣

多元統計與一元統計的最大不同，就在于一元統計的樣本全部來自一元總體，而多元總體的樣本來自多元總體，用多個隨機變量刻畫它的多個維度。比如，要獲得人的身高分布情況，只要對一個人群中體的樣本測量身高，這是一個一元隨機變量；而要獲得人的身高、體重分布情況，每一個樣本就要測量身高、體重，這樣組成一個二元隨機向量。

很顯然，隨機向量中的每一個分量都是隨機變量，那么對多元總體進行分析時，我們能否分開每一個隨機變量分量呢？這是不合理的，因為不同的隨機變量之間很可能存在著關聯。比如身高、體重顯然是存在的關聯的，所以往往用BMI衡量人的身體質量情況，如果分開研究，就會打破它們之間的聯系，失去一部分信息。

因此，多元統計其實是對多維隨機向量的研究，而不是對分開的隨機變量的研究。為了描述隨機向量的性質，我們需要使用一定的概念來描述。要注意的是，以下出現的向量一般都是列向量。

一個總體中每一個個體具有 $p$ 個屬性，它們或存在關聯或不存在關聯，這 $p$ 個屬性分別用 $p$ 個隨機變量總體 $X1,?,XpX_1,\cdots,X_p$ 來表示。從總體 $X=(X1,?,Xp)′X=(X_1,\cdots,X_p)'$ 中抽取 $n$ 個樣本，每一個樣本記作 $X(1),?,X(n)X_{(1)},\cdots,X_{(n)}$ （一般在下標加括號與屬性總體區分），這樣，每一個樣本還可以表示成
$X(i)=(Xi1,Xi2,?,Xip)′,X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})',$
將 $n$ 個樣本縱向排列，就得到一個 $n×pn\times p$ 矩陣，稱為樣本數據陣，如下：
$X=[x11x12?x1px21x22?x2p???xn1xn2?xnp]=[X(1)′X(2)′?X(n)′]=def(X1,?,Xp).X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) .$
樣本數據陣的相關概念如下有：

第 $i$ 行 $X_{(i)}'$ ：代表第 $i$ 個 $p$ 維樣本，具有兩重性。在觀測前，它是 $p$ 維隨機向量；在觀測后，它是 $p$ 維向量。
第 $j$ 列 $Xj\mathcal X_j$ ：代表第 $j$ 個屬性的 $n$ 個觀測值，相當于將樣本的每個屬性分開研究，每一個構成一個樣本容量為 $n$ 的樣本。

2.隨機向量的分布

對 $n$ 個樣本進行研究，用到數理統計的知識，多元情況下也不例外。在一元的情形，數理統計是依賴于概率論，尤其是其中的幾個重要分布；因此在進行多元統計之前，有必要對隨機向量的分布進行討論。隨機向量的分布，指的是聯合分布、邊緣分布、條件分布等。

$p$ 維隨機向量 $X$ 的聯合分布是一個 $p$ 元函數
$F(x1,?,xp)=P(X1≤x1,?,Xp≤xp).F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p).$
類似一元的情況，如果有一個 $p$ 元非負函數，使得對一切 $(x1,?,xp)∈Rp(x_1,\cdots,x_p)\in \R^p$ ，都有
$F(x1,?,xp)=∫?∞x1?∫?∞xpp(s1,?,xp)d(s1,?,sp),F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p),$
就稱 $p(x1,?,xp)p(x_1,\cdots,x_p)$ 是 $X$ 的聯合概率密度。

如果我們只考慮隨機變量的部分分量 $(Xi1,?,Xim),1≤m<p(X_{i_1},\cdots,X_{i_m}),1\le m<p$ 的分布，則部分分量的聯合分布，稱為 $X$ 的邊緣分布。要求某幾個分量的邊緣分布，只需要將聯合分布 $F(x1,?,xp)F(x_1,\cdots,x_p)$ 中不關心的那部分分量值取為 $+∞+\infty$ ，剩下的就是邊緣分布。

如二元總體 $X=(X_1,X_2)$ 的聯合分布是 $F(x_1,x_2)$ ，則 $X_1$ 的邊緣分布是 $F(x1,∞)F(x_1,\infty)$ ， $X_2$ 的邊緣分布是 $F(∞,x2)F(\infty,x_2)$ 。
如果已知總體聯合密度，要求邊緣密度，則將無關部分進行積分。如二元總體 $X=(X_1,X_2)$ 的聯合密度是 $p(x_1,x_2)$ ，則 $X_1$ 的邊緣密度就是 $∫?∞∞p(x1,x2)dx2\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2$ ， $X_2$ 的邊緣密度就是 $∫?∞∞p(x1,x2)dx1\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1$ 。

條件分布指的是給定一部分分量時，另一部分分量的分布。假如 $X=(X^{(1)},X^{(2)})$ ，這里 $X^{(1)}$ 是 $r$ 維隨機向量， $X^{(2)}$ 是 $p ? r$ 維隨機向量，則給定 $X^{(2)}$ 時 $X^{(1)}$ 的條件分布是 $F(X^{(1)}|X^{(2)})$ 。

如果 $X$ 的聯合密度是 $p(x^{(1)},x^{(2)})$ ，則條件密度為
$p(x(1)∣x(2))=p(x(1),x(2))p(x(2)).p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}.$

定義條件分布后，可以定義隨機向量分量的獨立性。如果 $F(x1,?,xp)=F1(x1)?Fp(xp)F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p)$ ，這里 $F1(x),?,Fp(x)F_1(x),\cdots,F_p(x)$ 是 $X1,?,XpX_1,\cdots,X_p$ 的邊緣分布，則稱 $X1,?,XpX_1,\cdots,X_p$ 相互獨立。同理，如果 $f(x1,?,xp)=f1(x1)?fp(xp)f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p)$ ，這里 $f1(x),?,fp(x)f_1(x),\cdots, f_p(x)$ 是 $X1,?,XpX_1,\cdots,X_p$ 的邊緣密度，也稱 $X1,?,XpX_1,\cdots,X_p$ 相互獨立。

以上分布的定義方式，均與一元非常類似，只要區分聯合、邊緣的區別即可。

3.隨機向量數字特征

在一元總體中，我們定義過均值、方差等數字特征，在多元中也可以類似定義一系列數字特征，用來刻畫分布的部分性質。不同的是，在多元統計中，我們還需要考慮一個隨機向量內部的結構。

對于 $X=(X1,?,Xp)X=(X_1,\cdots,X_p)$ ，如果對每個分量 $X_i$ 都有 $EXi=μi{\rm E}X_i=\mu_i$ 存在，則定義隨機向量的均值向量為
$E(X)=[E(X1)E(X2)?E(Xp)]=[μ1μ2?μp].{\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}.$
多元向量中，每一個分量的方差還有兩個分量之間的協方差，可以用一個協方差矩陣來囊括。如果對任何 $i, j$ ，都有 $Cov(Xi,Xj)=E(Xi?μi)(Xj?μj)=σij{\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij}$ 存在，則定義協方差陣為
$D(X)=[σ11σ12?σ1pσ21σ22?σ2p???σp1σp2?σpp]=(σij)p×p=defΣ.{\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma.$

可以注意到，成立以下等式：
$D(X)=E[(X?E(X))(X?E(X))′].{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'].$

類似一元隨機變量中由協方差定義相關系數的方式，我們可以定義相關系數陣。如果令 $rij=rXi,Xj=Cov(Xi,Xj)/D(Xi)D(Xj)=σij/σiiσjjr_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}}$ ，那么定義相關系數陣為
$R=[r11r12?r1pr21r22?r2p???rp1rp2?rpp]=(rij)p×p.R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}.$

如果記 $V1/2=diag(σ11,?,σpp)V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}})$ 為 $X$ 的標準差矩陣，就成立以下等式：
$Σ=V1/2RV1/2,R=V?1/2ΣV?1/2.\Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}.$

對于兩個總體 $X, Y$ ，分別是 $p$ 維和 $q$ 維向量，其協方差陣為 $COV(X,Y)=E[(X?E(X))(Y?E(Y))′]{\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))']$ ，如果 $COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}$ ，則稱總體 $X, Y$ 不相關。

可以注意到，成立以下等式：
$COV(X,Y)=[COV(Y,X)]′.{\rm COV}(X,Y)=[{\rm COV}(Y,X)]'.$

4.隨機向量數字特征的性質

首先是隨機向量的運算性質：
$E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.\begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array}$
這里 $A, B$ 是常數矩陣（滿足運算要求）， $X, Y$ 是隨機向量。這些運算性質需要牢記，有很廣泛的應用。

類比隨機變量獨立、不相關的關系，我們得出 $COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}$ 是 $X, Y$ 獨立的必要不充分條件，即不相關不一定獨立，但獨立一定不相關。

關于隨機向量的自協方差矩陣 $Σ\Sigma$ ，又有一些獨特的性質：

對于任何隨機向量 $X$ ，其自協方差矩陣 $Σ\Sigma$ 是非負定對角陣。
$Σ=L2\Sigma=L^2$ ，這里 $L$ 為非負定矩陣，當 $Σ>0\Sigma>0$ 時稱為 $Σ\Sigma$ 的平方根矩陣。只要注意到非負定對角陣可正交對角化即可。
如果 $Σ\Sigma$ 的特征值是 $λ1,?,λp\lambda_1,\cdots,\lambda_p$ ，則由正定性，所有特征值 $≥0\ge 0$ ，那么 $Σ=Γ(λ1,?,λp)Γ′\Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma'$ ，這里 $Γ\Gamma$ 是正交矩陣。所以令 $A=Γ(λ1,?,λp)A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p)$ ，則 $Σ=AA′\Sigma=AA'$ 。

總結回顧

樣本數據陣，是將 $n$ 個 $p$ 維向量（即樣本）按列排構成的矩陣。矩陣中每一列代表一個樣本的觀測值，每一行代表一個屬性維度。

隨機向量具有聯合分布、邊緣分布和條件分布，如果是連續型隨機向量，則還有聯合密度、邊緣密度和條件密度。

由條件分布、條件密度刻畫了隨機向量分量間的獨立性，當聯合分布（密度）可拆分為邊緣分布（密度）的乘積時，代表分量獨立。

隨機向量具有均值向量 $E(X){\rm E}(X)$ 、自協方差矩陣 $D(X){\rm D}(X)$ 、自相關矩陣 $R$ 、標準差對角陣 $V^{1/2}$ 等數字特征，刻畫兩個隨機向量的相關程度用協方差矩陣。如果協方差矩陣為0矩陣，則兩個隨機向量不相關。

隨機向量的數字特征之間存在以下聯系：
$D(X)=E[(X?E(X))(X?E(X))′],D(X)=V1/2RV1/2,R=V?1/2D(X)V?1/2,COV(X,Y)=[COV(Y,X)]′.{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'.$

有以下計算性質是需要記憶的：
$E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.{\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'.$

隨機向量的協方差矩陣 $Σ\Sigma$ 是非負定對稱陣，可以正交分解為 $ΓΛΓ′\Gamma \Lambda\Gamma'$ ，這里 $Γ\Gamma$ 是正交矩陣， $Λ\Lambda$ 是特征值對角陣。如果 $A=ΓΛ1/2A=\Gamma \Lambda^{1/2}$ ，則 $Σ=AA′\Sigma=AA'$ ；如果 $L=ΓΛ1/2Γ′L=\Gamma \Lambda^{1/2}\Gamma'$ ，則 $Σ=L2\Sigma=L^2$ ，當 $Σ>0\Sigma>0$ 時 $L$ 也是正定的，稱為 $Σ\Sigma$ 的平方根矩陣。

總結

以上是生活随笔為你收集整理的【多元统计分析】01.多元统计的基础的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Autodesk 3DSMax 2018
下一篇：【观察】全新紫光云：“云数智”底盘再升