日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【多元统计分析】01.多元统计的基础

發布時間:2024/8/1 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【多元统计分析】01.多元统计的基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、多元統計基礎
    • 1.基本定義與樣本數據陣
    • 2.隨機向量的分布
    • 3.隨機向量數字特征
    • 4.隨機向量數字特征的性質
    • 總結回顧

一、多元統計基礎

1.基本定義與樣本數據陣

多元統計與一元統計的最大不同,就在于一元統計的樣本全部來自一元總體,而多元總體的樣本來自多元總體,用多個隨機變量刻畫它的多個維度。比如,要獲得人的身高分布情況,只要對一個人群中體的樣本測量身高,這是一個一元隨機變量;而要獲得人的身高、體重分布情況,每一個樣本就要測量身高、體重,這樣組成一個二元隨機向量。

很顯然,隨機向量中的每一個分量都是隨機變量,那么對多元總體進行分析時,我們能否分開每一個隨機變量分量呢?這是不合理的,因為不同的隨機變量之間很可能存在著關聯。比如身高、體重顯然是存在的關聯的,所以往往用BMI衡量人的身體質量情況,如果分開研究,就會打破它們之間的聯系,失去一部分信息。

因此,多元統計其實是對多維隨機向量的研究,而不是對分開的隨機變量的研究。為了描述隨機向量的性質,我們需要使用一定的概念來描述。要注意的是,以下出現的向量一般都是列向量。

一個總體中每一個個體具有ppp個屬性,它們或存在關聯或不存在關聯,這ppp個屬性分別用ppp個隨機變量總體X1,?,XpX_1,\cdots,X_pX1?,?,Xp?來表示。從總體X=(X1,?,Xp)′X=(X_1,\cdots,X_p)'X=(X1?,?,Xp?)中抽取nnn個樣本,每一個樣本記作X(1),?,X(n)X_{(1)},\cdots,X_{(n)}X(1)?,?,X(n)?(一般在下標加括號與屬性總體區分),這樣,每一個樣本還可以表示成
X(i)=(Xi1,Xi2,?,Xip)′,X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})', X(i)?=(Xi1?,Xi2?,?,Xip?),
nnn個樣本縱向排列,就得到一個n×pn\times pn×p矩陣,稱為樣本數據陣,如下:
X=[x11x12?x1px21x22?x2p???xn1xn2?xnp]=[X(1)′X(2)′?X(n)′]=def(X1,?,Xp).X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) . X=??????x11?x21??xn1??x12?x22??xn2??????x1p?x2p??xnp????????=??????X(1)?X(2)??X(n)????????=def(X1?,?,Xp?).
樣本數據陣的相關概念如下有:

  • iiiX(i)′X_{(i)}'X(i)?:代表第iiippp維樣本,具有兩重性。在觀測前,它是ppp維隨機向量;在觀測后,它是ppp維向量。
  • jjjXj\mathcal X_jXj?:代表第jjj個屬性的nnn個觀測值,相當于將樣本的每個屬性分開研究,每一個構成一個樣本容量為nnn的樣本。

2.隨機向量的分布

nnn個樣本進行研究,用到數理統計的知識,多元情況下也不例外。在一元的情形,數理統計是依賴于概率論,尤其是其中的幾個重要分布;因此在進行多元統計之前,有必要對隨機向量的分布進行討論。隨機向量的分布,指的是聯合分布、邊緣分布、條件分布等。

ppp維隨機向量XXX的聯合分布是一個ppp元函數
F(x1,?,xp)=P(X1≤x1,?,Xp≤xp).F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p). F(x1?,?,xp?)=P(X1?x1?,?,Xp?xp?).
類似一元的情況,如果有一個ppp元非負函數,使得對一切(x1,?,xp)∈Rp(x_1,\cdots,x_p)\in \R^p(x1?,?,xp?)Rp,都有
F(x1,?,xp)=∫?∞x1?∫?∞xpp(s1,?,xp)d(s1,?,sp),F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p), F(x1?,?,xp?)=?x1????xp??p(s1?,?,xp?)d(s1?,?,sp?),
就稱p(x1,?,xp)p(x_1,\cdots,x_p)p(x1?,?,xp?)XXX的聯合概率密度。

如果我們只考慮隨機變量的部分分量(Xi1,?,Xim),1≤m<p(X_{i_1},\cdots,X_{i_m}),1\le m<p(Xi1??,?,Xim??),1m<p的分布,則部分分量的聯合分布,稱為XXX的邊緣分布。要求某幾個分量的邊緣分布,只需要將聯合分布F(x1,?,xp)F(x_1,\cdots,x_p)F(x1?,?,xp?)中不關心的那部分分量值取為+∞+\infty+,剩下的就是邊緣分布。

  • 如二元總體X=(X1,X2)X=(X_1,X_2)X=(X1?,X2?)的聯合分布是F(x1,x2)F(x_1,x_2)F(x1?,x2?),則X1X_1X1?的邊緣分布是F(x1,∞)F(x_1,\infty)F(x1?,)X2X_2X2?的邊緣分布是F(∞,x2)F(\infty,x_2)F(,x2?)
  • 如果已知總體聯合密度,要求邊緣密度,則將無關部分進行積分。如二元總體X=(X1,X2)X=(X_1,X_2)X=(X1?,X2?)的聯合密度是p(x1,x2)p(x_1,x_2)p(x1?,x2?),則X1X_1X1?的邊緣密度就是∫?∞∞p(x1,x2)dx2\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2??p(x1?,x2?)dx2?X2X_2X2?的邊緣密度就是∫?∞∞p(x1,x2)dx1\int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1??p(x1?,x2?)dx1?

條件分布指的是給定一部分分量時,另一部分分量的分布。假如X=(X(1),X(2))X=(X^{(1)},X^{(2)})X=(X(1),X(2)),這里X(1)X^{(1)}X(1)rrr維隨機向量,X(2)X^{(2)}X(2)p?rp-rp?r維隨機向量,則給定X(2)X^{(2)}X(2)X(1)X^{(1)}X(1)的條件分布是F(X(1)∣X(2))F(X^{(1)}|X^{(2)})F(X(1)X(2))

  • 如果XXX的聯合密度是p(x(1),x(2))p(x^{(1)},x^{(2)})p(x(1),x(2)),則條件密度為
    p(x(1)∣x(2))=p(x(1),x(2))p(x(2)).p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}. p(x(1)x(2))=p(x(2))p(x(1),x(2))?.

定義條件分布后,可以定義隨機向量分量的獨立性。如果F(x1,?,xp)=F1(x1)?Fp(xp)F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p)F(x1?,?,xp?)=F1?(x1?)?Fp?(xp?),這里F1(x),?,Fp(x)F_1(x),\cdots,F_p(x)F1?(x),?,Fp?(x)X1,?,XpX_1,\cdots,X_pX1?,?,Xp?的邊緣分布,則稱X1,?,XpX_1,\cdots,X_pX1?,?,Xp?相互獨立。同理,如果f(x1,?,xp)=f1(x1)?fp(xp)f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p)f(x1?,?,xp?)=f1?(x1?)?fp?(xp?),這里f1(x),?,fp(x)f_1(x),\cdots, f_p(x)f1?(x),?,fp?(x)X1,?,XpX_1,\cdots,X_pX1?,?,Xp?的邊緣密度,也稱X1,?,XpX_1,\cdots,X_pX1?,?,Xp?相互獨立。

以上分布的定義方式,均與一元非常類似,只要區分聯合、邊緣的區別即可。

3.隨機向量數字特征

在一元總體中,我們定義過均值、方差等數字特征,在多元中也可以類似定義一系列數字特征,用來刻畫分布的部分性質。不同的是,在多元統計中,我們還需要考慮一個隨機向量內部的結構。

對于X=(X1,?,Xp)X=(X_1,\cdots,X_p)X=(X1?,?,Xp?),如果對每個分量XiX_iXi?都有EXi=μi{\rm E}X_i=\mu_iEXi?=μi?存在,則定義隨機向量的均值向量為
E(X)=[E(X1)E(X2)?E(Xp)]=[μ1μ2?μp].{\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}. E(X)=??????E(X1?)E(X2?)?E(Xp?)???????=??????μ1?μ2??μp????????.
多元向量中,每一個分量的方差還有兩個分量之間的協方差,可以用一個協方差矩陣來囊括。如果對任何i,ji,ji,j,都有Cov(Xi,Xj)=E(Xi?μi)(Xj?μj)=σij{\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij}Cov(Xi?,Xj?)=E(Xi??μi?)(Xj??μj?)=σij?存在,則定義協方差陣為
D(X)=[σ11σ12?σ1pσ21σ22?σ2p???σp1σp2?σpp]=(σij)p×p=defΣ.{\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma. D(X)=??????σ11?σ21??σp1??σ12?σ22??σp2??????σ1p?σ2p??σpp????????=(σij?)p×p?=defΣ.

  • 可以注意到,成立以下等式:
    D(X)=E[(X?E(X))(X?E(X))′].{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))']. D(X)=E[(X?E(X))(X?E(X))].

類似一元隨機變量中由協方差定義相關系數的方式,我們可以定義相關系數陣。如果令rij=rXi,Xj=Cov(Xi,Xj)/D(Xi)D(Xj)=σij/σiiσjjr_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}}rij?=rXi?,Xj??=Cov(Xi?,Xj?)/D(Xi?)D(Xj?)?=σij?/σii?σjj??,那么定義相關系數陣為
R=[r11r12?r1pr21r22?r2p???rp1rp2?rpp]=(rij)p×p.R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}. R=??????r11?r21??rp1??r12?r22??rp2??????r1p?r2p??rpp????????=(rij?)p×p?.

  • 如果記V1/2=diag(σ11,?,σpp)V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}})V1/2=diag(σ11??,?,σpp??)XXX的標準差矩陣,就成立以下等式:
    Σ=V1/2RV1/2,R=V?1/2ΣV?1/2.\Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}. Σ=V1/2RV1/2,R=V?1/2ΣV?1/2.

對于兩個總體X,YX,YX,Y,分別是ppp維和qqq維向量,其協方差陣為COV(X,Y)=E[(X?E(X))(Y?E(Y))′]{\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))']COV(X,Y)=E[(X?E(X))(Y?E(Y))],如果COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}COV(X,Y)=Op×q?,則稱總體X,YX,YX,Y不相關。

  • 可以注意到,成立以下等式:
    COV(X,Y)=[COV(Y,X)]′.{\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. COV(X,Y)=[COV(Y,X)].

4.隨機向量數字特征的性質

首先是隨機向量的運算性質:
E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.\begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array} E(AXB)=AE(X)B,D(AX)=AD(X)A,COV(AX,BY)=ACOV(X,Y)B.?
這里A,BA,BA,B是常數矩陣(滿足運算要求),X,YX,YX,Y是隨機向量。這些運算性質需要牢記,有很廣泛的應用。

類比隨機變量獨立、不相關的關系,我們得出COV(X,Y)=Op×q{\rm COV}(X,Y)=O_{p\times q}COV(X,Y)=Op×q?X,YX,YX,Y獨立的必要不充分條件,即不相關不一定獨立,但獨立一定不相關。

關于隨機向量的自協方差矩陣Σ\SigmaΣ,又有一些獨特的性質:

  • 對于任何隨機向量XXX,其自協方差矩陣Σ\SigmaΣ是非負定對角陣。
  • Σ=L2\Sigma=L^2Σ=L2,這里LLL為非負定矩陣,當Σ>0\Sigma>0Σ>0時稱為Σ\SigmaΣ的平方根矩陣。只要注意到非負定對角陣可正交對角化即可。
  • 如果Σ\SigmaΣ的特征值是λ1,?,λp\lambda_1,\cdots,\lambda_pλ1?,?,λp?,則由正定性,所有特征值≥0\ge 00,那么Σ=Γ(λ1,?,λp)Γ′\Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma'Σ=Γ(λ1?,?,λp?)Γ,這里Γ\GammaΓ是正交矩陣。所以令A=Γ(λ1,?,λp)A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p)A=Γ(λ?1?,?,λ?p?),則Σ=AA′\Sigma=AA'Σ=AA

總結回顧

  • 樣本數據陣,是將nnnppp維向量(即樣本)按列排構成的矩陣。矩陣中每一列代表一個樣本的觀測值,每一行代表一個屬性維度。

  • 隨機向量具有聯合分布、邊緣分布和條件分布,如果是連續型隨機向量,則還有聯合密度、邊緣密度和條件密度。

  • 由條件分布、條件密度刻畫了隨機向量分量間的獨立性,當聯合分布(密度)可拆分為邊緣分布(密度)的乘積時,代表分量獨立。

  • 隨機向量具有均值向量E(X){\rm E}(X)E(X)、自協方差矩陣D(X){\rm D}(X)D(X)、自相關矩陣RRR、標準差對角陣V1/2V^{1/2}V1/2等數字特征,刻畫兩個隨機向量的相關程度用協方差矩陣。如果協方差矩陣為0矩陣,則兩個隨機向量不相關。

  • 隨機向量的數字特征之間存在以下聯系:
    D(X)=E[(X?E(X))(X?E(X))′],D(X)=V1/2RV1/2,R=V?1/2D(X)V?1/2,COV(X,Y)=[COV(Y,X)]′.{\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. D(X)=E[(X?E(X))(X?E(X))],D(X)=V1/2RV1/2,R=V?1/2D(X)V?1/2,COV(X,Y)=[COV(Y,X)].

  • 有以下計算性質是需要記憶的:
    E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.{\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. E(AXB)=AE(X)B,D(AX)=AD(X)A,COV(AX,BY)=ACOV(X,Y)B.

  • 隨機向量的協方差矩陣Σ\SigmaΣ是非負定對稱陣,可以正交分解為ΓΛΓ′\Gamma \Lambda\Gamma'ΓΛΓ,這里Γ\GammaΓ是正交矩陣,Λ\LambdaΛ是特征值對角陣。如果A=ΓΛ1/2A=\Gamma \Lambda^{1/2}A=ΓΛ1/2,則Σ=AA′\Sigma=AA'Σ=AA;如果L=ΓΛ1/2Γ′L=\Gamma \Lambda^{1/2}\Gamma'L=ΓΛ1/2Γ,則Σ=L2\Sigma=L^2Σ=L2,當Σ>0\Sigma>0Σ>0LLL也是正定的,稱為Σ\SigmaΣ的平方根矩陣。

  • 總結

    以上是生活随笔為你收集整理的【多元统计分析】01.多元统计的基础的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。