多元统计分析(笔记更新中...)
多元統計分析
是研究多個隨機變量之間相互依賴關系以及內在統計規律性的統計學科
例1:地區經濟發展的指標,總產值,利潤,效益,物價等
例2:醫學診斷,血壓脈搏,白血球,體溫等
多元統計分析的應用
| 數據的結構性化簡 | 盡可能簡單的表示研究的現象,但不損失很多有用的信息,并且希望這種表示能夠很容易的解釋 | 多元回歸分析,聚類分析,主成分分析,因子分析,相應分析,多維標度法,可視化分析 |
| 分類和組合 | 基于所測量到的一些特征,給出好的分組方法,對相似的對象或者變量分組 | 判別分析,聚類分析,主成分分析,可視化分析 |
| 變量之間的相關關系 | 變量之間是否存在相關關系,相關關系又是怎樣體現的 | 多元回歸,典型相關,主成分分析,因子分析,相應分析,多維標度法,可視化分析 |
| 預測與決策 | 通過統計模型或者最優準則,對未來進行預測或者判斷 | 多元回歸,判別分析,聚類分析,可視化分析 |
| 假設的提出以及檢驗 | 檢驗由多元總體參數表示的某種統計假設,能夠證實某種假設條件的合理性 | 多元總體參數估計,假設檢驗 |
主要的多元統計分析方法
以上方法依據不同標準可以進行不同的分類
計算機統計分析的基本步驟
數據的組織
實際上就是數據庫的建立。第一步是編碼,用數字代表分類數據(區間數據或者比率數據);第二步是給變量賦值,設置變量并根據研究結果給予其數字代碼(編碼)。
數據的錄入
將編碼數據輸入計算機,形成數據庫。關鍵在于保證錄入的正確性,避免認讀錯誤以及按鍵錯誤。
在數據錄入后還應該進行檢驗,可以采用計算機核對以及人工核對的方法。
統計分析
根據研究的目的以及需要確定統計方法,然后確定與選定的統計方法相應的運行程序。
結果輸出
經過統計分析,計算結果可用計算機打印出來,輸出的形式有列表,圖形等。
介紹幾種統計分析工具
EXCEL
眾所周知的數據處理軟件,較為簡單,可以使用DAX等進一步提高Excel的數據處理能力
SPSS
常用的統計分析軟件,圖形化操作,入門簡單
EVIEWS
EViews是Econometrics Views的縮寫,通常稱為計量經濟學軟件包。是專門為大型機構開發的、用以處理時間序列數據的時間序列軟件包
STATA
Stata是一個用于分析和管理數據的功能強大又小巧玲瓏,速度快的實用統計分析軟件,Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。具體說,Stata具有如下統計分析能力:數值變量資料的一般分析:參數估計,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗等
SAS
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統,它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等,被譽為統計分析的標準軟件
R語言
R 語言是為數學研究工作者設計的一種數學編程語言,主要用于統計分析、繪圖、數據挖掘等領域
多元正態分布的參數估計
多元統計分析涉及到的都是:隨機變量或者多個隨機變量放在一起的隨機矩陣
例如:研究公司運營情況,公司的獲利能力,資金周轉能力,競爭能力和償還債務的能力等;
研究國家財政收入時,稅收收入,企業收入,債務收入,國家重點交通建設基金收入等。
綜上所述,我們要從整體上把握問題的實質,不能只研究一個指標或是把這些指標分裂開研究
講在前面
隨機變量:
假定一個總體包含多個個體,當每個個體都是P個需要觀測的指標,進行了N次觀測時,常用向量
X=(X1,X2,?,Xp)X=(X_{1},X_{2},\cdots,X_{p}) X=(X1?,X2?,?,Xp?)
表示對同一個體觀測的p個變量,稱這樣的總體為P維總體。、
便于人們用數學方法去研究p維總體的特性,這里“維”(或“元”)的概念,表示共有幾個分量。若觀測了n個個體,則可得到如表2.1的數據,稱每一個個體的p個變量為一個樣品,而全體n個樣品組成一個樣本。
上圖中的樣本資料可用矩陣表示為:
X?=[X11X12?X1pX21X22?X2p???Xn1Xn2?Xnp]=(X?1,X?2,?,X?p)\vec{X}=\left[\begin{matrix} X_{11}&X_{12}\cdots &X_{1p}\\ X_{21}&X_{22}\cdots &X_{2p}\\ \vdots&\vdots&\vdots\\ X_{n1}&X_{n2}\cdots &X_{np}\\ \end{matrix}\right]=(\vec{X}_{1},\vec{X}_{2},\cdots,\vec{X}_{p}) X=???X11?X21??Xn1??X12??X22???Xn2???X1p?X2p??Xnp?????=(X1?,X2?,?,Xp?)
回顧一元統計中的分布函數,分布密度函數
設X是一個隨機變量,稱 F(x)=P(X≤x)F(x)=P(X\leq x)F(x)=P(X≤x)為X的概率分布,簡稱為分布函數,記作X≈F(x)X\approx F(x)X≈F(x)
如果隨機變量在有限的xk{x_{k}}xk?上取值,記P(X=xk)=pk,(k=1,2,?)P(X=x_{k})=p_{k},(k=1,2,\cdots)P(X=xk?)=pk?,(k=1,2,?)且∑kpk=1\sum_{k}{p_{k}}=1∑k?pk?=1,則稱X為離散型隨機變量,稱P(X=xk)=pk,(k=1,2,?)P(X=x_{k})=p_{k},(k=1,2,\cdots)P(X=xk?)=pk?,(k=1,2,?)為X的概率分布
分布密度函數:
設X?F(x)X - F(x)X?F(x),若存在一個非負函數f(x)f(x)f(x),使得一切實數x有:F(x)=∫?∞xf(t)dtF(x)=\int_{-\infty}^{x}{f(t)}{\rm d}tF(x)=∫?∞x?f(t)dt,則稱f(x)f(x)f(x)為X的分布密度函數,簡稱為密度函數。一個函數f(x)f(x)f(x)能作為某個隨機變量X的分布密度函數的重要條件是:
(1)f(x)f(x)f(x)≥0,對一切實數x都成立;
(2)∫?∞xf(x)dx=1\int_{-\infty}^{x}{f(x)}{\rm d}x=1∫?∞x?f(x)dx=1
多元分布的聯合,邊緣分布和聯合,邊緣密度函數
隨機向量的數字特征
均值向量
均值向量:
u?=E(X)=[E(X1)E(X2)?E(Xp)]=[u1?u2??up?]\vec{u}=E(X)=\left[\begin{matrix} E(X_{1})\\ E(X_{2})\\ \vdots \\ E(X_{p})\\ \end{matrix}\right]=\left[\begin{matrix} \vec{u_{1}}\\ \vec{u_{2}}\\ \vdots \\ \vec{u_{p}}\\ \end{matrix}\right] u=E(X)=???E(X1?)E(X2?)?E(Xp?)????=???u1??u2???up??????
其中,
ui?={∫?∞+∞xifi(xi)dxi若Xi是概率密度函數為fi(xi)的連續型隨機變量∑所有zixipi(xi)若Xi是概率函數為pi(xi)的離散型隨機變量\vec{u_{i}}= \begin{cases} \int_{-\infty}^{+\infty}{x_{i}f_{i}(x_{i})}{\rm d}x_{i} & 若X_{i}是概率密度函數為f_{i}(x_{i})的連續型隨機變量 \\ \sum_{所有z_{i}}{x_{i}}p_{i}(x_{i}) & 若X_{i}是概率函數為p_{i}(x_{i})的離散型隨機變量 \end{cases} ui??={∫?∞+∞?xi?fi?(xi?)dxi?∑所有zi??xi?pi?(xi?)?若Xi?是概率密度函數為fi?(xi?)的連續型隨機變量若Xi?是概率函數為pi?(xi?)的離散型隨機變量?
協差陣
正態分布的定義和有關性質
現實世界中,許多實際問題的解決都是以總體服從正態分布或者近似服從正態分布為前提的。
所以在處理數據時,為了克服由于指標的量綱不同對統計分析結果帶來的影響,往往在使用各種統計分析之前,常需要將每個指標“標準化”。
聚類與SPSS應用
總結
以上是生活随笔為你收集整理的多元统计分析(笔记更新中...)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 28款数据恢复软件分类介绍
- 下一篇: 数据恢复软件性能大比拼