第六章 参数估计
依據樣本推出總體分布的參數,方法有兩種:矩估計和極大似然估計。
參數估計的形式有:點估計和區間估計。
點估計:構造合適的統計量θ?=θ?(X1,X2,...Xn)用來估計未知參數θ,θ?稱為參數θ的點估計量。
當給定樣本觀察值x1,x2,...xn時,θ?(x1,x2,...xn)稱為參數θ的點估計值。
矩估計
矩估計:用樣本矩估計總體矩,用樣本矩的函數估計總體矩的函數。
理論依據:辛欽大數定理、依概率收斂的性質
矩的概念參見這里。
矩估計步驟
設總體的k個未知參數為θ1...θk,X1,...Xn樣本來自總體X,假設總體的前k階矩存在。
1 建立總體分布的參數與總體矩之間的關系:μi=E(Xi)=hi(θ1...θk),i=1,2...k
2 求各參數關于k階矩的反函數:θi=gi(μ1...μk),i=1,2…k
3 以樣本各階矩A1,A2..Ak代替總體X的各階矩μ1...μk,得到各參數的矩估計:θ?=gi(A1,A2...Ak),i=1,2...k。
在實際應用中,使用中心距也可以。
矩估計不涉及總體分布。
極大似然估計
從這里開始
極大似然是這樣開始的。如果瓶子里有黑球和白球,已知有一種球概率是34,但不知道具體是哪種球。采用放回抽樣做了一次試驗,取了5個球。這5個球的觀察結果分別為黑、白、黑、黑、黑。估計一下黑球的概率。
設X={1,取到黑球0,取到白球,則X~B(1,p)。p為黑球的概率。p的可能取值是p=14,p=34。抽取容量為5的樣本X1,X2,...X5,觀察值為1,0,1,1,1。
當p=14,出現本次觀察結果的概率是(14)434=31024。
當p=34,出現本次觀察結果的概率是(34)414=811024。
811024>31024,所以p=34更有可能。于是p^=34。
說明兩點。
1 這個容量為n的樣本,是服從B(n,p),p是未知參數。依據這個樣本出現概率最大的時候,p的取值,作為p的估計值,叫做p^。
2 因為樣本是獨立抽樣,所以樣本出現最大概率表示為∏ni=nP(Xi),每個事件發生概率的乘積,稱為似然函數。
依據這兩點,推廣為一般的定義。
極大似然定義
設離散型總體X~p(x;θ),θ∈一個定義域。X1,X2,...Xn為樣本,觀察值為x1,x2,...xn,則事件{X1=x1,X2=x2...Xn=xn}發生的概率為似然函數:L(θ)=∏ni=1p(xi;θ)。
極大似然原理:L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)。當似然函數取得最大值時候的參數θ,就是未知參數θ的估計值。
θ^(x1,x2...xn)稱為θ的極大似然估計值。相應的統計量θ^(X1,X2..Xn)稱為θ的極大似然估計量(MLE)。
設連續型總體X概率密度函數為f(x;θ),θ∈一個定義域。X1,X2,...Xn為樣本,觀察值為x1,x2,...xn,則樣本在觀察值領域發生的概率為似然函數:L(θ)=∏ni=1f(xi;θ)。
極大似然原理:L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)。當似然函數取得最大值時候的參數θ,就是未知參數θ的估計值。
說明:
1 未知參數可能不是一個,設為θ=(θ1,θ2...θn)。
2 求L(θ)的最大值時,可轉換為求lnL(θ)的最大值,lnL(θ)稱為對數似然函數。利用偏微分解得θ^i,i=1,2…k。
3 若L(θ)是關于某個θi的單調遞增(減)函數,則θi的極大似然估計為θi的最大(小)值(與樣本有關)。
4 若θ^是θ的極大似然估計,則g(θ)的極大似然估計為g(θ^)。
極大似然估計步驟
1 找到分布律或者概率密度函數。
2 寫出極大似然函數L(θ)。
3 觀察L(θ)是關于未知變量的單調函數嗎?如果是,則根據單調性找到L(θ)取最大值時候的參數值。如果不是,判斷函數對未知變量是否容易求導,選擇是直接對原函數求導還是先求對數再求導。導函數為0的點就是參數的估計值。
比較
| 比較項 | 矩估計 | 極大似然估計 |
|---|---|---|
| 原理 | 辛欽大數定理;依概率收斂的性質 | 樣本出現概率最大 |
| 計算方法 | 聯立方程組;有幾個變量需要幾個方程 | 微分/偏微分 |
| 特點 | 與分布無關,計算矩或者中心矩 | 根據分布函數或者概率密度函數建立似然函數 |
| 條件 | 需要k階矩存在 | 需要似然函數的導函數存在或者具有單調性 |
估計量的評價準則
無偏性準則
若參數θ的估計量θ^(X1,X2...Xn),滿足E(θ^)=θ,則稱θ^是θ的無偏估計量。
若E(θ^)≠θ,則|E(θ^)?θ|稱為估計量θ^的偏差。
若limn?>+∞E(θ^)=θ,則稱θ^是θ的漸進無偏估計量。
無偏估計量的統計意義是指在大量重復試驗下,由θ^(X1,X2...Xn)給出的估計平均恰是θ。從而保證了θ^沒有系統誤差。
糾偏方法
如果E(θ^)=aθ+b,其中a,b是常數,且ane0,則1a(θ^?b)是θ的無偏估計。
B2=n?1nS2
有效性準則
定義
設θ^1,θ^2是θ的兩個無偏估計,如果D(θ^1)≤D(θ^2),對一切定義域的θ都成立,且不等號至少對定義域內的某一個θ成立,則稱θ^1比θ^2有效。
方差較小的估計量是一個更有效的估計量。
均方誤差準則
設θ^是θ的點估計,且方差存在,則稱E(θ^?θ)2是θ^的均方誤差,記為Mse(θ^)。
若θ^是θ的無偏估計,則有Mse(θ^)=D(θ^)。
設θ^1,θ^2是θ的點估計,如果Mse(θ^1)<Mse(θ^2),對定義域內的θ都成立,則稱在均方誤差準則下,θ^1要優于θ^2。
相合性準則
設θ^(X1,X2...Xn)為參數θ的估計量,若對于任意定義域內的θ,當n?>+∞,θ^n依概率收斂于θ,則稱θ^n為θ的相合估計量或一致估計量。
也就是說:對?ε>0,有limn?>+∞P{|θ^?θ|≥ε}=0成立。
總結
四個準則分別從期望、方差、差平方的期望、極限四個角度做了評價。簡單概括是:無偏性:E(θ^)=θ;有效性:D(θ^)盡可能小;均方誤差準則:E(θ^?θ)2盡可能小;相合性準則: limn?>+∞P{|θ^?θ|≥ε}=0
練習
1 對于任何分布,E(Xˉˉˉ)=E(X):樣本均值的數學期望等于總體的數學期望;E(S2)=D(X):樣本方差的數學期望等于總體的方差。
2 E[(X?c)2]=D(X)+(E(X)?c)2
3 D(X)=E(X2)?[E(X)]2
總結
- 上一篇: Lingo优化模型概述
- 下一篇: 深度学习与计算机视觉教程(3) | 损失