统计学基本知识三
聲明:文中的圖來自于可汗學院公開課,若有侵權,聯系我刪除。
假設檢驗:
先看一個z分布的例子:
注意:零假設一般傾向于保守的。
在上圖中:
1、先假設零假設成立,即藥物無效,總體均值仍為1.2s;
2、在此前提下,實驗得出了1.05s的樣本均值,0.5的樣本標準差(可求出抽樣分布的標準差σx為0.5/10=0.05),我們要考慮的就是,在藥物無效的前提下,得到這樣的結果是多大的概率?
3、(1.2-1.05)/0.05=3,也就是說,1.05這個樣本均值落在距離總體均值3個抽樣分布標準差σx的地方;而查表可知,落在距離“總體均值”3個標準差內的區間的可能性高達99.7%,換言之,落在該區間之外的可能性只有0.3%;
4、所以在零假設成立的前提下,出現這樣的樣本結果只有0.3%的可能性,幾乎不可能,從而我們應該拒絕零假設,選擇備擇假設。?
第一型錯誤:拒絕了正確的零假設。如果某個假設的概率低于某門檻,我們會拒絕該零假設。而在這種極小的概率下事件是可能發生的,犯錯概率是存在的,這就是第一型錯誤。
如下圖所示:
t分布的一個例子:
當樣本容量n<30時,我們采用t統計量。在本例子中,n=10,所以我們采用的是t 統計量;
而t統計量的計算方式跟z統計量是一樣的,都是通過用樣本均值x減去總體均值u再除以標準差(也是s/根號n);
不同的在于,求出的值,查的表不一樣:表中分出了單側檢驗和雙側檢驗,本例中是單側檢驗;
n=10所以自由度是9;查到的99%對應的2.82意味著,大于u+2.82(s/根號n)的樣本均值出現的可能性為1%,根據對稱性可知,小于u-2.81(s/根號n)的樣本均值出現的概率也為1%(所占面積為0.01),而-3<-2.81,所以本例中,在零假設成立的前提下,出現該樣本的可能性低于1%,所以拒絕零假設。
求95%的置信區間:
通過上述表雙側,自由度為9,知道兩側點如下圖所示:
?離散分布的例子:
比例的分布為二項分布。當np≥5或者n(1-p)≥5時,樣本比例的分布為漸近正態分布。
查表:?
而2.14>1.6更加極端,小于5% 故拒絕零假設。
獨立變量之間的期望和方差關系:
Var(X±Y)=Var(X)+Var(Y)?
E(X-Y)=E(X)-E(Y)?
E(X+Y)=E(X)+E(Y)
均值之差的假設檢驗:
總體占比的比較:
男女各1000投票,溫是否有差異,求95%的置信區間。
由上可看出95%的幾率,男女之差是落在這個范圍之內,該范圍內男性比女性占比大。
總體占比比較的假設檢驗:
?
?
?
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結