KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结
1. KS檢驗(yàn)
Kolmogorov-Smirnov檢驗(yàn)是基于累計(jì)分布函數(shù)的,用于檢驗(yàn)一個(gè)分布是否符合某種理論分布或比較兩個(gè)經(jīng)驗(yàn)分布是否有顯著差異。
單樣本K-S檢驗(yàn)是用來(lái)檢驗(yàn)一個(gè)數(shù)據(jù)的觀測(cè)經(jīng)驗(yàn)分布是否符合已知的理論分布。
兩樣本K-S檢驗(yàn)由于對(duì)兩樣本的經(jīng)驗(yàn)分布函數(shù)的位置和形狀參數(shù)的差異都敏感,所以成為比較兩樣本的最有用且最常用的非參數(shù)方法之一。
檢驗(yàn)統(tǒng)計(jì)量為:,其中Fn(x)為觀察序列值,F(x)為理論序列值或另一觀察序列值
1.1 步驟
(1)提出假設(shè)H0:Fn(x)=F(x)
(2)計(jì)算樣本累計(jì)頻率與理論分布累計(jì)概率的絕對(duì)差,令最大的絕對(duì)差為Dn;Dn=max{[Fn(x) - F(x)]}
(3)用樣本容量n和顯著水平a查出臨界值Dna;
(4)如果Dn<Dna,則認(rèn)為擬合是滿意的。
1.2 實(shí)例
單樣本KS檢驗(yàn)
兩樣本KS檢驗(yàn)
?
2. t檢驗(yàn)
T檢驗(yàn),也稱student t檢驗(yàn),主要用戶樣本含量較小,總體標(biāo)準(zhǔn)差未知的正態(tài)分布。
t檢驗(yàn)是用t分布理論來(lái)推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。
t檢驗(yàn)分為單總體檢驗(yàn)和雙總體檢驗(yàn)。
單總體t檢驗(yàn)是檢驗(yàn)一個(gè)樣本平均數(shù)與一個(gè)已知的總體平均數(shù)的差異是否顯著。當(dāng)總體分布是正態(tài)分布,如總體標(biāo)準(zhǔn)差未知且樣本容量小于30,那么樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量呈t分布。 單總體t檢驗(yàn)統(tǒng)計(jì)量為: 其中為樣本平均數(shù),為樣本標(biāo)準(zhǔn)偏差,n為樣本數(shù)。該統(tǒng)計(jì)量t在零假說(shuō):μ=μ0為真的條件下服從自由度為n?1的t分布。2.1 步驟
(1)建立假設(shè)、確定假設(shè)水準(zhǔn)α;
(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量t;
(3)查相應(yīng)界值表,確定P值,下結(jié)論;
3. f檢驗(yàn)
T檢驗(yàn)和F檢驗(yàn)的由來(lái):為了確定從樣本中的統(tǒng)計(jì)結(jié)果推論到總體時(shí)所犯錯(cuò)的概率。
F檢驗(yàn)又叫做聯(lián)合假設(shè)檢驗(yàn),也稱方差比率檢驗(yàn)、方差齊性檢驗(yàn)。是由英國(guó)統(tǒng)計(jì)學(xué)家Fisher提出。
通過(guò)比較兩組數(shù)據(jù)的方差,以確定他們的精密度是否有顯著性差異。
計(jì)算步驟:
樣本標(biāo)準(zhǔn)偏差的平方,即: S*S?= ∑(x-μ)'2/(n-1) 兩組數(shù)據(jù)就能得到兩個(gè)S2值 F=S'2/S'2 然后計(jì)算的F值與查表得到的F表值比較,如果 F < F表?表明兩組數(shù)據(jù)沒(méi)有顯著差異; F ≥ F表?表明兩組數(shù)據(jù)存在顯著差異。4. Grubbs檢驗(yàn)
4.1 概述
一組測(cè)量數(shù)據(jù)中,如果個(gè)別數(shù)據(jù)偏離平均值很遠(yuǎn),那么稱這個(gè)數(shù)據(jù)為“可疑值”。用格拉布斯法判斷,能將“可疑值”從測(cè)量數(shù)據(jù)中剔除。
4.2 步驟
(1) 計(jì)算平均值μ和標(biāo)準(zhǔn)差σ;
(2) 計(jì)算“可疑值”的G值:
????????????????? ? Gi=(xi-μ)/σ,? 其中i為可疑值編號(hào)。
(3) 定出檢測(cè)水平α,那么置信概率p=1-α(α越小越嚴(yán)格);根據(jù)p值和測(cè)量次數(shù)n查格拉布斯表得到臨界值Gp(n);
(4) 比較Gi和臨界值,如果Gi>Gp(n),則判為異常;
4.3? 狄克遜檢驗(yàn)
用于一組測(cè)定數(shù)據(jù)的一致性檢驗(yàn)和提出異常數(shù)值的檢驗(yàn),適用于檢出一個(gè)或多個(gè)異常值。
當(dāng)最大值和最小值同時(shí)為可疑值,或在最大(小)值同側(cè)同時(shí)出現(xiàn)兩個(gè)可疑值時(shí),此方法不理想。
檢測(cè)方法如下:
將n次測(cè)定的數(shù)據(jù)從小到大排列為x1,x2,...,xn-1,xn。x1為最小可疑值,xn為最大可疑值,然后按照下列相應(yīng)公式計(jì)算統(tǒng)計(jì)量r:
根據(jù)n次測(cè)定和顯著性水平從表中查得的臨界值,如果將統(tǒng)計(jì)量r大于臨界值,則判為異常,可以剔除。重復(fù)檢測(cè),知道不再檢出其他異常值為止。
5. 卡方檢驗(yàn)
卡方檢驗(yàn)就是統(tǒng)計(jì)樣本的實(shí)際觀測(cè)值與理論推斷值之間的偏離程度,實(shí)際觀測(cè)值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合,若兩個(gè)值完全相等時(shí),卡方值就為0,表明理論值完全符合。
5.1 步驟
(1)提出原假設(shè)H0:總體X的分布函數(shù)F(x);
(2)將總體x的取值范圍分成k個(gè)互不相交的小區(qū)間A1-Ak;
(3)把落入第i個(gè)區(qū)間Ai的樣本的個(gè)數(shù)記做fi,成為組頻數(shù),f1+f2+f3+...+fk = n;
(4)當(dāng)H0為真時(shí),根據(jù)假設(shè)的總體理論分布,可算出總體X的值落入第i個(gè)小區(qū)間Ai的概率pi,于是n*pi就是落入第i個(gè)小區(qū)間Ai的樣本值的理論頻數(shù);
(5)當(dāng)H0為真時(shí),n次試驗(yàn)中樣本落入第i個(gè)小區(qū)間Ai的頻率fi/n與概率pi應(yīng)該很接近。基于這種思想,皮爾遜引入檢測(cè)統(tǒng)計(jì)量
? ? ? ? ? ?,在H0假設(shè)成立的情況下服從自由度為k-1的卡方分布。
5.2 檢驗(yàn)方法
????? ?獨(dú)立樣本四格表
????? ?自由度為1(k=2),自由度=(行數(shù) - 1) * (列數(shù) - 1)
????? ? 假設(shè)兩個(gè)分類變量X和Y,值域分別為(x1, x2)和(y1, y2),其樣本頻數(shù)列聯(lián)表為:
| ? | y1 | y2 | 總計(jì) |
| x1 | a | b | a+b |
| x2 | c | d | c+d |
| 總計(jì) | a+c | b+d | a+b+c+d |
??????
x2值描述了自變量與因變量之間的相關(guān)程度:x2值越大,相關(guān)程度也越大,所以很自然的可以利用x2值來(lái)做降維,保留相關(guān)程度大的變量。
6. 對(duì)比
6.1 KS檢驗(yàn)與卡方檢驗(yàn)
相同點(diǎn):都采用實(shí)際頻數(shù)和期望頻數(shù)只差進(jìn)行檢驗(yàn)
不同點(diǎn):①卡方檢驗(yàn)主要用于類別數(shù)據(jù),而KS檢驗(yàn)主要用于有計(jì)量單位的連續(xù)和定量數(shù)據(jù)。
????????????? ②卡方檢驗(yàn)也可以用于定量數(shù)據(jù),但必須先將數(shù)據(jù)分組才能獲得實(shí)際的觀測(cè)頻數(shù),而KS檢驗(yàn)?zāi)苤苯訉?duì)原始數(shù)據(jù)進(jìn)行檢驗(yàn),所以它對(duì)數(shù)據(jù)的利用比較完整。
6.2 KS檢驗(yàn)的優(yōu)勢(shì)與劣勢(shì)
- 作為一種非參數(shù)方法,具有穩(wěn)健性
- 不依賴均值的位置
- 對(duì)尺度化不敏感
- 適用范圍廣(t檢驗(yàn)僅局限于正態(tài)分布,當(dāng)數(shù)據(jù)偏離正態(tài)分布太多時(shí),t檢驗(yàn)會(huì)失效)
- 比卡方更有效
- 如果數(shù)據(jù)缺失服從正態(tài)分布,則沒(méi)有t檢驗(yàn)敏感(有效)
總結(jié)
以上是生活随笔為你收集整理的KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Android N Preview No
- 下一篇: cin.tie(0)和ios::sync