R语言假设检验完整入门教程
本文介紹假設(shè)檢驗的概念,以及如何實現(xiàn)T檢驗。包括單樣本T檢驗、雙樣本T檢驗以及配對樣本T檢驗。
假設(shè)檢驗
假設(shè)檢驗(hypothesis testing),又稱統(tǒng)計假設(shè)檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。
R語言提供t.test()函數(shù)執(zhí)行不同類型T檢驗,語法如下:
# y為null 為單樣本T檢驗
t.test(x, y = NULL,
alternative = c(“two.sided”, “l(fā)ess”, “greater”),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, …)
- x, y: 兩個樣本數(shù)據(jù).
- alternative: 檢驗的備擇假設(shè).
- mu: 假設(shè)的總體均值.
- paired: 是否執(zhí)行配對檢驗.
- var.equal: 是否假設(shè)兩個樣本方差相等.
- conf.level: 要使用的置信度.
下面通過示例來說明如何使用該函數(shù)。
單樣本T檢驗
它用來檢驗總體均值是否等于某值。舉例,如果我們想知道某種類型海龜平均重量是否為310磅,為此收集一些隨機樣本,樣本海龜重量如下:
隨機樣本重量:300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
下面代碼執(zhí)行單樣本T檢驗:
# 定義樣本向量 turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)# 執(zhí)行單樣本T檢驗 t.test(x = turtle_weights, mu = 310)# One Sample t-test # # data: turtle_weights # t = -1.5848, df = 12, p-value = 0.139 # alternative hypothesis: true mean is not equal to 310 # 95 percent confidence interval: # 303.4236 311.0379 # sample estimates: # mean of x # 307.2308從輸出可以看到:
- T檢驗統(tǒng)計:-1.5848
- 自由度 : 12
- p值 : 0.139
- 總體均值95%置信區(qū)間:[303.4236, 311.0379]
- 樣本均值 :307.230
因為p值為0.139,不小于.05, 我們不能拒絕原假設(shè)。這意味著我們沒有足夠證據(jù)說明這種類型海龜平均重量不等于310磅。
雙樣本T檢驗
雙樣本T檢驗用于測試兩個總體均值是否相等。舉例,我們想知道兩個不同種類海龜平均重量是否相等,為此,隨機收集兩種海龜樣本,重量如下:
樣本1: 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
樣本2: 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305
下面代碼實現(xiàn)雙樣本T檢驗:
# 兩種海龜樣本重量向量 sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305)# 執(zhí)行雙樣本T檢驗 t.test(x = sample1, y = sample2)# Welch Two Sample t-test # # data: sample1 and sample2 # t = -2.1009, df = 19.112, p-value = 0.04914 # alternative hypothesis: true difference in means is not equal to 0 # 95 percent confidence interval: # -14.73862953 -0.03060124 # sample estimates: # mean of x mean of y # 307.2308 314.6154從輸出可以看到:
T檢驗統(tǒng)計量: -2.1009
自由度 : 19.112
p值 : 0.04914
95%置信區(qū)間: [-14.74, -0.03]
樣本1平均重量 : 307.2308
樣本1平均重量 : 314.6154
因為p值為0.04914,小于.05, 我們拒絕原假設(shè)。這意味著我們有足夠證據(jù)說明這倆種類型海龜平均重量不相等。
配對樣本T檢驗
當(dāng)一個樣本中的每個觀測值可以與另一個樣本中的觀測值配對時,我們可以使用配對樣本t檢驗來比較兩個樣本的均值。
例如,假設(shè)我們想知道某種訓(xùn)練程序是否能夠增加籃球運動員的最大垂直跳躍高度(以英寸為單位)。為了驗證這一點,我們隨機招募12名大學(xué)生籃球運動員,并測量他們每個人的最大垂直跳躍。然后讓每個運動員按照新的訓(xùn)練程序訓(xùn)練一個月,然后在月底再次測量他們的最大垂直跳躍高度。
以下數(shù)據(jù)顯示了每個運動員在使用訓(xùn)練程序之前和之后的最大跳躍高度(英寸):
Before: 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21
After: 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20
下面代碼執(zhí)行配對樣本檢驗:
# 最大跳躍高度統(tǒng)計向量 before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21) after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20)# 執(zhí)行配對樣本檢驗 t.test(x = before, y = after, paired = TRUE)# Paired t-test # # data: before and after # t = -2.5289, df = 11, p-value = 0.02803 # alternative hypothesis: true difference in means is not equal to 0 # 95 percent confidence interval: # -2.3379151 -0.1620849 # sample estimates: # mean of the differences # -1.25從輸出可以看到:
T檢驗統(tǒng)計量 : -2.5289
自由度 : 11
p值 : 0.02803
95%置信區(qū)間 : [-2.34, -0.16]
兩者均值差 : -1.25
因為p值為0.02803,小于.05, 我們拒絕原假設(shè)。這意味著我們有足夠證據(jù)說明按照新訓(xùn)練程序前后最大跳躍高度不相等。
總結(jié)
以上是生活随笔為你收集整理的R语言假设检验完整入门教程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计入门——假设检验与方差分析
- 下一篇: uva10106