日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

利用python进行假设假设检验

發(fā)布時(shí)間:2023/12/20 python 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用python进行假设假设检验 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這篇文章通過一個(gè)實(shí)列來介紹如何利用python來進(jìn)行假設(shè)檢驗(yàn)。上一篇文章中,我們介紹了假設(shè)檢驗(yàn)就是將所要驗(yàn)證的假設(shè)分成兩個(gè)對(duì)立的假設(shè),然后驗(yàn)證哪一個(gè)假設(shè)成立的概率要大一點(diǎn)。這里我將會(huì)介紹專業(yè)人員驗(yàn)證假設(shè)的兩種方法:

  • 第一種方法,利用置信區(qū)間。首先模擬統(tǒng)計(jì)量的抽樣分布,然后對(duì)比我們的假設(shè)和抽樣分布中的情況是否一致。
  • 第二種方法,模擬零假設(shè)。首先我們假設(shè)零假設(shè)為真,然后依此模擬統(tǒng)計(jì)量分布,最后觀察得到的數(shù)據(jù)是否一致。
  • 數(shù)據(jù)介紹和確立假設(shè)

    本文利用的數(shù)據(jù)是一份關(guān)于人們喝咖啡的數(shù)據(jù),包含每一個(gè)人的身高、是否喝咖啡等信息。這里展示了頭部的5條數(shù)據(jù):

    我們好奇的一個(gè)問題是這些喝咖啡人的平均身高是否大于70英寸(1.75米),也就是我們想驗(yàn)證這個(gè)總體中的身高均值是否大于70英寸。所以我們可以設(shè)立假設(shè)有(μ代表身高的平均值):

    H0: μ≤70 H1: μ>70

    利用置信區(qū)間

    為了驗(yàn)證關(guān)于總體參數(shù)的假設(shè),我們需要從總體中抽取樣本進(jìn)行檢驗(yàn)。第一個(gè)方法是通過構(gòu)造統(tǒng)計(jì)量的抽樣分布,查看置信區(qū)間,并與假設(shè)進(jìn)行對(duì)比。具體過程可以概括為:

  • 對(duì)從總體中抽取出來的樣本進(jìn)行多次自助抽樣,得到一個(gè)樣本集。
  • 對(duì)樣本集中,每一次自助抽樣的樣本,計(jì)算其中身高的均值。
  • 用這些均值構(gòu)建樣本均值的抽樣分布。
  • 根據(jù)特定的置信水平,從抽樣分布中,為總體均值確定置信區(qū)間。
  • 具體代碼實(shí)現(xiàn)過程如下:

  • 先導(dǎo)入相應(yīng)的包
  • import pandas as pd import numpy ad np import matplotlib.pyplot as plt %matplotlib inline
  • 導(dǎo)入數(shù)據(jù)
  • df=pd.read_csv('coffee_dataset.csv')
  • 從數(shù)據(jù)中隨機(jī)抽取150個(gè)樣本
  • np.random.seed(42) #設(shè)置種子 sample_df=df.sample(150)
  • 對(duì)樣本重復(fù)進(jìn)行10000次自助抽樣,并計(jì)算每個(gè)樣本的身高均值
  • means=[] #存儲(chǔ)每一次計(jì)算得到的均值 for _ in range(10000):bootsample=sample_df.sample(150,replace=True) #replace=True時(shí)為自助抽樣,也就是有放回的抽樣means.append(bootsample.height.mean())
  • 根據(jù)抽樣分布,以95%的置信度,確定總體均值滿足的置信區(qū)間
  • low,high=np.percentile(means,2.5),np.percentile(means,97.5)

    low和high分別代表置信區(qū)間的下限和上限

  • 可視化置信區(qū)間
  • plt.hist(means) plt.axvline(x=low,color='r',linewidth=2) plt.axvline(x=high,color='r',linewidth=2)

    結(jié)果為:

    可以看到,抽樣分布大致為正太分布。為什么會(huì)服從正太分布呢?因?yàn)楦鶕?jù)中心極限定理,在樣本量趨于無限的時(shí)候,樣本均值服從正態(tài)分布。上面的圖像是在進(jìn)行10000次自助抽樣時(shí)候的狀態(tài),隨著抽樣次數(shù)的增加,圖像會(huì)越來越趨近正太分布。
    另外,95%的置信度下,置信區(qū)間的范圍大致為67-68.25之間。因此我i們看到,抽樣分布95%以上的值都小于70,所以我們應(yīng)該接受零假設(shè),也就是認(rèn)為總體的平均身高小于70英寸。

    模擬零假設(shè)

    上一部分我們采用置信區(qū)間,判斷樣本計(jì)算的統(tǒng)計(jì)量值是否在置信區(qū)間里面,以此來判斷是否接受原假設(shè)。這里我們采用另外一種方式來判斷是否接受原假設(shè)。我們知道當(dāng)樣本容量足夠大時(shí),樣本均值服從均值為總體均值,方差為樣本均值方差的正態(tài)分布。那么我們就可以,模擬零假設(shè)成立下的統(tǒng)計(jì)量的抽樣本分布,并根據(jù)這個(gè)分布計(jì)算P值,以此來判斷是否接受零假設(shè)。關(guān)于P值,可以參看我的另一篇文章《一文詳解假設(shè)檢驗(yàn)、兩類錯(cuò)誤和p值》。下面我介紹具體的實(shí)現(xiàn)方法:
    同樣首先導(dǎo)入相應(yīng)的包和數(shù)據(jù):

    import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline df=pd.read_csv('coffee_dataset.csv')

    接著從數(shù)據(jù)中抽取150個(gè)樣本,這是把原數(shù)據(jù)當(dāng)成總體,而對(duì)總體進(jìn)行抽樣的過程:

    np.random.seed(42) sample_df=df.sample(150)

    對(duì)樣本進(jìn)行10000次自助抽樣,并計(jì)算均值:

    means=[] #存儲(chǔ)每一次計(jì)算得到的均值 for _ in range(10000):bootsample=sample_df.sample(150,replace=True) #replace=True時(shí)為自助抽樣,也就是有放回的抽樣means.append(bootsample.height.mean())

    計(jì)算樣本統(tǒng)計(jì)量的方差,并在假設(shè)零假設(shè)成立下,模擬正態(tài)的抽樣分布:

    null_vals=np.random.normal(70,np.std(means),10000)

    可視化圖形:

    plt.hist(null_vals)


    計(jì)算抽樣得到的樣本均值:

    sample_mean=sample_df.height.mean()

    計(jì)算p值,p值其實(shí)就是基于備擇假設(shè),比樣本統(tǒng)計(jì)量更極端值的比例:

    (null_vals>sample_mean).mean()

    在該例的假設(shè)中,H1的假設(shè)為:

    H1: μ>70

    所以在基于H1的假設(shè)下,更偏向極端值的就是抽樣分布中大于樣本計(jì)算出來的統(tǒng)計(jì)量值的比例。這就是p值,值越大我們?cè)讲荒芫芙^零假設(shè)。上面計(jì)算的值為1,所以我們無法拒絕原假設(shè)。這個(gè)結(jié)果也和上部分利用置信區(qū)間得到的結(jié)論一樣。這里我們給出通過模擬零假設(shè)進(jìn)行假設(shè)檢驗(yàn)的一般過程:

  • 計(jì)算實(shí)際從數(shù)據(jù)的抽樣中,得到的統(tǒng)計(jì)量的數(shù)值
  • 模擬零假設(shè)中得出的統(tǒng)計(jì)量數(shù)值
  • 對(duì)比統(tǒng)計(jì)量和零假設(shè)中的數(shù)值
  • 根據(jù)備擇假設(shè),計(jì)算P值
  • 總結(jié)

    以上是生活随笔為你收集整理的利用python进行假设假设检验的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。