日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python 概率分布类型检验_统计学:假设检验Python案例实现+概率论基础知识回顾...

發布時間:2025/3/12 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 概率分布类型检验_统计学:假设检验Python案例实现+概率论基础知识回顾... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

先通過一個案例說明單樣本檢驗的過程:

案例分析:

公司制造出10臺引擎供測試使用,每一臺的排放水平如下:

15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

請判斷公司生產的引擎是否符合政府規定呢?

根據政府發布的新排放要求,引擎排放平均值要低于20ppm,(ppm是英文百萬分之一的縮寫,這里我們只要理解為是按照環保要求汽車尾氣中碳氫化合物要低于20ppm)。

#描述統計分析

import seaborn as sns

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])

sample_mean=df.mean()

sample_std=df.std()

print('樣本平均值=','%.2f'%sample_mean,'單位:ppm')

print('樣本標準差:','%.2f'%sample_std,'單位:ppm')

'''1、確定問題是什么?要研究的問題是:這些樣本數據是否滿足新標準?零假設H0:公司引擎排放不滿足標準,也就是平均值u>=20備擇假設Ha:公司引擎排放滿足標準,平均值u<20因為只有一個樣本,選擇單樣本檢驗'''

#推論統計分析(包括假設檢驗,置信區間,效應量)

sns.distplot(df)

plt.title('數據集分布')

plt.show()

'''檢驗方向的確定:因為備選假設是公司引擎排放滿足標準即u<20,所以使用單尾檢驗中的左尾檢驗.計算p值:1)計算標準誤差2)計算t值((t=樣本平均值-總體平均值)/標準誤差)3)根據t值,查找t表格,得到概率p值'''

#手動計算

n=10

SE=sample_std/(np.sqrt(n))#計算標準誤差

pop_mean=20

t=(sample_mean-pop_mean)/SE#計算t值

print('標準誤差SE=',SE)

print('t=',t)

#描述統計分析

import seaborn as sns

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

?

df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])

sample_mean=df.mean()

?

sample_std=df.std()

print('樣本平均值=','%.2f'%sample_mean,'單位:ppm')

print('樣本標準差:','%.2f'%sample_std,'單位:ppm')

?

'''1、確定問題是什么?要研究的問題是:這些樣本數據是否滿足新標準?零假設H0:公司引擎排放不滿足標準,也就是平均值u>=20備擇假設Ha:公司引擎排放滿足標準,平均值u<20因為只有一個樣本,選擇單樣本檢驗'''

#推論統計分析(包括假設檢驗,置信區間,效應量)

sns.distplot(df)

plt.title('數據集分布')

plt.show()

?

'''檢驗方向的確定:因為備選假設是公司引擎排放滿足標準即u<20,所以使用單尾檢驗中的左尾檢驗.計算p值:1)計算標準誤差2)計算t值((t=樣本平均值-總體平均值)/標準誤差)3)根據t值,查找t表格,得到概率p值'''

#手動計算

n=10

SE=sample_std/(np.sqrt(n))#計算標準誤差

pop_mean=20

t=(sample_mean-pop_mean)/SE#計算t值

print('標準誤差SE=',SE)

print('t=',t)

?

結果:

樣本平均值= 17.17 單位:ppm

樣本標準差: 2.98 單位:ppm

標準誤差SE= 0.94281493412

t= -3.00164952589

'''用Python統計包scipy計算用scipy計算出的是:雙尾檢驗單(1samp)樣本t檢驗(ttest1samp):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest1samp.html相關(related)樣本t檢驗(ttestrel):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestrel.html雙獨立(independent)樣本t檢驗(ttestind):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestind.html'''

from scipy import stats

pop_mean=20

t,p_twotail=stats.ttest_1samp(df,pop_mean)

print('t值=',t,'雙尾檢驗的p值=',p_twotail)

#單尾檢驗的p值

p_onetail=p_twotail/2

print('單尾檢驗的p值',p_onetail)

#判斷標準(顯著性水平)使用alpha=5%

alpha=0.05

if(t<0 and p_onetail

print('拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準')

else:

print('接受零假設,沒有統計顯著,也就是汽車引擎排放不滿足標準')

#拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準

#置信區間

'''1)置信水平對應的t值(t_ci)2)計算上下限置信區間上限a=樣本平均值-t_ci*標準誤差置信區間下限b=樣本平均值-t_ci*標準誤差'''

t_ci=2.262

SE=stats.sem(df)

a=sample_mean-t_ci*SE

b=sample_mean+t_ci*SE

print('單個平均值的置信區間,95置信水平CI=(%f,%f)'%(a,b))

'''效應量效應量:是指處理效應的大小。例如藥物A比藥物B效果顯著。度量效應量有很多種,但大多數都屬于兩大主要類別。1)第一種叫差異度量例如在對比平均值時,衡量效應大小的常見標準之一是Cohen's dCohen's d=(樣本平均值1—樣本平均值2)/標準差Cohen's d 除以的是標準差,也就是以標準差為單位,樣本平均值和總體平均值之間相差多少。2)第二種叫相關度度量例如R平方,表示某個變量的變化比例與另一變量的關系。可以用t檢驗的信息退出R平方的公式,這里的t值從t檢驗中獲得的值,df是自由度。r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平如果r平方等于20%,表示我們可以說通過知道另一個變量能夠接受相關變量20%的變化情況'''

#效應量:差異指標Cohen's d

d=(sample_mean-pop_mean)/sample_std

#效應量:相關度指標R2

n=10

df=n-1

R2=(t*t)/(t*t+df)

print('d=',d)

print('R2=',R2)

結果:

t值= -3.00164952589 雙尾檢驗的p值= 0.0149164142489

單尾檢驗的p值 0.00745820712445

拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準

單個平均值的置信區間,95置信水平CI=(15.037353,19.302647)

d= -0.9492049239364257

R2= 0.500274845399

數據分析簡報:

結論:公司引擎排放滿足標準

1、描述統計分析

樣本平均值17.17ppm,樣本標準差2.98ppm

2、推論統計分析

1)假設檢驗

獨立樣本t(9)=-3.00,

p=.0074(α=5%),單尾檢驗(左尾)

公司引擎排放滿足標準

2)置信區間

平均值的置信區間,95% CI=(17.11,17.23)

3)效應量

d=-0.94

第一章、常見概率分布

隨機變量:離散隨機變量、連續隨機變量

離散隨機變量:概率質量函數PMF、離散概率分布

連續隨機變量:概率密度函數PDF、連續概率分布

離散概率分布的四大典型:伯努利分布、二項分布、幾何分布、泊松分布

1、伯努利分布即是隨機變量X僅有兩種可能的情況(1,成功;0,失敗),分別對應成功概率p,失敗概率1-p。

2、二項分布即做n次相互獨立事件,每次事件存在兩種情況(成功或失敗),每次成功概率都相等用p表示,求成功k次的概率是多少。p(k)=Cnkpk(1-p)n-k。期望E=np,方差np(1-p)。

3、幾何分布即做n次相互獨立事件,每次事件存在兩種情況(成功或失敗),每次成功概率都相等用p表示,求第k次做某事才第一次成功的概率。p(k)=(1-p)k-1p。期望E=1/p。方差等于1-p/p2。

4、泊松分布即某一獨立事件,在任意相同的時間范圍內,事件發生的概率相同,求某個時間范圍內發生某件次數k次的概率是多大。p(k)=uke-u/k!。期望E=u。方差等于u。

連續概率分布的兩大典型:正態分布、冪律分布

1、 正態分布

求某一取值范圍的概率。

第一步:確定概率范圍p(k<1.05)

第二步:求標準分z=k-平均值/標準差

第三步:查找z表格,得出p(Z

第二章、抽樣分布和中心極限定理

總體、樣本、樣本大小、樣本數量

中心極限定理:

1)樣本平均值約等于總體平均值。

2)不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態分布。

應用:

1、用樣本來估計總體(民意調查)

2、根據總體信息,判斷某個樣本是否屬于總體(3個標準差,概率97%)

解釋:對于屬于正態分布的指標數據,我們可以很快捷地對它進行下一步假設檢驗,并推算出對應的置信區間;而對于那些不屬于正態分布的數據,根據中心極限定理,在樣本容量很大時,總體參數的抽樣分布是趨向于正態分布的,最終都可以依據正態分布的檢驗公式對它進行下一步分析。

總體標準差:某個數據集的標準差。

樣本標準差:用樣本估計總體標準差s。

樣本標準誤差(標準誤):所有樣本平均值產生的標準差。

抽樣分布:將樣本平均值的分布可視化叫做抽樣分布。

標準誤SE。根據總體信息,判斷某個樣本是否屬于總體(抽樣分布中3個標準誤,概率97%)。

第三章、置信水平和置信區間

置信區間(誤差范圍):[a,b]

置信水平Y%:區間包含總體平均值的概率p(a

大樣本如何計算置信區間(n>=30,抽樣分布呈正態分布):

1、確定要求解的問題。

2、求樣本的平均值和標準誤差。

3、確定置信水平

4、求出置信區間上下限的值。

a=總體平均值-幾個標準誤差=總體平均值-z*標準誤差

b=總體平均值+幾個標準誤差=總體平均值+z*標準誤差

【p(Z

已知樣本平均值的求解過程:1、p(Z

小樣本如何計算置信區間(n<30,抽樣分布呈t分布):

t分布的自由度df=n-1。

已知樣本平均值的求解過程:1、確定要求的問題是什么2、求樣本的平均值和標準誤差3、查找t表格,求t值。4、a=樣本平均值-t*標準誤差,b=樣本平均值+t*標準誤差。

第四章、假設性檢驗

假設檢驗套路:問題是什么?證據是什么?判斷標準是什么?作出結論

假設檢驗常規過程:1、零假設,備選假設2、零假設成立時,得到樣本平均值的概率:p值3、顯著水平a(0.1%、1%、5%)4、p<=a時,拒絕零假設也就是備選假設成立,p>a時,接受零假設。

(一)單樣本檢驗

問題是什么:

1、零假設:公司引擎排放不滿足標準,也就是平均值>=20

備選假設:滿足標準,也就是平均值<20

2、判斷假設檢驗類型:單樣本檢驗

3、判斷抽樣分布類型:樣本大小>=30(正態分布)、樣本大小<30(t分布,總體近似正態分布)、其它分布。

4、判斷檢驗方向:單尾檢驗,還是雙尾檢驗。

證據是什么:

p值:在零假設成立條件下,得到樣本平均值的概率。

P值計算步驟:計算標準誤差、樣本平均值、總體均值、t=樣本平均值-總體均值/標準誤差、根據t值查找表格得到p值。

判斷標準是什么:

顯著水平a=0.05。p<=0.05時,拒絕零假設,備選假設成立,p>0.05時,接受零假設。

假設檢驗APA格式:單樣本t(9)=-3.00,p=.0074(a=5%,單尾檢驗(左尾)。

置信區間:

a=樣本平均值-t_ci*標準誤差

b=樣本平均值+t_ci*標準誤差

置信區間APA格式:單個平均值的置信區間,95% CI=(17.11,17.23)。

效應量:

差異指標:Cohen’s d=第一組平均值-第二組平均值/標準差

相關度指標:R2=t2/t2+df

效應量APA報告格式:d=-0.95。

(二)相關配對檢驗

與單樣本檢驗的不同點:

問題是什么:

1、零假設:特魯普效應不存在,第一組平均值等于第二組平均值或者說第一組平均值-第二組平均值=0。備選假設:特魯普效應存在,第一組平均值

2、判斷抽樣分布:判斷出差值數據集(即第一組平均值-第二組平均值)的分布情況。

3、t檢驗:對差值數據集進行t檢驗。

置信區間:

對差值數據集進行平均值置信區間求取。

置信區間APA 格式:兩個平均值差值的置信區間,95%置信水平CI=[-8.80,-8.67]

效應量:

相關配對檢驗效應量Cohen's d=(樣本平均值-總體平均值)/樣本標準差

(三)、雙獨立樣本檢驗

問題:

1、零假設:A版本和B版本沒有差別,A版本平均值等于B版本。備選假設:A版本和B版本有差別,二者平均值不相等。

2、判斷抽樣分布類型:兩個數據集都要進行分布作圖判斷。案例中同為t分布。

3、案例中檢驗方向是雙尾檢驗。判斷標準:p<=a/2=0.025時,拒接零假設。

置信區間:

a=樣本平均值-t_ci*標準誤差

b=樣本平均值+t_ci*標準誤差

這里的樣本平均值=樣本平均值1-樣本平均值2

標準誤差:SE=兩個樣本綜合標準誤差。

置信區間APA格式:兩個平均值差異的置信區間,95置信水平CI=[-2.762316,-2.677684]

效應量:

Cohen's d=(第一組平均值-第二組平均值)/標準差。標準差為合并標準差。

總結

以上是生活随笔為你收集整理的python 概率分布类型检验_统计学:假设检验Python案例实现+概率论基础知识回顾...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。