讲讲Bootstrap是在干啥?
總第248篇/張俊紅
學過統計學的同學應該對置信區間都有了解,置信區間又叫估計區間,是從概率來講某個隨機變量可能取的值的范圍。
在前面的文章《聊聊置信度與置信區間》中講過為什么會有置信區間以及置信區間應該如何求取。在那篇文章中講了當數據服從正態分布時,95%的置信區間就是均值加減1.96倍的標準差。
那很多時候數據是不符合正態分布,或者是我們不知道樣本總體是否符合正態分布,但是我們又需要求取置信區間時,就可以用到我們的今天的主角--Bootstrap抽樣的方法。
Bootstrap是對樣本進行有放回的抽樣,抽樣若干次(一般為1000次),每次抽樣的結果作為一個樣本點,抽樣1000次,就會有1000個樣本點,用這1000個點的分布作為樣本總體的分布,而這1000個點是大概率是服從正態分布的,只要服從正態分布就可以按照正態分布的公式求取置信區間。
那為什么這1000個點是服從正態分布的呢?依據的就是就是中心極限定理,關于中心極限定理的講解可以看《講講中心極限定理》。
接下來我們通過一個例子來看下,首先生成一個長尾分布的數據:
from?scipy.stats?import?f dfn,?dfd?=?45,?10 r?=?f.rvs(dfn,?dfd,?size=10000) sns.distplot(r)在實際業務中很多數據其實都是符合長尾分布的。然后我們對這個長尾分布的數據進行Bootstrap抽樣,有放回的抽樣1000次,每次抽10000個樣本,最后得到1000個均值,這1000個均值的分布如下:
運行上面的代碼得到如下結果:
可以看到這1000個均值是符合正態分布的,只要符合正態分布,那我們就可以利用正態分布的性質對其進行估算。
以上就是關于Bootstrap的一個簡單介紹,希望對你有用。
總結
以上是生活随笔為你收集整理的讲讲Bootstrap是在干啥?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 10月碎碎念-谈谈『自我放弃』
- 下一篇: 为什么最近的食盐用量增加了?