日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

讲讲Bootstrap是在干啥?

發布時間:2023/12/19 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 讲讲Bootstrap是在干啥? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第248篇/張俊紅

學過統計學的同學應該對置信區間都有了解,置信區間又叫估計區間,是從概率來講某個隨機變量可能取的值的范圍。

在前面的文章《聊聊置信度與置信區間》中講過為什么會有置信區間以及置信區間應該如何求取。在那篇文章中講了當數據服從正態分布時,95%的置信區間就是均值加減1.96倍的標準差。

那很多時候數據是不符合正態分布,或者是我們不知道樣本總體是否符合正態分布,但是我們又需要求取置信區間時,就可以用到我們的今天的主角--Bootstrap抽樣的方法。

Bootstrap是對樣本進行有放回的抽樣,抽樣若干次(一般為1000次),每次抽樣的結果作為一個樣本點,抽樣1000次,就會有1000個樣本點,用這1000個點的分布作為樣本總體的分布,而這1000個點是大概率是服從正態分布的,只要服從正態分布就可以按照正態分布的公式求取置信區間。

那為什么這1000個點是服從正態分布的呢?依據的就是就是中心極限定理,關于中心極限定理的講解可以看《講講中心極限定理》。

接下來我們通過一個例子來看下,首先生成一個長尾分布的數據:

from?scipy.stats?import?f dfn,?dfd?=?45,?10 r?=?f.rvs(dfn,?dfd,?size=10000) sns.distplot(r)

在實際業務中很多數據其實都是符合長尾分布的。然后我們對這個長尾分布的數據進行Bootstrap抽樣,有放回的抽樣1000次,每次抽10000個樣本,最后得到1000個均值,這1000個均值的分布如下:

import?numpy?as?np sample_mean?=?[] for?n?in?range(1,1001):s?=?np.random.choice(r,size?=?10000).mean()sample_mean.append(s)

運行上面的代碼得到如下結果:

可以看到這1000個均值是符合正態分布的,只要符合正態分布,那我們就可以利用正態分布的性質對其進行估算。

以上就是關于Bootstrap的一個簡單介紹,希望對你有用。


總結

以上是生活随笔為你收集整理的讲讲Bootstrap是在干啥?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。