當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

numpy下随机抽样

發布時間：2024/3/12 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 numpy下随机抽样小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨機抽樣

離散型隨機變量
- 二項分布
- 泊松分布
- 超幾何分布
連續型隨機變量
- 均勻分布
- 正態分布
- 指數分布
其他隨機函數
- 隨機從序列中獲取元素
- 對數據集進行洗牌操作

numpy.random模塊可以用來生成多種概率分布的樣本值的函數，是對python內置的random函數的補充。

numpy.ranom.seed(seed=None) 生成隨機數

使用相同的seed值，可以保證每次都生成相同的隨機數。

離散型隨機變量

二項分布

numpy.random.binomial(n, p, size=None)

表示對一個二項分布進行采樣，n為n重伯努利實驗次數，p為成功的概率，size為采樣的次數，函數返回n中成功的次數。

import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from scipy import stats# 野外正在進行9（n=9）口石油勘探井的發掘工作，每一口井能夠開發出油的概率是0.1（p=0.1）。 # 請問，最終所有的勘探井都勘探失敗的概率？# 生成一個隨機種子，固定時間使每次生成的隨機數相同 np.random.seed(20200605) n = 9 p = 0.1 size = 50000 # n：n重伯努利試驗，p：成功的概率，size：采樣的次數（每次采樣做n次試驗） # 函數返回n次中成功的次數 x = np.random.binomial(n, p, size)''' 或者使用binom.rvs(n, p, size=1)函數模擬一個二項隨機變量,可視化地表現概率 y = stats.binom.rvs(n, p, size=size)#返回一個numpy.ndarray ''' # mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默認字體：解決plot不能顯示中文問題 # mpl.rcParams['axes.unicode_minus'] = False # 解決保存圖像是負號'-'顯示為方塊的問題print(np.sum(x == 0) / size) # n次實驗均失敗的概率plt.hist(x) # 繪制直方圖（histogram） plt.xlabel('隨機變量：成功次數') plt.ylabel('樣本中出現的次數') plt.show()# 它返回一個列表，列表中每個元素表示隨機變量中對應值（n次中成功k次）的概率 s = stats.binom.pmf(range(10), n, p) print(np.around(s, 3)) # [0.387 0.387 0.172 0.045 0.007 0.001 0. 0. 0. 0. ]

import numpy as np from scipy import stats import matplotlib.pyplot as plt# 模擬投硬幣，投2次，兩次都為正面的概率？np.random.seed(20200605) n = 2 p = 0.5 # 投硬幣為正面的概率 size = 50000 x = np.random.binomial(n, p, size)print(np.sum(x == 0) / size) # 0.25154 print(np.sum(x == 1) / size) # 0.49874 print(np.sum(x == 2) / size) # 0.24972# density為true，則返回的元組的第一個參數frequency將為頻率而非默認的頻數。 plt.hist(x, density=True) plt.xlabel('隨機變量：硬幣為正面次數') plt.ylabel('50000個樣本中出現的次數') plt.show()# 它返回一個列表，列表中每個元素表示隨機變量中對應值的概率 s = stats.binom.pmf(range(n + 1), n, p) print(np.around(s, 3)) # [0.25 0.5 0.25]# 計算期望和方差 m為期望 n為方差 # 期望：E(x) = np # 方差：Var(x) = np(1‐p) m,v = stats.binom.stats(n, p, loc=0, moments='mv') print(m,v)

泊松分布

numpy.random.poisson(lam=1.0, size=None)

表示對一個泊松分布進行采樣，lam表示單位時間內發生事件的平均值，函數返回單位時間內事件發生次數。

import numpy as np from scipy import stats import matplotlib.pyplot as plt# 假定某航空公司預定票處平均每小時接到42次訂票電話，那么10分鐘內恰好接到6次電話的概率是多少np.random.seed(20200605) lam = 42 / 6 # 平均值：平均每十分鐘接到42/6次訂票電話 size = 50000 # lam 表示一個單位內發生事件的平均值，函數的返回值表示一個單位內事件發生的次數 x = np.random.poisson(lam, size) '''或者 # 模擬服從泊松分布的50000個隨機變量 x = stats.poisson.rvs(lam,size=size) ''' print(np.sum(x == 6) / size) # 0.14988plt.hist(x) plt.xlabel('隨機變量：每十分鐘接到訂票電話的次數') plt.ylabel('50000個樣本中出現的次數') plt.show()# 用poisson.pmf(k, mu)求對應分布的概率:概率質量函數 (PMF) x = stats.poisson.pmf(6, lam) print(x) # 0.14900277967433773

超幾何分布

numpy.random.hypergeometric(ngood, nbad, nsample, size=None)

表示對一個超幾何分布進行采樣，ngood表示成功標志元素個數，nbad表示沒有成功標志元素個數，nsample表示抽樣次數，函數返回抽取nsample個元素中具有成功標志的元素個數。

import numpy as np from scipy import stats import matplotlib.pyplot as plt# 一共20只動物里有7只是狗，抽取12只有3只狗的概率（無放回抽樣）。np.random.seed(20200605) size = 500000 # ngood 表示總體中具有成功標志的元素個數，nbad 表示總體中不具有成功標志的元素個數，ngood+nbad 表示總體樣本容量 # nsample 表示抽取元素的次數（小于或等于總體樣本容量），函數的返回值表示抽取nsample 個元素中具有成功標識的元素個數。 x = np.random.hypergeometric(ngood=7, nbad=13, nsample=12, size=size) '''或者 # 用rvs(M, n, N, loc=0, size=1, random_state=None)模擬 # M 為總體容量，n 為總體中具有成功標志的元素的個數，N、k 表示抽取N個元素有k個是成功元素 x = stats.hypergeom.rvs(M=20,n=7,N=12,size=size) ''' print(np.sum(x == 3) / size) # 0.198664plt.hist(x, bins=8) # bins為柱子個數 plt.xlabel('狗的數量') plt.ylabel('50000個樣本中出現的次數') plt.title('超幾何分布',fontsize=20) plt.show()x = range(8) #用hypergeom.pmf(k, M, n, N, loc)來計算k次成功的概率 s = stats.hypergeom.pmf(k=x, M=20, n=7, N=12) print(np.round(s, 3)) # [0. 0.004 0.048 0.199 0.358 0.286 0.095 0.01 ]# 用stats(M, n, N, loc=0, moments='mv')計算均值和方差 # 均值E(x) = N(n/M) # 方差Var(x) = N(n/M)(1‐n/M)((M‐N)/(M‐1)) m,v = stats.hypergeom.stats(20,7,12,moments='mv') print(m,v)

連續型隨機變量

均勻分布

numpy.random.uniform(low=0.0, high=1.0, size=None)

表示在均勻分布[low,high)中抽取樣本

import numpy as np import matplotlib.pyplot as plt from scipy import stats# 在low到high范圍內，創建大小為size的均勻分布的隨機數。np.random.seed(20200614) a = 0 # low b = 100 # high size = 50000 x = np.random.uniform(a, b, size=size) # 返回值：ndarray類型 print(x)print(np.all(x >= 0)) # True print(np.all(x < 100)) # True y = (np.sum(x < 50) - np.sum(x < 10)) / size print(y) # 0.40144plt.hist(x, bins=20) plt.title('均勻分布',fontsize=20) plt.show()a = stats.uniform.cdf(10, 0, 100) # 累計概率密度 b = stats.uniform.cdf(50, 0, 100) print(b - a) # 0.4

numpy.random.rand(d0, d1, …, dn)

可以得到均勻分布在[0,1)之間的隨機數

import numpy as np# 根據指定大小產生[0,1)之間均勻分布的隨機數。np.random.seed(20200614) print(np.random.rand()) # 0.7594819171852776print(np.random.rand(5)) # [0.75165827 0.16552651 0.0538581 0.46671446 0.89076925]print(np.random.rand(4, 3)) # [[0.10073292 0.14624784 0.40273923] # [0.21844459 0.22226682 0.37246217] # [0.50334257 0.01714939 0.47780388] # [0.08755349 0.86500477 0.70566398]]np.random.seed(20200614) print(np.random.uniform()) # 0.7594819171852776 print(np.random.uniform(size=5)) # [0.75165827 0.16552651 0.0538581 0.46671446 0.89076925]print(np.random.uniform(size=(4, 3))) # [[0.10073292 0.14624784 0.40273923] # [0.21844459 0.22226682 0.37246217] # [0.50334257 0.01714939 0.47780388] # [0.08755349 0.86500477 0.70566398]]

numpy.random.randint(low, high=None, size=None, dtype=‘l’)

可以得到均勻分布在[low,high)之間的隨機整數

import numpy as np# 若high 不為None 時，取[low,high)之間隨機整數，否則取值[0,low)之間隨機整數。np.random.seed(20200614) x = np.random.randint(2, size=10) # 取[0,2)之間整數 print(x) # [0 0 0 1 0 1 0 0 0 0]x = np.random.randint(1, size=10) # [0,1) print(x) # [0 0 0 0 0 0 0 0 0 0]x = np.random.randint(5, size=(2, 4)) # [0,5) print(x) # [[3 3 0 1] # [1 1 0 1]]x = np.random.randint(1, 10, [3, 4]) # [1,10) print(x) # [[2 1 7 7] # [7 2 4 6] # [8 7 2 8]]

正態分布

numpy.random.randn(d0, d1, …, dn)

得到標準正態分布的樣本

import numpy as np import matplotlib.pyplot as plt from scipy import stats# 根據指定大小產生滿足標準正態分布的數組（均值為0，標準差為1）。np.random.seed(20200614) size = 50000 x = np.random.randn(size) print(x) y1 = (np.sum(x < 1) - np.sum(x < -1)) / size y2 = (np.sum(x < 2) - np.sum(x < -2)) / size y3 = (np.sum(x < 3) - np.sum(x < -3)) / size print(y1) # 0.68596 print(y2) # 0.95456 print(y3) # 0.99744plt.hist(x, bins=20) plt.title('正態分布',fontsize=20) plt.show()y1 = stats.norm.cdf(1) - stats.norm.cdf(-1) # cdf 累計概率密度 y2 = stats.norm.cdf(2) - stats.norm.cdf(-2) y3 = stats.norm.cdf(3) - stats.norm.cdf(-3) print(y1) # 0.6826894921370859 print(y2) # 0.9544997361036416 print(y3) # 0.9973002039367398

numpy.random.normal(loc=0.0, scale=1.0, size=None)

得到給定均值和標準差的高斯分布（正態分布）樣本，其中loc為均值，scale為標準差。

# numpy.random.normal(loc=0.0, scale=1.0, size=None) import numpy as np import matplotlib.pyplot as plt# 生成均值為5，標準差為0.5的高斯分布（正態分布）np.random.seed(20200614) x = 0.5 * np.random.randn(2, 4) + 5 # 2×4維，使用標準正態分布生成高斯分布（×sigma+mu） '''或者 # 模擬10000個隨機變量 x = 0.5*stats.norm.rvs(size=(2,4))+5 ''' print(x) # [[5.39654234 5.4088702 5.49104652 4.95817289] # [4.31977933 4.76502391 4.70720327 4.36239023]]np.random.seed(20200614) mu = 5 # 平均值 sigma = 0.5 # 標準差 # normal()為創建均值為 loc（mu），標準差為 scale（sigma），大小為 size 的數組。 x = np.random.normal(mu, sigma, (2, 4)) print(x) # [[5.39654234 5.4088702 5.49104652 4.95817289] # [4.31977933 4.76502391 4.70720327 4.36239023]]size = 50000 x = np.random.normal(mu, sigma, size) print(np.mean(x)) # 4.996403463175092 print(np.std(x, ddof=1)) # 0.4986846716715106（樣本標準差） ddof=1使得正確調用stdplt.hist(x, bins=20) plt.title('高斯分布',fontsize=20) plt.show()

指數分布

numpy.random.exponential(scale=1.0, size=None)

得到指數分布的樣本

import numpy as np import matplotlib.pyplot as plt from scipy import stats# 指數分布 scale = 1/lambda 標準差np.random.seed(20200614) lam = 7 size = 50000 x = np.random.exponential(1 / lam, size) # 或者rvs(loc=0, scale=1/lam, size=size, random_state=None)y1 = (np.sum(x < 1 / 7)) / size y2 = (np.sum(x < 2 / 7)) / size y3 = (np.sum(x < 3 / 7)) / size print(y1) # 0.63218 print(y2) # 0.86518 print(y3) # 0.95056plt.hist(x, bins=20) plt.title('指數分布',fontsize=20) plt.show()y1 = stats.expon.cdf(1 / 7, scale=1 / lam) # F(1/7) F(x)=1-e^(-lam*x) y2 = stats.expon.cdf(2 / 7, scale=1 / lam) y3 = stats.expon.cdf(3 / 7, scale=1 / lam) print(y1) # 0.6321205588285577 print(y2) # 0.8646647167633873 print(y3) # 0.950212931632136

其他隨機函數

隨機從序列中獲取元素

numpy.random.choice(a, size=None, replace=True, p=None)

若a為一整數，則從range(a)中獲取元素；若a為數組，則從數組元素中獲取。replace可指定獲取的元素是否重復。p可指定選取a中各元素的概率。

import numpy as np# 隨機從序列中獲取元素np.random.seed(20200614) x = np.random.choice(10, 3) # 從range(10)中隨機獲取 print(x) # [2 0 1]x = np.random.choice(10, 3, p=[0.05, 0, 0.05, 0.9, 0, 0, 0, 0, 0, 0]) # 以一定概率從range(10)中隨機獲取 print(x) # [3 2 3]x = np.random.choice(10, 3, replace=False, p=[0.05, 0, 0.05, 0.9, 0, 0, 0, 0, 0, 0]) # 以一定概率不重復從range(10)中隨機獲取 print(x) # [3 0 2]aa_milne_arr = ['pooh', 'rabbit', 'piglet', 'Christopher'] x = np.random.choice(aa_milne_arr, 5, p=[0.5, 0.1, 0.1, 0.3]) # 從數組中獲取 print(x) # ['pooh' 'rabbit' 'pooh' 'pooh' 'pooh']np.random.seed(20200614) x = np.random.randint(0, 10, 3) # 返回0到10之間的任意整數 print(x) # [2 0 1]

對數據集進行洗牌操作

機器學習中很多算法要求數據之間相互獨立，所以要先對數據集進行洗牌操作（改變元素序列）。

numpy.random.shuffle(x)

shuffle函數在原數組上進行操作，改變自身序列，無返回值。

import numpy as np# 洗牌，改變自身內容，打亂順序。np.random.seed(20200614) x = np.arange(10) print(x) np.random.shuffle(x) # 洗牌 print(x) # [6 8 7 5 3 9 1 4 0 2]print(np.random.shuffle([1, 4, 9, 12, 15])) # 無返回值 # Nonex = np.arange(20).reshape((5, 4)) print(x) # [[ 0 1 2 3] # [ 4 5 6 7] # [ 8 9 10 11] # [12 13 14 15] # [16 17 18 19]]np.random.shuffle(x) # 在原數組上進行 print(x) # [[ 8 9 10 11] # [ 0 1 2 3] # [12 13 14 15] # [16 17 18 19] # [ 4 5 6 7]]

numpy.random.permutation(x)

permutation函數不在原數組上進行操作，不改變自身數組，返回新數組。

import numpy as np# 洗牌np.random.seed(20200614) x = np.arange(10) y = np.random.permutation(x) print(y) # [6 8 7 5 3 9 1 4 0 2]print(np.random.permutation([1, 4, 9, 12, 15])) # 返回新的數組 # [ 4 1 9 15 12]x = np.arange(20).reshape((5, 4)) print(x) # [[ 0 1 2 3] # [ 4 5 6 7] # [ 8 9 10 11] # [12 13 14 15] # [16 17 18 19]]y = np.random.permutation(x) # 在新的數組的上進行 print(y) # [[ 8 9 10 11] # [ 0 1 2 3] # [12 13 14 15] # [16 17 18 19] # [ 4 5 6 7]] print(x) # [[ 0 1 2 3] # [ 4 5 6 7] # [ 8 9 10 11] # [12 13 14 15] # [16 17 18 19]]

總結

以上是生活随笔為你收集整理的numpy下随机抽样的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

NumPy

上一篇：极智AI | 谈谈几种量化策略：MinM
下一篇：双模sa_七句话讲清NSA单模与SA+N