python 标准差内数据概率怎么求_Python-统计概率
一、概率分布
1.1概率分布基礎
1.1.1概率分布 : 每一個變量結果可能發生的概率
1.1.2隨機變量
將隨機事件出現的一個結果映射到一個數值的含義,通過數值量化隨機事件,這就是隨機變量的作用。(隨機變量是量化隨機事件的一個函數)
1.1.3 隨機變量分類
1. 離散隨機變量(Discrete random variable):取值是可數個值(且只能為自然數0、1、2...)的隨機變量 。 對應概率計算公式: 概率質量函數(Probability Mass Function,PMF) PMF即離散隨機變量在各特定取值上的概率
2. 連續隨機變量(Continuous random variable):取值是一個區間中任一實數(即變量的取值可以是連續的)的隨機變量 。對應概率計算公式:概率密度函數(Probability Density Function,PDF) PDF:連續隨機變量的概率密度函數是描述這個隨機變量的輸出值,在某個特定取值點附近可能性的函數
1.2離散概率分布
1.2.1 伯努利分布(Bernoulli Distribution)
伯努利試驗是在相互獨立的條件下隨機的實驗,結果只有兩種:成功/不成功,例如拋硬幣實驗。如果這個隨機變量是伯努利實驗,那么它就服從伯努利分布 ,亦稱“0-1分布”
1.2.2二項分布(Binomial Distribution)
1.2.3幾何分布(Geometric Distribution)
在n次伯努利試驗中,試驗k次才得到第一次成功的機率。也就是說:前k-1次皆失敗,第k次成功的概率。
1.2.4泊松分布(Poisson Distribution)
泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分布適合于描述單位時間內隨機事件發生的次數。 比如:在一定時間內某交通路口所發生的事故個數
1.3連續概率分布
1.3.1正態分布(The Normal Distribution)
正態分布也被稱為高斯分布或鐘形曲線,這是統計學中最重要的概率分布 。這是一個對稱分布,其中大多數觀測值聚集在具有最高發生概率的中心峰平均值μ附近,并且當觀測值在兩個方向上都偏離中心峰時,曲線尾部出現值的可能性越來越小
正態分布的功能:預測數據的位置
如何計算正態分布的概率?確定概率范圍
求標準分
查找z表格
案例:
達到折扣質量保證條件的輪胎數量不要超過總數的10%,質保里程為多少?
1.3.2冪律分布(Power law distribution)
冪律分布表現為斜率為負的冪指數的直線,概率越高,占比越小,生活中的馬太效應及長尾分布都是冪律分布的典型案例。
二、抽樣分布
2.1總體和樣本
總體:包含所研究的全部個體(數據)的集合。
樣本:研究中實際觀測或調查的一部分個體稱為樣本,從總體中選取
樣本數量:有多少個樣本
樣本容量:每個樣本中有多少數據
抽樣分布:將樣本的平均值分布可視化
2.2中心極限定理
中心極限定理的準定義是:中心極限定理(CLT)指出,如果樣本量足夠大,則變量均值的采樣分布將近似于正態分布,而與該變量在總體中的分布無關
用處:
(1)在沒有辦法得到總體全部數據的情況下,我們可以用樣本來估計總體
中心極限定理告訴我們,一個正確抽取的樣本不會與其所代表的群體產生較大差異。也就是說,樣本結果能夠很好地體現整個群體的情況 統計概率中假設檢驗的原理
(2)根據總體的平均值和標準差,判斷某個樣本是否屬于總體:
通過中心極限定理的正態分布,我們就能計算出某個樣本屬于總體的概率是多少。如果概率非常低,那么我們就能自信滿滿地說該樣本不屬于該群體
2.3 利用樣本估計總體
2.4如何避免偏差樣本偏差:以偏概全,用樣本推斷總體,樣本大小一定要足夠大才可以。
幸存者偏差:通常關注顯而易見的樣本,而忽略了不容易出現的樣本。也就是忽略了樣本被篩選過了。所以在思考問題時一定要從多個角度去看。
概率偏見:主觀概率和客觀概率不吻合。
信息繭房:人們的信息領域會習慣性地被自己的興趣所引導,從而將自己的生活桎梏于像蠶繭一般的“繭房”中的現象。也就是說,隨著個性化推薦的發展,我們看見的信息僅是自己感興趣事情的時候,這樣就造成了我們的信息繭房。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的python 标准差内数据概率怎么求_Python-统计概率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 摄像头录制帧率_基于ope
- 下一篇: websocket python爬虫_p