【生信】统计学基础知识
【生信】統計學基礎知識
本文圖片來源網絡或學術論文,文字部分來源網絡與學術論文,僅供學習使用。
本文參考統計學知識大梳理_lovenankai的專欄-CSDN博客
目錄
【生信】統計學基礎知識
1、首先建立思維模式
2、如何處理“一維”數據
?小結——對于“一維”數據進行統計學方法分析的思路如下:
3、如何處理“二維”數據
1、對于一個事件的情況
?2、對于一個分布
? 3、對于多個事件的情況
小結——對于“二維”事件的處理方法:
4、“小樣本”預測“大總體”
step1:抽取樣本
step2:預測總體(點估計預測,區間估計預測)
step3:驗證結果(假設檢驗)
小結——對于小樣本預測大總體的方法:
1、首先建立思維模式
當我們開始處理數據時,首先需要明確統計學中的研究對象,可以將對象分別看做“一維”和“二維”的。拿到具體的研究對象后,接下來確定屬于一維/二維數據,然后分支檢索需要用到的知識。
所謂“一維”和“二維”就是:
一維數據就是擺在面前的一組/一批/一堆數據,統計學將這類數據作為研究對象。
二維數據就是當我們研究某個事件時(即在數據的基礎上加上時間軸因素),考慮過去、未來的發生幾率和可能性,這類問題是概率論的研究范疇。
?
2、如何處理“一維”數據
對于一維數據采用統計學方法:
集中趨勢量度:即為這批數據找到它們的“代表”。
集中趨勢量度(平均數)能讓我們知道數據集典型值——數據中心所在處,但若要給數據下具體的結論,則還是缺少足夠的信息。通過分析各種距和差,來判斷數據集離平均值的波動程度。
分散程度(或變異性的量度):全距,迷你距,四分位數,標準差,標準分
?幾個數值的計算方法:
(1)均值:均值是最常用的平均數之一。
(2)中位數:又稱中點數,中值。是按順序排列的一組數據中居于中間位置的數。
(3)眾數:樣本觀測值在頻數分布表中頻數最多的那一組的組中值。
(4)全距(極差):一組數據中最大值與最小值之差。可以用于度量數據的分散程度。
(5)迷你距(四分位距):不再度量整個數據集的全距,而是度量中央部分數據集的全距,通過迷你距可以有效忽略異常值的存在。而通過一個統一的方法來對數據集進行劃分,將有助于我們確保多批數據集處理時所有都是以相同的方式忽略了異常值。
四分位距一定程度上反應了數據的分散程度,但是卻無法精準的告訴我們,這些數值具體出現的頻率
計算方法:所有觀測值從小到大排序后四等分,處于三個分割點位置的數值就是四分位數:Q1,Q2和Q3。
迷你距= 上四分位數 - 下四分位數
我們度量每批數據中數值的“變異”程度時,可以通過觀察每個數據與均值的距離來確定,各個數值與均值距離越小,變異性越小數據越集中,距離越大數據約分散,變異性越大。方差和標準差就是用于表征數據變異程度的概念。
(6)方差:數值與均值的距離的平方數的平均值。
(7)標準差:標準差為方差的開方。
?(8)標準分:表征距離均值的標準差的個數。當比較均值和標準差各不相同的數據集時,我們可以把這些數值視為來自同一個標準的數據集,然后進行比較。標準分將把每一個數據集轉化為通用的分布形態,進行比較。標準分可以把正態分布變為標準正態分布。
通過標準分使多批數據集轉化成一種統一通用的分布,進而可以對不同數據集的數據進行比較,而這些不同數據集特性可以互不相同,比如各均值和標準差各不相同。
?小結——對于“一維”數據進行統計學方法分析的思路如下:
描述一批數據,通過集中趨勢分析,找出其“代表值” ;通過分散和變異性的描述,查看這批數據的分散程度。
集中趨勢參數:均值,中位數,眾數
分散性和變異性參數?:??全距,四分位距,方差,標準差,標準分
3、如何處理“二維”數據
對于二維數據(即事件)采用概率論方法:
?
1、對于一個事件的情況
首先明確幾個關于事件的概念:
(1)事件:有概率可言的一件事情,一個事情可能會發生很多結果,結果和結果之間要完全窮盡,相互獨立。
(2)概率:每一種結果發生的可能性。所有結果的可能性相加等于1,也就是必然。
(3)概率分布:我們把事件和事件所對應的概率組織起來,就是這個事件的概率分布。概率分布可以是圖象,也可以是表格。
(4)期望:表征了綜合考慮事情的各種結果和結果對應的概率后這個事情的綜合影響值。(一個事件的期望,就是代表這個事件的“代表值”,類似于統計里面的均值)
(5)方差:表征了事件不同結果之間的差異或分散程度。方差=E (x2)-E (x)2
均勻分布的方差與期望:
?
?2、對于一個分布
現實情況中,當某些事件,滿足某些特定的條件,那么我們可以直接根據這些條件,來套用一些固定的公式,來求解這些事件的分布,期望以及方差。
區分離散/連續數據:判別一個數據是連續還是離散最本質的因素在于,一個數據組中數據總體的量級和數據粒度之間的差異。差異越大越趨近于連續型數據,差異越小越趨近于離散型數據。
(1)離散型分布:離散數據的概率分布,就是離散分布。這三類離散型的分布,在“0-1事件”中可以采用,就是一個事只有成功和失敗兩種狀態。
(2)連續型分布:連續型分布本質上就是求連續的一個數據段概率分布。
最典型的是正態分布 。
正態分布概率的求法:確定分布和范圍 ,求出均值和方差;?利用標準分將正態分布轉化為標準正態分布 。最后查表找概率
?連續型數據和離散型數據是一對相對的概念,那么這就意味著在某種“邊界”條件下,離散型分布和連續型分布之間是可以相互轉化的。進而簡化概率分布的計算。
? 3、對于多個事件的情況
多個事件就要探討事件和事件之間的關系。采用“概率樹”和“貝葉斯定理”的方法。
對立事件:如果一個事件,A’包含所有A不包含的可能性,那么我們稱A’和A是互為對立事件
窮盡事件:如何A和B為窮盡事件,那么A和B的并集為1
互斥事件:如何A和B為互斥事件,那么A和B沒有任何交集
獨立事件:如果A件事的結果不會影響B事件結果的概率分布那么A和B互為獨立事件。
相關事件:如果A件事的結果會影響B事件結果的概率分布那么A和B互為獨立事件。
條件概率:條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。 條件概率表示為:P(A|B)。
貝葉斯公式 :設B1,B2,…Bn…是一完備事件組,則對任一事件A,P(A)>0,有
當我們知道A發生的前提下B發生的概率,可以用貝葉斯公式來推算出B發生條件下A發生的概率。
?
小結——對于“二維”事件的處理方法:
1.? 事件,概率,概率分布之間的關系
2.? 期望,方差的意義
3. 連續型數據和離散型數據之間的區別和聯系
4. 幾何分布,二項分布,泊松分布,正態分布,標準正態分布
5. 離散分布和正態分布可以轉化
6. 多個事件之間的關系,相關事件和獨立事件,條件概率和貝葉斯公式
?
4、“小樣本”預測“大總體”
現實生活中,總體的數量如果過于龐大我們無法獲取總體中每個數據的數值,進行對總體的特征提取進而完成分析工作。
?step1:抽取樣本
step2:預測總體(點估計預測,區間估計預測)
step3:驗證結果(假設檢驗)
接下來詳細闡述step2-3的具體方法:
1、step2預測總體——點估計量的幾場景
場景1:?樣本無偏的情況下,已知樣本,預測總體的均值,方差。
樣本的均值 = 總體的估算均值(總體均值的點估計量)? ≈ 總體實際均值(誤差是否可接受)
?
總體方差? ? ?估計總體方差
?
?
場景2:已知總體,研究抽取樣本的概率分布
比例抽樣分布:考慮從同一個總體中取得所有大小為n的可能樣本,由這些樣本的比例形成一個分布,這就是“比例抽樣分布”。樣本的比例就是隨機變量。
舉個栗子:已知所有的糖球(總體)中紅色糖球比例為0.25。從總體中隨機抽n個糖球,我們可以求用比例抽樣分布求出這n個糖球中對應紅球各種可能比例的概率。
樣本均值分布:考慮同一個總體中所有大小為n的可能樣本,然后用這個樣本的均值形成分布,該分布就是“樣本均值分布” ,樣本的均值就是隨機變量。
?
?中心極限定理:如果從一個非正態總體X中抽出一個樣本,且樣本極大(至少大于30),則圖片.png的分布近似正態分布。
2、step2預測總體——區間估計量的幾場景
3、step3驗證???????結果
?兩類錯誤---即使我們進行了“假設檢驗”依然無法保證決策是百分百正確的,會出現兩類錯誤
?
小結——對于小樣本預測大總體的方法:
1.? 無偏抽樣
2.? 點估計量預測(已知樣本預測總體,已知總體預測樣本)
3. 區間估計量預測(求置信區間)
4. 假設檢驗
總結
以上是生活随笔為你收集整理的【生信】统计学基础知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android生命周期_Android开
- 下一篇: -9 逆序输出一个整数的各位数字_lee