统计学怎么求加权指数_我要自学生信之统计学:统计学概述(一)
文章的一開始我打算放一張圖,讓大家理解一下統計到底是在干什么,統計的基本流程是什么,本文旨在拋磚引玉,是我要學習生物信息學之統計學的第一篇文章。旨在幫助大家建立起一個初步概念。
數據的統計分析主要包括兩個方面的內容:一是統計描述,主要是運用一些統計指標諸如均數、標準差以及統計表和統計圖等,對數據的數量特征及其分布規律進行客觀地描述和表達,不涉及樣本推斷總體的問題;二是統計推斷,即在一定的置信度或概率保證下,根據樣本信息去推斷總體特征。統計推斷通常包括參數估計和假設檢驗兩個內容:參數估計是指用樣本指標推斷總體相應的指標,例如根據部分城市人群的原發性高血壓患病率去估計整個城市的原發性高血壓患病率,參數估計又分為點區間和區間估計,比如:已知樣本量為200、均數為100,標準差為5,對總體均數進行估計,如果直接用100作為總體的均數,這種估計方法被稱為點估計,由于樣本是隨機的,抽出一個具體的樣本得到的估計值很可能不同于總體真值。所以就有了另一種估計方法區間估計,它是在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間通常由樣本統計量加減估計誤差得到;假設檢驗是指由樣本之間的差異推斷總體之間是否可能存在差異,例如原發性高血壓治療藥物在兩組的療效存在一定差別,假設檢驗回答這種差別是機會造成的,還是真實存在的。它又分為單尾檢驗和雙尾檢驗,單尾是判斷大于或者小于,雙尾是判斷是不是等于。
舉一個形象的例子:設總體均數為μ,如果用參數估計是:求μ=?而假設檢驗則是:判斷μ=100?(雙尾檢驗) u>100?(單尾檢驗)
總計一下更清晰:
是不是有種恍然大悟的感覺!下面我來解釋下大學中大家學的概率論于數理統計是怎么結合到一起的?
概率論:從已知分布出發,研究隨機變量X的性質、規律、數學特征等;
數理統計:研究對象X的分布未知或只知道部分信息,需要觀察它的取值(數據采集),通過分析數據來推斷X服從什么分布或確定未知參數。
數理統計研究問題的主要方法:以部分數據信息來推斷整體相關信息
這樣大家對于兩者的關系是不是清晰了一些,下面我來介紹下統計學中常用的一些概念
一、數據分析的方法可分為描述統計和推斷統計
描述統計:將一系列復雜數據濃縮成一個單一數字的便捷工具。比如:擊球率,反映一個球員在賽場上的整體表現,它只是一個去除了單位性質用于比較的簡單易行的數學工具。然而擊球率也并非衡量球員能力的完美指標(完美是不存在的),也非全貌,但提供了一扇窗。
推斷統計:推斷統計是研究如何利用樣本數據來推斷總體特征的統計方法。比如,要了解一個地區的人口特征,不可能對每個人的特征一一進行測量;對產品的質量進行檢驗,往往是破壞性的,也不可能對每個產品進行測量。這就需要抽取部分個體即樣本進行測量,然后根據獲得的樣本數據對所研究的總體特征進行推斷,這就是推斷統計要解決的問題
二、數據的收集
總體:包含研究的全部個體(數據)的集合
樣本:從總體中抽出的一部分元素的集合,實際情況通常是我們很難拿到總體的數據,用樣本來代替總體是一個不錯的選擇
樣本容量或樣本量:構成樣本的元素數目
有限總體:容量有限的總體;
無限總體:容量無限的總體,通常將容量非常大的有限總體也按無限總體處理。
參數:用來描述總體特征的概括性數字度量,這個概念有點抽象,比如總體標準差、總體平均數啊都是參數,由于總體數據通常是不知道的,所以參數也是一個未知數。因此我們需要進行抽樣,根據樣本估算總體參數。
統計量(statistic):用來描述樣本特征的概括性數字度量,統計量是根據樣本數據計算出來的一個量,他是樣本的函數。通常我們所關心的樣本統計量樣本均數、樣本標準差等。
三、數據的描述:
通常我們只能對樣本進行描述,對樣本的描述可以用統計量也可以用圖表來表示
首先是統計量
眾數:體現出個體占據總體的頻次情況,可用于定性數據和定量數據,一個字段多個定性數據,可對該字段相同定性數據進行聚合,了解到每個定性數據的總數量。
中位數:同樣是一個描述中間位置的統計量,但是相比平均數,這個中間位置就是中位數,按照從大到小或者從小到大的順序排列好,中間的位置就是中位數,如果有兩位中位數那就相加之后除以2。如果一個數據的的分布中沒有特別離譜的異常值,那么他們的中位數和平均數應該差不多。
平均數:描述數據中間位置的一個描述統計量,反應的是數據的集中趨勢。但平均數容易受到異常值的影響,比如10個收入都為1萬元的家庭和比爾蓋茨比一下,那這組人群的的平均收入一定提高很多。
方差和標準差:衡量數據相對于平均值的分散程度,根據方差和標準差我們可以知道所觀察的數據的分散情況。
你會發現大部分的數據都會在樣本平均值的左右一個標準差內。到底多少呢?這個數值是68.2%
標準分:表征了距離均值的標準差的個數,標準分為我們提供了解決方法,當比較均值和標準差各不相同的數據集時,我們可以把這些數值視為來自同一個標準的數據集,然后進行比較。標準分將把每一個數據集轉化為通用的分布形態,進行比較。標準分還有個重要的作用,它可以把正態分布變為標準正態分布。
變異系數:樣本標準差除以均值,用變異系數可以比較不同樣本相對變異程度的大小。
協方差:度量各個維度偏離其均值的程度。協方差的值如果為正值,則說明兩者是正相關的,結果為負值就說明負相關的,如果為0,也是就是統計上說的“相互獨立”。協方差僅能進行定性的分析。
私以為統計學的核心就是研究變量與變量之間的關系
相關系數:相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數可以作定量的分析,看一看相關性到底有多大。
標準誤:樣本均數的標準差,是描述均數抽樣分布的離散程度及衡量均數抽樣誤差大小的尺度,反映的是樣本均數之間的變異。
關于標準誤這個概念很多人可能不了解,你想一下如果你只從總體中抽一次樣本這樣得到的均值和方差是否真的就能代表總體的均值或者方差呢?我們可不可以進行多次抽樣,如果這樣多次抽樣后計算樣本之間的標準差,標準差如果越小不就說明這些取樣取的很好嗎。
偏度:偏度是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征,向左偏還是向右偏。偏度定義中包括正態分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫負偏分布,其偏度<0)。
峰度:峰度又稱峰態系數。表征概率密度分布曲線在平均值處峰值高低的特征數。直觀看來,峰度反映了峰部的尖度。隨機變量的峰度計算方法為:隨機變量的四階中心矩與方差平方的比值。峰度包括正態分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。峰度越大,越高。
頻數:指變量值中代表某種特征的數(標志值)出現的次數,如果在頻數分布圖中更胖的話表明你的數據越分散。
還可以用一些圖表來進行描述:只展示部分
四、常見數據的分布
實際上數據的分布也可以算作在描述里面,看個人的分類了。
選擇其中三個分布:二項分布、正態分布、卡方分布進行解釋
正態分布:正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
在正態分布中我們通常認為在平均值左右三個標準差的范圍內包含了大部分的數值。
二項分布:指的是重復n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,并且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布。
卡方分布:若n個相互獨立的隨機變量ξ?,ξ?,...,ξn ,均服從標準正態分布(也稱獨立同分布于標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布。
五、假設檢驗
假設檢驗:假設檢驗一般分為四個步驟,提出假設-確定顯著水平-計算概率-推斷是否接受假設。假設檢驗首先要對總體做出假設,一般應作兩個假設,一個是無效假設,一個是備擇假設。無效意指要比較兩個參數之間沒有真實的差異,那么備擇就是與之相反。兩個假設是對立的。
原假設和備擇假設:原假設:根據檢驗結果準備予以拒絕或接受的假設,以H0表示;備擇假設:與原假設不相容(即對立)的假設,以H1表示
拒絕域、顯著性水平:拒絕域: 所使用的統計量可能取值的集合的某個子集合。如果根據觀測值得出的統計量的數值屬于這一集合,拒絕原假設;反之,接受原假設。顯著性水平: 當原假設正確時,而被拒絕的概率的最大值,記為α。α的值一般取為0.05或0.01。
單尾/雙尾假設檢驗:備擇假設沒有特定的方向性,稱為雙尾檢測檢驗,單尾檢測具有特定的方向性,并含有大于或者小于的假設檢驗。
P值:P值是指在一個特定的統計模型下,從樣本數據計算出的估計值(如兩組間樣本均數差)等于觀測值或比觀測值更為極端的概率
六:回歸與分類
這兩塊打算在數據挖掘這邊講解的,作為入門的話會比較困難一點。
七:多元分析
尋找多個變量的代表:主成分分析
把對象分類:聚類分析
八:其他非常重要的概念
概率:研究不確定性事件和結果,比如2008年的金融危機,恰恰是華爾街預測模型中極小可能發生的事件同時發生了。用概率的語言來說就是概率很低的事件一起發生。因此所有的預測模型都是以概率為基礎的。
變量:說明某種特征的概念,例如擊球率,變量在上一次和下一次的測量是可以變化的,比如這一次擊球率是40%,下一次是50%。具體可以分為分類變量(比如性別:男或者女)、順序變量(獎項:一等獎、二等獎、三等獎)、數值型變量(年齡:1、2、3)。數值型根據取值的不同又可以分為離散型變量(比如年級)和連續型變量(比如溫度)。
同質:根據研究目的所確定的觀察單位其性質應大致相同。觀察單位是研究的基本單元,可以是一個人、一個地點、一只動物、一份生物樣品等。同質即為觀察單位所受的影響相同。
變異:即使性質相同的事物,如果觀察同一指標,各觀察單位之間由于存在個體差異,也會使測量結果不同,這種差異稱為變異。變異即為在觀察單位在同質基礎上的個體差異。例如,同種族、同年齡、同性別的健康人,在相同的條件下測其脈搏、呼吸、體溫等生理指標均可能存在很大的差異。
四分位數:等于將數據分割為四等分的幾個數值,最大的稱為上四分位數,最小的稱為下四分位數,中間的四分位數即中位數,上四分位數-下四分位數;常用全距量度數據常受異常值困擾,因此常關注位于數據中央的50%,排除異常值,這時用上了四分位數,用到四分位距。
中心極限定理:中心極限定理是概率論中討論隨機變量序列部分和分布漸近于正態分布的一類定理
大數定律:概率論中討論隨機變量序列的算術平均值向隨機變量各數學期望的算術平均值收斂的定律。這個定理就是,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它的概率。比如一個均勻的骰子,你投擲的次數如果足夠多,那么你得到的1-6的頻率計算應該大致等于概率,就是每一個數字出現的概率為1/6
方差分析:方差分析是通過對數據誤差來源的分析來判斷不同總體的均值是否相等,進而分析自變量(分類型)對因變量(數值型)是否有顯著影響。可分為單因素方差分析,雙因素方差分析
本文編寫水平有限,會在不斷學習中進行更新和改進~
總結
以上是生活随笔為你收集整理的统计学怎么求加权指数_我要自学生信之统计学:统计学概述(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .net label在父容器中占两行显示
- 下一篇: 货币基金会跑路吗