统计量
1. 表示集中趨勢的計量
1.1均值
a. 算數平均數 = 總體標志總量 / 總體單位總量
b. 調和平均數: 又稱倒數平均數,它是根據各變量的倒數來計算的平均數。是各變量值倒數的算數平均數的倒數
c. 幾何平均數:是計算平均比率或平均發展速度的最常用的統計量,幾何平均數可以反映現象總體的一般水平
根據同一組數據計算的結果是:算術平均數>=幾何平均數>=調和平均數
1.2 中位數
中位數是將總體單位總一變量的各變量值按大小排序后,處于序列中間位置的那個變量值。當變量個數為偶數時,中位數是位于中間位置的兩個變量的算數平均數。
1.3 眾數(Mode)
眾數是總體中出現次數最多的標志值。眾數只有在總體上單位較多而又有明確的集中趨勢的資料中才有意義。
若根據光滑的頻數曲線來解釋均值、中位數和眾數這三種測度,可以說均值是變量分布的平衡點或重心;中位數把這個分布正好劃分兩半;眾數正好在分布頂端出現。
在頻數分布完全對稱的情況下,均數=中位數=眾數
在頻數分布正偏時,眾數<中位數<均值
在頻數分布負偏時,均值<中位數<眾數
1.4 百分位數
如果將一組數據排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。百分位數適合于定序數據及更高級的數據,不能用于定類數據。百分位數的優點是不受極端值的影響。
2.表示離散趨勢的統計量
2.1 方差與標準差
方差是總體各單位變量值與其算數平均數的離差的平方的數據平均數。方差的平方根就是標準差以σ表示。
與方差不同的是,標準差是具有量綱的,它與變量值的計量單位相同,其實際意義比方差清楚,
2.2 均值標準誤差
均值標準誤差就是標本均值的標準差,是描述樣本均值和總體均值平均偏差程度的統計量
2.3 極差或范圍
極差又稱全距,它是總體單位中最大變量值與最小變量值之差,即兩極之差。以R表示。
2.4 最大值
2.5 最小值
2.6 變異系數
變異系數是將標準差或平均差與其平均數對比度所得的比值,又稱離散系數。最常用就是標準差系數。
變異系數的值越大,說明數據集中相對于均值的變化就越大。
3. 表示分布形態的統計量
3.1 偏度
偏度是對分布偏斜方向及程度的測度。常用三階中心矩除以標準差的三次方,表示數據分布的相對偏斜程度記蔞a3。a3為正表示分布為右偏,值為負表示分布為左偏。
3.2 峰度
峰度是頻數分布曲線與正態分布相比較,頂端的尖峭程度。統計上常用四階中心矩測定峰度,記為a4.
當a4=3時,分布曲線為正態分布
當a4<3時,分布曲線為平峰分布
當a4>3時,分布曲線為尖峰分布
4.其它相關的統計量
4.1 Z標準化得分
Z標準化得分是某一數據與平均數的距離以標準差為單位的測量值。Z標準化數據越大,說明它離平均數越遠。
SPSS提供的基本統計量可分為三類
一.描述集中趨勢的統計量
1. 均值(Mean):適用于數據均勻分布或正態分布
2. 中位數(Median):適用于數據分布不對稱或有極端值
3. 眾數(Mode):適用于初步認識一組數據
4. 四分位數(Quartiles)
5. 百分位數(Percentile Value):通過計算百分位數可以了解某個值在集體中的位置
分析:
如果Median與Mode相差很大說明變量值中存在異常值
如果Mean和Median相差太大說明數據的分布是偏態的
二.描述離散程度的統計量
1. 樣本方差(Variance):用來度量隨機變量與期望(均值)之間的偏離程度。
2. 樣本標準差(Std. deviation):樣本方差的算術平方根,可以當作不確定性的一種測量
3. 均值標準誤差(Standard Error of Mean):反映抽樣誤差大小的統計指標,是統計推算可靠性的指標。定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差
4. 極差(Range):反映總體的差異范圍,R=最大值-最小值
三.描述總體分布形態的統計量
1. 偏度(Skewness)也稱偏斜度,描述數據分布的偏斜程度與方向
正態分布的偏度為0。
偏度值為正值,分布左偏,右側有長尾
偏度值是負值,分布右偏,左側有長尾
如果偏度值在-1到1之間,則表明數據分布近似對稱
1. 峰度(Kurtosis)是描述數據分布曲線陡峭平緩程度的統計量
正態分布的峰度值是0
峰度值為正,分布曲線比較陡峭,兩端的尾部較長
峰度值為負,分布曲線比較平緩,兩端的尾部較短
其它:自由度degree of freedom(df),顯著性水平singnificance(Sig)
自由度指計算某一統計量時取值不受限制的變量個數。df=n-k, n為樣本含量,k為被限制的條件數或變量個數。(其它解釋:自由度是一組數據中可以自由取值的數據的個數。當樣本數據的個數為n時,若樣本均值確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值。)
顯著性水平指估計總體參數落在某一區間內時可能犯錯的概率,用a表示。其值越大則原假設被拒絕的可能性就越大。1-a為置信度或置信水平表明了區間估計的可靠性。K-S統計量時,如果顯著性水平Sig<0.05時,拒絕正態分布假設。
參考鏈接:
http://blog.sina.com.cn/s/blog_76d788950100toor.html
http://www.doc88.com/p-866116640471.html
http://wenku.baidu.com/link?url=er-Uo_5unEZGIcyg14wzZydaB5cqaUE-yAQddxCC7rS_rBtBBtsFgtVkVETRWZTs9irgn8TLn52ioW74zSUDXLDRBLePaEbRS1jPR-ZMGKC
總結
- 上一篇: 基于B/S模式下的JAVA车辆调度管理系
- 下一篇: 监听Listener的简介及分类