java平均差_如何做好描述统计分析
寫在前面
什么是描述性統計分析,這不僅是數據分析面試中最常見的問題,也是我們日常分析中必過的一道關卡。
要把握數據的分布特征,需要從3個方面進行描述:集中趨勢、離散程度和分布形狀。
1、集中趨勢
集中趨勢就是指一組數據向某一中心靠攏的程度,通常有以下指標:
眾數
對分類數據來說,眾數是最適合描述其集中趨勢的值,它是指一組數據中出現次數最多的變量,眾數不受極端值的影響,但是可能不唯一,且當數據量較多時,才有意義。
中位數
對數據型數據來說,可以用中位數來描述其集中趨勢的度量,中位數就是將一組數據排序以后處于中間位置的值,那么如何尋找中間位置呢?
1、 將這組數據按順序排列
2、 中間數值所在的位置是(n+1)/2,n表示n個數
3、 當n為奇數時,中間位置的數就是中位數,當n為偶數時,中間位置兩個數的均值為中位數。
顯然這里有兩種情況,當n為奇數和偶數兩種情況,求下面這組數據的中位數0 1 2 3 4 5 6 7 8
這里n=9,中位數的位置=(9+1)/2 = 5,那么中位數就是4.0 1 2 3 4 5 6 7 8 9
當n=10時,中位數的位置是 (10+1)/2 = 5.5,那么中位數就是第5個位置的數和第6個位置的數的平均數,也就是(4+5)/2 = 4.5
知道計算的原理,但其實不用我們自己去算,軟件中有相應的函數,如Excel中的median函數可以計算中位數。中位數也不受極值的影響。
四分位數
同樣,四分位數也是對數值型數據集中趨勢的度量,后面的度量都適用于數值型數據。四分位數就是將數據排序后四等分,處于25%(下四分位數)和75%(上四分位數)位置上的值即四分位數,箱型圖可以很好地用來描述四分位數。
Excel中可以用quartile函數來計算四分位數。
平均數
簡單平均數:就是算術平均數,所有數值相加再除以總個數。
加權平均數:數據分組后每組有相應的權重。
幾何平均數:n個變量乘積的n次方根,主要用于計算平均比率,如增長率的平均值。
Excel中用average函數計算平均數。
如果分布是對稱的,那么眾數=中位數=平均數,如果數據左偏,那么平均數
2、離散程度
離散程度就是描述各個變量遠離其中心值的程度,通常有以下指標:
異眾比率
指非眾數組的頻數占總頻數的比例,較多地用在分類數據中,用來體現眾數的代表性。異眾比率越大,說明非眾數組占比越大,那么眾數就不能很好地代表這組數據。
四分位差
對于數值型數據,四分位差可以來描述數據的離散程度,四分位差就是上下四分位數的差。反映了中間50%數據的離散程度,四分位差越小,說明中間的數據越集中,
極差
極差就是最大值與最小值的差,容易受極值的影響。
平均差
各變量與其平均數離差絕對值的平均數,反映了每個數與平均數的差異程度,Excel里用avedev計算平均差。
方差和標準差
對數值型數據,怎么能少得了我們熟知的方差和標準差。方差就是各變量與其平均數離差平方的平均數,方差的平方根就是標準差,方差和標準差是應用最廣的描述數據離散程度的度量。Excel里用stdev來計算標準差。
3、分布形狀
描述分布形狀的度量有偏態和峰態
偏態
數據分布對稱性的描述,統計量是偏度,偏度>0,則頻數分布的高峰向左偏移,呈右(正)偏態分布;偏度<0,則頻數分布的高峰向右偏移,呈左(負)偏態分布;|偏度|>1,呈高度偏態,0.5
對于偏態,在之前的文章 中也有寫過。
如何處理偏態數據?
峰態
是描述數據平峰或尖峰程度的度量。統計量是峰度。同偏態一樣,峰態也是與標準正態分布來比較的,峰度>0,數據分布更集中,為尖峰分布,峰度<0,數據分布更分散,為平峰分布。
以上提到的各種統計量除了用Excel中的函數來計算外,還可直接用【數據分析】功能中的【描述統計】命令直接得到。
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的java平均差_如何做好描述统计分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jbpm springboot mysq
- 下一篇: java大话_大话JAVA(一)