统计学---掌握数据的整体状态
我們日常工作生活中會獲得各種數據,我們希望了解這些數據所代表的整體狀態,從而可以用來描述、比較和評價。
例如一個公司每個人的收入,一個公司保齡球對抗賽的分組成績,這些獲得的數據都是數值型數據。我們假設公司有3個部門,每個部門有6個人,其保齡球對抗賽的得分情況如下:
| 86 | 84 | 229 |
| 73 | 71 | 77 |
| 124 | 103 | 59 |
| 111 | 85 | 95 |
| 90 | 90 | 70 |
| 38 | 89 | 88 |
怎么對這3個部門的成績數據進行比較和評價呢?首先想到的第一個評估值當然是各部門的總得分情況。例如A部門總得分是522分,B部門總得分是522分,c部門得分是618分。C部門得分最高,A、B部門得分相同。c部門最強。
這是其中一種數據評估項:即總數(sum)。但是,如果A、B、C三個部門的人數不相等呢,那么顯然人數多的部門有更多的優勢。就像中國和挪威,中國人的數量比挪威人的數量多的多,那么中國的GDP就比挪威的GDP有更多的優勢,你可以把總數理解為GDP。
那么,第2種數據評估項就來了:平均數,也稱為“均值(mean)”。即總數量除以總個數。A、B、C這3個部門各是6個人,那么平均數就是A部門87分,B部87分,C部103分。C部門仍然最強。你可以理解“平均數”為“人均GDP”。
但我們注意觀察一下,C部分平均得分是103分,但是c部門6個人,超過103分的只有1個人,低于103分的有5人,也即超過80%的人沒有過平均數,把103分當作C部門的平均得分好像很不合理啊。
我們經常在各種新聞報道中,有某某行業平均薪酬是多少萬元,某地區人均薪酬是多少,例如軟件行業平均薪酬25萬元,金融行業平均薪酬50萬元,很多人的感覺是自己拖后腿了。這種感覺沒有錯,可能8o%的人實際上都沒有過平均數,因為平均數被行業中某些高收入的人拉高了。
在這種情況下,使用“中位數(median)”來評估數據可能更合適,中位數就是將數據依大小順序排列,取最中間的值,例如A部門的得分是86、73、124、111、90、38,按照順序排列是38、73、86、90、111、124,最中間的值是86、90。
中位數的計算方法是:如果數據個數是奇數,則最中間的值就是中位數;如果數據個數是偶數,則最中間的2個值的平均數是中位數。那么A部門的中位數是(86+90)/2=88,B部門是(85+89)/2=87,C部門是(77+88)/2=82.5。可以看出,C部門的中位數反而是最低的。
我們再來看一下,A部門和B部門的總得分相同,都為522分,平均得分也相同,都為87分,中位數也差不多。但我們把A部門和B部門的各個得分畫成下圖,能夠看出來這2隊的數據狀況大不相同吧。
A部門各人的得分散落在各處,而B部門各人的得分都相當接近。表現數據這種“離散程度”的數據評估項,就是“標準差(Standard Deviation)”,標準差的最小值為0、而數據的“離散程度”越大,標準差就越大。標準差的計算如下:
通過上式計算得到A部門的得分標準差是30.17,B部7的得分標準差是10.37。也就是說總得分、平均數都相同,中位數很接近的A部門和B部門,離散程度卻相差3倍。顯然B部門的得分更加均衡。你可以理解為在GDP和人均GDP相同的情況下,標準差低的收入更加均衡,貧富差距比較小。
上面都是對數值數據的整體掌握,那么對于分類數據呢?例如移動通信公司收集到一份數據,對移動通信服務的評價情況,“非常滿意、滿意、一般、無所謂”。
| 1 | 非常滿意 |
| 2 | 滿意 |
| 3 | 滿意 |
| 4 | 一般 |
| 5 | 一般 |
| 6 | 無所謂 |
| 7 | 一般 |
| … | ….. |
對于分類數據,一般通過計算各個分類占總數的比例來掌握數據的整體狀態,例如上面100個調查數據中,非常滿意的有18人,滿意的有70人,股的有10人,無所謂的有2人,那么這4個分類分別占比是18%,70%,10%、 2%。
總結
以上是生活随笔為你收集整理的统计学---掌握数据的整体状态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分类模型的评估方法-F分数(F-Scor
- 下一篇: 损失函数为什么用平方形式(二)