什么是安斯库姆四重奏?为什么统计分析之前必须要作图?
歡迎關注"R語言和統計"~~
Anscombe's quartet,Wikipedia
就現在的習慣來說,統計表格和作圖往往是同時出現的。
比如,在使用表格呈現相關或回歸系數等統計值的時候,通常還會配上一個散點圖用來輔助說明。
現在很少有只做表格,不畫圖的“老一輩風格”啦。
不過,大約1973年的時候,大部分的統計學家們卻持這樣的觀點:用統計值來描述數據才是準確的(比如均數,標準差,相關系數等),而圖片是粗略、不準確的[1]!
就在這時候,有一位名叫Francis Anscombe的統計學家,寫了一篇論文“ Graphs in Statistical Analysis”,發在了《The American Statistician》雜志上,想要憑借一己之力逆轉當時的“不良風氣”[1]!
他創建了4組數據,如下:?
上述四對數據(兩個變量:x,y)擁有相同的統計描述:?
x的均數為:9,方差為:11
y的均數為:7.5,方差為:4.13
x和y的相關系數為:0.82
隨后,作者作了一個散點圖,并且畫出了回歸直線,見下圖:?
Anscombe's quartet,Wikipedia
結果令人震驚!
如果只看均數,方差等統計描述,會誤認為數據是一樣的!更糟糕的是,再強行使用線性模型,擬合出的方程將會變得非常不可靠!
而通過制作散點圖,可以觀察到數據的分布情況,如是否線性(線性回歸的重要前提之一),是否存在影響點(Inflential observations)等重要信息。
只有了解這些重要信息之后,我們才可以選擇合適的統計模型用于后續分析。
現在使用R來進一步了解作圖的重要性,并且還很好玩!
首先,安裝一個包{datasauRus}并且載入:?
作圖:?
ggplot(subset(datasaurus_dozen, dataset != "x_shape"),aes(x = x, y = y, colour = dataset))+geom_point()+facet_wrap(~ dataset, ncol = 4) + theme_void() +theme(legend.position = "none")如之前所述,圖片的形狀差異非常巨大,但x和y卻具有相同的統計描述,如下圖:?
圖片來源:[2]
應了那句話:有圖有真相!
好啦,今天的內容就到這里。
如果有幫助,記得分享給需要的人!
參考文獻
[1].?Anscombe, F.J. (1973). Graphs in Statistical Analysis.?The American Statistician 27, 1, 17–21.
[2].?https://github.com/lockedata/datasauRus
▌聲明:本文由R語言和統計首發,如需轉載請聯系我們
▌編輯:June
▌我們的宗旨是:讓R語言和統計變得簡單!
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的什么是安斯库姆四重奏?为什么统计分析之前必须要作图?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记十一之降维
- 下一篇: CUDA下在Host端分配的几种内存模式