Excel中的散点图这么强大,学习了!
全世界只有3.14 %?的人關注了
數據與算法之美
平時見得最多的也許是柱形圖了,但我個人最喜歡的卻是散點圖。在講散點圖之前,我先闡述一個不太嚴謹的個人觀點。我認為,所有的數據圖表都可以分為兩類,一類是偏重于展示,一類是偏重于研究。
?
如何理解?偏重于展示的圖表,往往是將某個指標所蘊含的信息更為直觀地表達,即該類圖表中獲取得的信息,是可以直接應用于業務決策的。比如某公司全國各省的銷售員人均銷售業績的柱形圖,孰高孰低被展現得很明顯,那么哪些地區需要努力,或者哪些地區需要裁員,就可以進行決策了。
偏重于研究的圖表,往往是顯現出指標間的某些隱藏的關系,從圖中得到的信息往往需要進一步的研究,才能落地為具體的業務判斷或執行策略。
比如某公司人均銷售業績與員工離職率的散點圖,你或許能看到兩者存在某種數學關系,但你并不能獲得顯性的結論,而是需要通過進一步的研究,比如回歸建模,才能提取出這種關系。
研究型的圖表就像一扇門,經常能幫助我們打開另一番天地,獲得的信息價值也更高;但相對的,也有更高的風險,許多時候你投入很多時間,獲得的結論卻沒有價值。
散點圖最核心的價值在于發現變量之間的關系,千萬不要狹隘地將這個關系理解為線性回歸關系。指標間的關系有很多,如線性關系、多項式關系、指數關系、對數關系等等,當然,沒有關系也是一種重要的關系。
最基本的散點圖我們來看一個典型的散點圖,下圖展示了一家外賣配送公司配送員人均負荷(一天需送掉的訂單量)與訂單的準時送達率。
散點圖的基本元素就是點,即通過兩個變量(縱坐標軸和橫坐標軸)的數值,將點打在圖表對應的位置上,通過散點的分布,來觀察兩個變量之間的相互關系。通過上圖我們就能直觀地看到,人均配送負載和訂單的準時送達率是負相關的關系,即人均配送負載越高,準時送達率越低,而人均配送負載越低,則準時送達率越高。我們通過添加一條趨勢線,來使得這個關系更為明顯。
對于一家外賣配送公司,這個結論似乎是一個常識,當一個人一天要配送的訂單越多,則他就越難準時將所有訂單送到。
其實,這個邏輯未必是成立的,真正的解讀是:如果訂單是循序漸進,在時間分布上平緩地遞交給配送員,那么單再多,配送員能一單單送完,則超時率是依舊平穩地;但實際情況并非如此,外賣配送需求都是在高峰時間段脈沖式增長,這就導致配送壓力大時,配送員同時承接了多個訂單,這就導致了手頭總有一部分訂單會因為繞路配送而超時,這才導致了如下散點圖上的反映。
其實散點圖的制作只需要三部操作:
1.點出散點圖制作控件;
2.選擇數據;
3.調整圖表參數首先點擊“插入”選項卡下的“圖表”模塊,在左邊的圖表選擇項中,選擇“XY(散點圖)”,暫時先選擇第一種類型,后面的幾種類型會慢慢介紹。
如圖2-2,點擊“確定”按鈕后,就會生成一個空的散點圖。如圖2-3,右鍵點擊圖形,選擇“選擇數據”,就會出現如圖2-4的數據源選擇框,在這里點擊“編輯”按鈕,進入如圖2-5顯示的“編輯數據序列”界面。在“編輯數據序列”這個界面當中,我們需要設置三個數據,第一個是圖標標題,你可以選擇某個單元格,會出現對你選中單元格的絕對引用參數;第二個是X軸上要顯示的指標,你可以操作鼠標在Excel表中圈選,也可以自己輸入絕對引用語句;第三個是Y軸上要顯示的指標,方式與第二個相同。
圖2-2
圖2-3
圖2-4
選好數據后,一個最初級的散點圖就會展現在你面前了。需要注意的是,最初的這個圖往往沒有你想象的漂亮,經常你會發現散點集中在某幾個較小的區域。如圖2-6,不要驚慌,這樣的原因往往是你沒有調整好橫縱坐標軸的“坐標軸選項”。雙擊坐標軸,將數據展現區間調整好合適的范圍。如圖2-6,原來的橫坐標軸區間是0.0-0.95,但是我們大部分的點集中在0.75-0.95之間,因此我們將橫坐標軸區間調整到0.75-0.95,這樣圖表看上去就美觀多了,更重要的數據間的關系也被清晰地呈現出來了。除了對坐標軸縮放的操作,我們還經常會用到“坐標軸選項”里的“單位”和網格線的格式,因為有時我們需要調整坐標軸的顆粒度,以使得散點的位置展示得更為精確。當散點較多且較為細密時,我們需要將網格線調整為虛線并弱化顏色,使得散點間的關系能更為突出。
圖2-5
散點圖只表達了兩個變量的關系?不是的,我們還可以在點上做文章。可以用點的大小來衡量另一個變量。這樣,散點圖就變成了氣泡圖。為什么叫氣泡圖?答案非常直觀,有大有小的圈圈,最像的就是氣泡了。且我們在制作氣泡圖時,往往會設置顏色的透明度,以展示氣泡的密集程度。這么一來,氣泡圖就更直觀了~
圖2-8
如圖2-8,我們用氣泡的大小來表示配送費收入,這樣我們就可以觀察三個變量之間的關系了。我們看到,無論從人均負載的角度還是準時送達率的角度,配送費都沒有呈現出與其他兩個指標的相關關系。
小結一下,從圖2-8中,我們能夠獲得的認知有如下幾條:
1. 人均配送負載與準時送達率有明顯的負相關關系,即一個指標隨著另一個指標的增長而減少。
2. 每單的配送費與人均配送負載和準時送達率都沒有呈現出明顯的相關關系。
3. 樣本點大部分集中在準時送達率87%-93%,人均負載11-15的區間范圍內,說明配送員的一般狀態就在這個范圍內。
通過以上幾點,相信大家以及能領略到散點圖的強大了。我們更近一步,給散點圖再增加一個變量,即用氣泡的顏色來代表另一個變量。需要注意的是,用顏色代表的變量,不適合再用連續型變量了,最好是用類型變量或有序變量。在Excel中,我們不能直接通過導入數據來用顏色來代表某個變量。這是一點小小的遺憾,但我們依然可以手動將效果做出來。
圖2-9
如圖2-9,四種氣泡的顏色代表了四個配送團隊。我們會明顯的看到,紅色的配送團隊的準時率顯著領先于其他團隊,但在人均配送負載上則比較低,說明紅色團隊的工作量不是很大,因此效率較高。黑色團隊的人均配送負荷較高,準時送達率較低,與紅色團隊的狀況正好相反。藍色團隊的成員則分布非常分散,有的人負載高準時率低,有的人負載低準時率高,可見藍色團隊的管理方式和其他三個團隊或許非常的不同,值得進一步的調查分析。
通過從散點圖到氣泡圖的應用,我們不斷地窺探出數據指標間的關系,并且挖掘出了許多新的信息,這真的是一個欣喜的發現過程。所以,你們應該能理解為什么我喜歡散點圖了吧。
作者:胡晨川(中國統計網特邀認證作者)
版權歸原作者所有,轉載僅供學習使用,不用于任何商業用途,如有侵權請留言聯系刪除,感謝合作。
精品課程推薦:
選購數學科普正版讀物
嚴選“數學思維好物”
送給孩子的益智禮物? ?| ??辦公室神器
算法工程師成長閱讀? ?| ??居家高科技
理工科男女實用型禮物精選? ?
數據與算法之美
用數據解決不可能
長按掃碼關注
總結
以上是生活随笔為你收集整理的Excel中的散点图这么强大,学习了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Sybase ASE 15.5 利用自带
- 下一篇: 将一些好看的图片变成素描画