日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

能分清直方图和柱状图,你就是图表届的“头号”玩家|图表家族#36

發布時間:2024/9/20 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 能分清直方图和柱状图,你就是图表届的“头号”玩家|图表家族#36 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

鏑摘

  雖然直方圖是柱狀圖的一種(畢竟乍眼看都是很多柱子的樣子),但是其實它倆一個喜歡數多少,一個喜歡比大小。

  直方圖展示數據分布

  
?

  猜猜看哪個是直方圖?

  直方圖(Histogram)是一種可視化在連續間隔,或者是特定時間段內數據分布情況的圖表,經常被用在統計學領域。簡單來說,直方圖描述的是一組數據的頻次分布,例如把年齡分成“0-5,5-10,……,80-85”17個組,統計一下中國人口年齡的分布情況。直方圖有助于我們知道數據的分布情況,諸如眾數、中位數的大致位置、數據是否存在缺口或者異常值

  (注:眾數是指一組數據中出現次數最多的數據值,眾數可能是一個數,但也可能是多個數。中位數是指可將數值集合劃分為相等的上下兩部分的數。)

  
?

  根據數據分布狀況不同,直方圖展示的數據有不同的模式,包括對稱單峰、偏左單峰、偏右單峰、雙峰、多峰以及對稱多峰。

  
?

  直方圖的數據模式

  來源:Wikipedia

  直方圖的百年歷史

  一般認為,直方圖最早是由數理統計學家Karl Pearson引入的,1891年他在文章“Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material”中,運用直方圖展示了均質材料中的偏差。

  
?

  Karl Pearson

  
?

  Contributions to the Mathematical Theory of Evolution II:

  Skew Variation in Homogeneous Material

  Karl Pearson

  隨后,他也統計了歐洲250位君主的在位長度,以每3年為一個區間,發現在位時間在9-12年的君主數量最多(眾數)。除此之外,我們也能看到沒有人的在位時間是在51-54年,整體來說,在位時間長的君主很少。

  
?

  圖片來源:Statistical Approaches to Length of Reign

  直方、柱狀大不同

  直方圖和柱狀圖最讓人迷惑的地方,就是它們長得非常相似。實際上,直方圖和柱狀圖無論是在圖表意義、適用數據上,還是圖表繪制上,都有很大的不同。

  1.直方圖展示數據的分布,柱狀圖比較數據的大小。

  這是直方圖與柱狀圖最根本的區別。舉個例子,有10個蘋果,每個蘋果重量不同。如果使用直方圖,就展示了重量在0-10g的蘋果有多少個,10-20g的蘋果有多少個;如果使用柱狀圖,則展示每個蘋果的具體重量。

  所以直方圖展示的是一組數據中,在你劃分的區間里,這些數據的分布情況,但是我們不知道在一個區間里,單個數據的具體大小。下圖展現了游客在博物館的游覽時間,其中,將近40%的游客僅逗留了0-10分鐘。但是我們無法知道這些游客中,每個人具體的游覽時間是多少。

  
?

  圖片來源:A Histogram is NOT a Bar Chart

  而在柱狀圖里,我們能看到的是每個數據的大小,并且進行比較。下圖就比較了在12次展覽中,參觀者參觀時間的中位數,我們能夠知道參觀的具體用時。

  
?

  圖片來源:A Histogram is NOT a Bar Chart

  2.直方圖X軸為定量數據,柱狀圖X軸為分類數據。

  由圖表的原理就決定了,X軸在直方圖與柱狀圖中的用法是不一樣的。在直方圖中,X軸上的變量是一個個連續的區間,這些區間通常表現為數字,例如代表蘋果重量的“0-10g,10-20g……”,代表時間長度的“0-10min,10-20min……”。而在柱狀圖中,X軸上的變量是一個個分類數據,例如不同的國家名稱、不同的游戲類型。

  
?

  圖片來源:www.mathsisfun.com

  因此,直方圖上的每根柱子都是不可移動的,X軸上的區間是連續的、固定的。而柱狀圖上的每根柱子是可以隨意排序的,有的情況下需要按照分類數據的名稱排列,有的則需要按照數值的大小排列。

  3.直方圖柱子無間隔,柱狀圖柱子有間隔

  因為直方圖中的區間是連續的,因此柱子之間不存在間隙。而柱狀圖的柱子之間是存在間隔。還有一個值得注意的地方,在直方圖中,第一根柱子應該和Y軸有一定的間隔,即使都是從“0”這個值開始的。因為X軸與Y軸上“0”的意義不同,而且很多直方圖上的區間并不是從0開始的。

  
?

  4.直方圖柱子寬度可不一,柱狀圖柱子寬度須一致

  柱狀圖柱子的寬度因為沒有數值含義,所以寬度必須一致。但是在直方圖中,柱子的寬度代表了區間的長度,根據區間的不同,柱子的寬度可以不同,但理論上應為單位長度的倍數。

  例如,美國人口普查局(The U.S. Census Bureau)調查了12.4億人的上班通勤時間,由于通勤時間在45-150分鐘的人數太少,因此區間改為45-60分鐘、60-90分鐘、90-150分鐘,其他組距則均為5。

  
?

  通勤數據

  來源:Wikipedia

  可以看到,Y軸的數據為“人數/組距”,在這種情況下,每個柱子的面積相加就等于調查的總人數,柱子的面積就有了意義。

  
?

  通勤時間直方圖

  來源:Wikipedia

  當上圖的Y軸表達的是“區間人數/總人數/組距”,這個直方圖就是我們初中學習的“頻率分布直方圖”,頻率指的是“區間數量/總數量”。在這樣的直方圖中,所有柱子的面積相加就等于1啦。

  使用直方小竅門

  1.注意組距

  組距會影響直方圖呈現出來的數據分布,因此在繪制直方圖的時候需要多次嘗試改變組距。

  
?

  組距較大的直方圖

  
?

  組距較小的直方圖

  2.X軸上為左閉右開區間

  一般來說,X軸上的區間遵循“左閉右開”的原則,即在一個“a-b”的區間里,數據x應為“a≤x<b”。

  3.注意Y軸所代表的變量

  Y軸上的變量可以是頻次(數據出現了多少次)、頻率(頻次/總次數)、頻率/組距,不同的變量會讓直方圖描述的數據分布意義不同。

  隱藏在身邊的直方圖

  生活中,我們接觸比較多的的應該是RGB直方圖,這種直方圖常出現在在PS、相機等場景中。

  
?

  來源:Thomas看看世界,知乎

  在RGB模式下,圖片的顏色與紅(Red)綠(Green)藍(Blue)組成,各自的數值范圍均為0-255。其中,紅色直方圖就描述了0-255這個數值范圍內,像素的分布情況。但這種直方圖的X、Y軸沒有具體數值,我們只能數據分布模式大致判定照片情況。

  從今往后,你就能一眼找到那個在柱狀圖海洋的直方圖啦!如果你有遇到有趣的直方圖,歡迎在評論跟大家分享喔~

  世界讀書日來點福利!明天19:00前點贊數最多的小伙伴,獲得《可視化溝通用:信息圖表設計讓數據說話》一本。讓讀書成為習慣,天天都是世界讀書日。

  

  更多鏑數使用問題請參看以下文章,如果仍有無法解決的問題,請發送郵件至public@dydata.io或者直接在后臺留言

  咱們下期再見!

  參考文章

  Statistical Approaches to Length of Reign

  http://slideplayer.com/slide/7812080/

  How to Draw a Histogram

  https://www.wikihow.com/Draw-a-Histogram

  A Histogram is NOT a Bar Chart

  https://www.forbes.com/sites/naomirobbins/2012/01/04/a-histogram-is-not-a-bar-chart/#fc6366a6d775

  往期回顧

  條柱形圖 工作報表 餅圖

  時序圖表 折線圖 散點圖

  氣泡圖 面積圖 弦圖

  主題配色 配色技巧 矩形樹圖

  雷達圖 瀑布圖 旭日圖

  漏斗圖 桑基圖 箱線圖

  玫瑰圖 折線家族 熱力圖

  柱圖家族 餅圖家族 詞云圖

  力向導圖 數據可視化誤區

來源:http://dy.163.com/v2/article/detail/DG3OF9N605118F5T.html

總結

以上是生活随笔為你收集整理的能分清直方图和柱状图,你就是图表届的“头号”玩家|图表家族#36的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。