可视化总结
4類主要的可視化視圖
比較:比較數據間各類別的關系,或者是它們隨著時間的變化趨勢,比如折線圖;聯系:查看兩個或兩個以上變量之間的關系,比如散點圖;構成:每個部分占整體的百分比,或者是隨著時間的百分比變化,比如餅圖;分布:關注單個變量,或者多個變量的分布情況,比如直方圖。單變量可視化視圖:
一次值關注一個變量。如我們一次只關注身高變量,來看身高的取值分布,而暫時忽略其他變量。多變量可視化視圖:
可以讓一張圖同時查看兩個以上的變量,比如“身高”和“年齡”,你可以理解是同一個人的兩個參數,這樣在同一張圖中可以看到每個人的“身高”和“年齡”的取值,從而分析出這兩個變量之前是否存在某種聯系。離散變量和連續變量:
離散變量是指其數值只能用自然數或整數單位計算的則為離散變量. 例如,企業個數,職工人數,設備臺數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得. 反之,在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.針對離散變量我們可以使用常見的條形圖和餅圖完成數據的可視化工作,那么,針對數值型變量,我們也有很多可視化的方法,例如箱線圖、直方圖、折線圖、面積圖、散點圖等等。散點圖:
引入工具包,Matplotlib的pyplot包
import matplotlib.pyplot as plt總結
- 上一篇: 家里的蟑螂怎么消灭?
- 下一篇: K折交叉验证和pipeline