《统计学》学习笔记之数据的图表展示
鄙人學習筆記
文章目錄
- 數據的預處理
- 品質數據的整理與展示
- 分類數據的整理與圖示
- 順序數據的整理與圖示
- 數值型數據的整理與展示
數據的預處理
數據的預處理是在對數據分類或分組之前所做的必要處理,內容包括數據的審核、篩選、排序等。
- 數據審核
數據審核就是檢查數據中是否有錯誤。對于通過調查取得的原始數據,主要從完整性和準確性兩個方面去審核。
- 數據篩選
數據篩選是根據需要找出符合特定條件的某類數據。
- 數據排序
數據排序是指按一定順序將數據排列,以便研究者通過瀏覽數據發現一些明顯的特征或趨勢,找到解決問題的線索。
品質數據的整理與展示
分類數據的整理與圖示
- 頻數
頻數是落在某一特定類別或組中的數據個數。把各個類別及落在其中的相應頻數全部列出,并用表格形式表現出來,稱為頻數分布。
- 列聯表
由兩個或兩個以上變量交叉分類的頻數分布表也稱為列聯表。二維的列聯表(兩個變量交叉分類)也稱為交叉表。
- 比例和比率
比例也稱構成比,它是一個樣本(或總體)中各個部分的數據與全部數據之比,通常用于反映樣本(或總體)的構成或結構。
比率樣本(或總體)中不同類別數據之間的比值,由于比率不是部分與整體之間的對比關系,因而比值可能大于1.
- 條形圖
條形圖是用寬度相同的條形的高度或長短來表示數據多少的圖形。條形圖可以橫置或縱置,縱置時也稱為柱形圖。
條形圖:
- 帕累托圖
該圖是按各類別數據出現的頻數多少排序后繪制的條形圖。圖中左側的縱軸給出了計數值,即頻數.右側的縱軸給了累積百分比。
帕累托圖:
- 餅圖
餅圖是用圓形及圓內扇形的角度來表示數值大小的圖形。它主要用于表示一個樣本(或總體)中各組成部分的數據占全部數據的比例,對于研究結構性問題十分有用。
餅圖:
- 環形圖
環形圖是由兩個及兩個以上大小不一的餅圖疊在一起,挖去中間的部分所構成的圖形。[補]
環形圖:
- 環形圖與餅圖
環形圖與餅圖類似,但又有區別。環形圖中間有一個“空洞”,每個樣本用一個環來表示,樣本中的每一部分數據用環中的一段表示。因此環形圖可顯示多個樣本各部分所占的相應比例,從而有利于對構成的比較研究。
順序數據的整理與圖示
- 累積頻數和累計頻率
累積頻數是將各有序類別或組的頻數逐級累加起來得到的頻數。
累積頻率或累積百分比是將各有序類別或組的百分比逐級累加起來,它也有向上累積和向下累積兩種方法。
數值型數據的整理與展示
- 數據分組
數據分組是根據統計研究的需要,將原始數據按照某種標準分成不同的組別.分組后的數據稱為分組數據。
數據分組的方法有單變量值分組和組距分組兩種。
單變量值分組是把每一個變量值作為一組,這種分組通常只適合離散變量,且在變量值較少的情況下使用。
在連續變量或變量值較多的情況下,通常采用組距分組。
在組距分組中.一個組的最小值稱為下限,一個組的最大值稱為上限。
- 分組和編制頻數分布表的具體步驟
①確定組數
一組數據分多少組合適呢?一般與數據自身的特點及數據的多少有關。一般情況下.一組數據所分的組數不應少于5組且不多于15組。
②確定各組的組距(組距是一個組的上限與下限的差)
③根據分組整理成頻數分布表
采用組距分組時,需要遵循不重不漏原則。
- 不重不漏原則
不重是指一項數據只能分在其中的某一組,不能在其他組中重復出現;不漏是指組別能夠窮盡,即在所分的全部組別中每項數據都能分在其中的某一組,不能遺漏。
- 上組限不在內原則
為解決不重的問題,統計分組時習慣上規定“上組限不在內”,即當相鄰兩組的上下限重疊時,恰好等于某一組上限的變量值不算在本組內,而計算在下一組內。
- 開口組
在組距分組中,如果全部數據中的最大值和最小值與其他數據相差懸殊.為避免出現空白組(即沒有變量值的組)或個別極端值被漏掉,第一組和最后一組可以采取"XX以下”及“XX以上”這樣的開口組。開口組通常以相鄰組的組距作為其組距。
- 組中值
組中值是每一組中下限值與上限值中間的值。
即:
使用組中值代表一組數據時有一個必要的假定條件,即各組數據在本組內呈均勻分布或在組中值兩側呈對稱分布。如果實際數據的分布不符合這一假定,用組中值作為一組數據的代表值會有一定的誤差。
- 直方圖
直方圖是用于展示分組數據分布的一種圖形,它是用矩形的寬度和高度(即面積)來表示頻數分布的。
直方圖:
- 直方圖與條形圖的區別
直方圖與條形圖不同。
①條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的;直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此其高度與寬度在樹枝上均有意義。
②由于分組數據具有連續性,直方圖的各矩形通常是連續排列,而條形圖則是分開排列。
③條形圖主要用于展示分類數據,而直方圖則主要用于展示數值型數據。
- 莖葉圖
莖葉圖是反映原始數據分布的圖形。它由莖和葉兩部分構成,其圖形是由數字組成的。通過莖葉圖,可以看出數據的分布形狀及數據的離散狀況。
莖葉圖:
- 箱線圖
箱線圖是由數據的最大值、最小值、中位數、兩個四分位數這五個特征值繪制而成的,它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。
箱線圖:
注意! 若觀察值超過了上四分位數加1.5倍四分位差,或者小于下四分位數減1.5倍四分位差,則在箱線圖中會作為離群點被單獨標出。[補]
比如:
通過箱線圖的形狀可以看出數據分布的特征:
- 線圖
如果數值型數據是在不同時間上取得的,即時間序列數據。則可以繪制線圖。線圖主要用于反映現象隨時間變化的特征。
線圖:
- 散點圖
散點圖是用二維坐標展示兩個變量之間關系的一種圖形。
散點圖:
- 氣泡圖
氣泡圖可用于展示三個變量之間的關系。它與散點圖類似,繪制時將一個變量放在橫軸,另一個變量放在縱軸.第三個變量則用氣泡的大小來表示。
氣泡圖:
- 雷達圖
雷達圖是顯示多個變量的常用圖示方法,也稱為蜘蛛圖。
雷達圖:
總結
以上是生活随笔為你收集整理的《统计学》学习笔记之数据的图表展示的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《统计学》学习笔记之数据的收集
- 下一篇: 《统计学》学习笔记之统计量及其抽样分布