基本统计分析
文章目錄
- 1基本統(tǒng)計分析
- 1.1描述性統(tǒng)計分析
- 1.1.1 summary()函數
- 1.1.2 sapply()函數
- 1.1.3 describe()函數
- 1.1.4 stat.desc()函數
- 1.2 分組計算描述性統(tǒng)計量
- 1.2.1 aggregate()分組
- 1.2.2 by()函數
- 2 結果可視化
- 3 相關
- 3.1 相關的類型
- 3.2 相關性的顯著性檢驗
1基本統(tǒng)計分析
1.1描述性統(tǒng)計分析
在描述性統(tǒng)計量的計算方面,R中的選擇很多。你可以使用summary()函數來獲取描述性統(tǒng)計量。
1.1.1 summary()函數
#讀入x的值 x <- c("mpg", "hp", "wt") #進行描述統(tǒng)計分析 summary(mtcars[x])
在描述性統(tǒng)計分析中包含了每個變量的最小值、最大值、四分位數和數值型變量的均值,以及因子向量和邏輯型向量的頻數統(tǒng)計。
1.1.2 sapply()函數
sapply()函數可計算所選擇的任意描述性統(tǒng)計量。其使用格式為:sapply(x, FUN, options)。其中的x是你的數據框(或矩陣),FUN為一個任意的函數。如果指定了options,它們將被傳遞
給FUN。你可以在這里插入的典型函數有mean()、sd()、var()、min()、max()、median()length()、range()和quantile()。函數fivenum()可返回最小值、下四分位數、中位數、上四分位數和最大值。
1.1.3 describe()函數
通過Hmisc包中的describe()函數也可以計算描述性統(tǒng)計量。
#describe函數 library("Hmisc") x <- c("mpg", "hp", "wt") describe(mtcars[x])
從運行結果來看,同樣可以得到每個變量的基本統(tǒng)計分析信息。
1.1.4 stat.desc()函數
我們還可以通過pastecs包中的stat.desc()函數計算描述性統(tǒng)計量。pastecs包中有一個名為stat.desc()的函數,它可以計算種類繁多的描述性統(tǒng)計量。使用
格式為:stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)。
1.2 分組計算描述性統(tǒng)計量
在比較多組個體或觀測時,關注的焦點經常是各組的描述性統(tǒng)計信息,而不是樣本整體的描述性統(tǒng)計信息。同樣地,在R中完成這個任務有若干種方法。我們將以獲取變速箱類型各水平的描述性統(tǒng)計量開始。
1.2.1 aggregate()分組
#aggregate()分組 x <- c("mpg", "hp", "wt") #均值 aggregate(mtcars[x], by=list(am=mtcars$am), mean) #標準差 aggregate(mtcars[x], by=list(am=mtcars$am), sd)
aggregate()僅允許在每次調用中使用平均數、標準差這樣的單返回值函數,它無法一次返回若干個統(tǒng)計量。
1.2.2 by()函數
by()函數使用格式為:by(data, INDICES, FUN) ,其中data是一個數據框或矩陣,INDICES是一個因子或因子組成的列表,定義了分組,FUN是任意函數。
#by()函數 #構建自定義函數 dstest <- function(x)sapply(x, mytest) x <- c("mpg", "hp", "wt") by(mtcars[x], mtcars$am, dstest)2 結果可視化
在R中用于創(chuàng)建頻數表和列聯表有很多種方法。
一維列聯表可以使用table()函數來生成簡單的頻數統(tǒng)計表。
3 相關
相關系數可以用來描述定量變量之間的關系。相關系數的符號(±)表明關系的方向(正相關或負相關),其值的大小表示關系的強弱程度(完全不相關時為0,完全相關時為1)。
3.1 相關的類型
在R中可以計算多種相關系數,包括Pearson相關系數、Spearman相關系數、Kendall相關系數、偏相關系數、多分格(polychoric)相關系數和(polyserial)相關系數。
Pearson、Spearman和Kendall相關
Pearson積差相關系數衡量了兩個定量變量之間的線性相關程度。Spearman等級相關系數則衡量分級定序變量之間的相關程度。Kendall’s Tau相關系數也是一種非參數的等級相關度量。cor()函數可以計算這三種相關系數,而cov()函數可用來計算協方差。其中cor與cov的參數為:
3.2 相關性的顯著性檢驗
在R中可以使用cor.test()函數對單個的Pearson,Spearman和Kendall相關系數進行檢驗。其函數適應格式為:cor.test(x, y, alternative = , method = )。其中的x和y為要檢驗相關性的變量,alternative則用來指定進行雙側檢驗或單側檢驗(取值為"two.side"、“l(fā)ess"或"greater”),而method用以指定要計算的相關類型(“pearson”、“kendall” 或 “spearman” )?,F在對兩個變量進行相關性系數進行檢驗。
cor.test(states[,3], states[,5])
但是,cor.test()每次只能檢驗一種相關關系。要想一次性檢驗多種的相關系數檢驗,可以使用psych包中提供的
corr.test()函數。corr.test()函數可以為Pearson、Spearman或Kendall相關計算相關矩陣和顯著性水平。
參數use=的取值可為"pairwise"或"complete",它們分別表示對缺失值執(zhí)行成對刪除或行刪除。參數method=的取值可為"pearson"(默認值)、“spearman"或"kendall”。
來自《R語言實戰(zhàn)第二版》,僅為記錄自己的學習筆記。不做其他的。
總結
- 上一篇: 智慧公寓管理系统解决方案
- 下一篇: 北京工业大学 大一C语言课程设计--四子