當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基本统计分析

發(fā)布時間：2023/12/20 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了基本统计分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1基本統(tǒng)計分析
- 1.1描述性統(tǒng)計分析
- - 1.1.1 summary()函數
  - 1.1.2 sapply()函數
  - 1.1.3 describe()函數
  - 1.1.4 stat.desc()函數
- 1.2 分組計算描述性統(tǒng)計量
- - 1.2.1 aggregate()分組
  - 1.2.2 by()函數
2 結果可視化
3 相關
- 3.1 相關的類型
- 3.2 相關性的顯著性檢驗

1基本統(tǒng)計分析

1.1描述性統(tǒng)計分析

在描述性統(tǒng)計量的計算方面，R中的選擇很多。你可以使用summary()函數來獲取描述性統(tǒng)計量。

1.1.1 summary()函數

#讀入x的值 x <- c("mpg", "hp", "wt") #進行描述統(tǒng)計分析 summary(mtcars[x])

在描述性統(tǒng)計分析中包含了每個變量的最小值、最大值、四分位數和數值型變量的均值，以及因子向量和邏輯型向量的頻數統(tǒng)計。

1.1.2 sapply()函數

sapply()函數可計算所選擇的任意描述性統(tǒng)計量。其使用格式為：sapply(x, FUN, options)。其中的x是你的數據框（或矩陣），FUN為一個任意的函數。如果指定了options，它們將被傳遞
給FUN。你可以在這里插入的典型函數有mean()、sd()、var()、min()、max()、median()length()、range()和quantile()。函數fivenum()可返回最小值、下四分位數、中位數、上四分位數和最大值。

#構建函數 mytest <- function(x, na.omit=FALSE){ if (na.omit) x <- x[!is.na(x)] m <- mean(x) n <- length(x) s <- sd(x) skew <- sum((x-m)^3/s^3)/n kurt <- sum((x-m)^4/s^4)/n - 3 return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt)) } #給定變量 x <- c("mpg", "hp", "wt") #調用函數 sapply(mtcars[x], mytest)

1.1.3 describe()函數

通過Hmisc包中的describe()函數也可以計算描述性統(tǒng)計量。

#describe函數 library("Hmisc") x <- c("mpg", "hp", "wt") describe(mtcars[x])

從運行結果來看，同樣可以得到每個變量的基本統(tǒng)計分析信息。

1.1.4 stat.desc()函數

我們還可以通過pastecs包中的stat.desc()函數計算描述性統(tǒng)計量。pastecs包中有一個名為stat.desc()的函數，它可以計算種類繁多的描述性統(tǒng)計量。使用
格式為：stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)。

#stat.desc()函數 library("pastecs") x <- c("mpg", "hp", "wt") stat.desc(mtcars[x])

1.2 分組計算描述性統(tǒng)計量

在比較多組個體或觀測時，關注的焦點經常是各組的描述性統(tǒng)計信息，而不是樣本整體的描述性統(tǒng)計信息。同樣地，在R中完成這個任務有若干種方法。我們將以獲取變速箱類型各水平的描述性統(tǒng)計量開始。

1.2.1 aggregate()分組

#aggregate()分組 x <- c("mpg", "hp", "wt") #均值 aggregate(mtcars[x], by=list(am=mtcars$am), mean) #標準差 aggregate(mtcars[x], by=list(am=mtcars$am), sd)

aggregate()僅允許在每次調用中使用平均數、標準差這樣的單返回值函數，它無法一次返回若干個統(tǒng)計量。

1.2.2 by()函數

by（）函數使用格式為：by(data, INDICES, FUN) ，其中data是一個數據框或矩陣，INDICES是一個因子或因子組成的列表，定義了分組，FUN是任意函數。

#by()函數 #構建自定義函數 dstest <- function(x)sapply(x, mytest) x <- c("mpg", "hp", "wt") by(mtcars[x], mtcars$am, dstest)

2 結果可視化

在R中用于創(chuàng)建頻數表和列聯表有很多種方法。

一維列聯表可以使用table()函數來生成簡單的頻數統(tǒng)計表。

#數據加載Arthritis library("vcd") #一維列聯表, table_new <- with(Arthritis,table(Improved))

3 相關

相關系數可以用來描述定量變量之間的關系。相關系數的符號（±）表明關系的方向（正相關或負相關），其值的大小表示關系的強弱程度（完全不相關時為0，完全相關時為1）。

3.1 相關的類型

在R中可以計算多種相關系數，包括Pearson相關系數、Spearman相關系數、Kendall相關系數、偏相關系數、多分格（polychoric）相關系數和（polyserial）相關系數。
Pearson、Spearman和Kendall相關
Pearson積差相關系數衡量了兩個定量變量之間的線性相關程度。Spearman等級相關系數則衡量分級定序變量之間的相關程度。Kendall’s Tau相關系數也是一種非參數的等級相關度量。cor()函數可以計算這三種相關系數，而cov()函數可用來計算協方差。其中cor與cov的參數為：

#使用R的自帶數據集 states<- state.x77[,1:6] #計算前六位方差 cov(states) #協方差 cor(states)

3.2 相關性的顯著性檢驗

在R中可以使用cor.test()函數對單個的Pearson，Spearman和Kendall相關系數進行檢驗。其函數適應格式為：cor.test(x, y, alternative = , method = )。其中的x和y為要檢驗相關性的變量，alternative則用來指定進行雙側檢驗或單側檢驗（取值為"two.side"、“l(fā)ess"或"greater”），而method用以指定要計算的相關類型（“pearson”、“kendall” 或 “spearman” ）?，F在對兩個變量進行相關性系數進行檢驗。

cor.test(states[,3], states[,5])

但是，cor.test()每次只能檢驗一種相關關系。要想一次性檢驗多種的相關系數檢驗，可以使用psych包中提供的
corr.test()函數。corr.test()函數可以為Pearson、Spearman或Kendall相關計算相關矩陣和顯著性水平。

#多個相關系數檢驗 library("psych") corr.test(states, use="complete")

參數use=的取值可為"pairwise"或"complete"，它們分別表示對缺失值執(zhí)行成對刪除或行刪除。參數method=的取值可為"pearson"（默認值）、“spearman"或"kendall”。

來自《R語言實戰(zhàn)第二版》，僅為記錄自己的學習筆記。不做其他的。

總結

以上是生活随笔為你收集整理的基本统计分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

统计分析

上一篇：智慧公寓管理系统解决方案
下一篇：北京工业大学大一C语言课程设计--四子