统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别
方差(Variance)
概率論
離散型隨機變量的數(shù)學(xué)期望:??,其中,是變量發(fā)生的概率。
連續(xù)型隨機變量的數(shù)學(xué)期望:?,其中,f(x)是概率密度。
方差值:,證明過程:
? ? ? ? ?假設(shè):,則,則
? ? ? ? ?
統(tǒng)計學(xué)
?總體方差,也叫做有偏估計,其實就是我們從初高中就學(xué)到的那個標(biāo)準(zhǔn)定義的方差:
,其中,?為總體的均值,?為總體的標(biāo)準(zhǔn)差,?為總體的樣本數(shù)。
樣本方差,無偏方差,在實際情況中,總體均值是很難得到的,往往通過抽樣來計算,于是有樣本方差,計算公式如下:
或者,其中,?為樣本的均值,?為樣本的標(biāo)準(zhǔn)差,?為樣本的個數(shù)。
此處,為什么要將分母由n變成n-1,主要是為了實現(xiàn)無偏估計減小誤差,具體原理及推導(dǎo)公式可上網(wǎng)查閱,資料很多。
協(xié)方差(Covariance)
? ? ? ??協(xié)方差在概率論和統(tǒng)計學(xué)中用于衡量兩個變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個變量是相同的情況。協(xié)方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負值。
其中,與分別為兩個實數(shù)隨機變量與的數(shù)學(xué)期望,為,的協(xié)方差。
標(biāo)準(zhǔn)差(Standard Deviation)
? ? ? ? 標(biāo)準(zhǔn)差也被稱為標(biāo)準(zhǔn)偏差,在中文環(huán)境中又常稱均方差,是數(shù)據(jù)偏離均值的平方和平均后的方根,用σ表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個數(shù)據(jù)集的離散程度,只是由于方差出現(xiàn)了平方項造成量綱的倍數(shù)變化,無法直觀反映出偏離程度,于是出現(xiàn)了標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)偏差越小,這些值偏離平均值就越少,反之亦然。
總體方差
?,其中,?為總體的均值,?為總體的標(biāo)準(zhǔn)差,?為總體的樣本數(shù)。
樣本方差
,其中,?為樣本的均值,?為樣本的標(biāo)準(zhǔn)差,?為樣本的個數(shù)。
標(biāo)準(zhǔn)誤(Standard error?of mean,SEM或SE)
? ? ? 樣本均值的標(biāo)準(zhǔn)誤
由固然存在的個體變異和抽樣造成的不同樣本均數(shù)之間的差異、樣本均數(shù)與總體均數(shù)之間的差異稱為均數(shù)的抽樣誤差(也稱標(biāo)準(zhǔn)誤),用于反映我們用樣本均數(shù)估計總體均數(shù)有多大的誤差。
若隨機變量均數(shù)為,方差為,則樣本均數(shù)的標(biāo)準(zhǔn)差(標(biāo)準(zhǔn)誤)為:。又根據(jù)正態(tài)分布原理,若隨機變量,則樣本均數(shù)。
實際應(yīng)用中,總體標(biāo)準(zhǔn)差通常未知,需要用樣本標(biāo)準(zhǔn)差來估計標(biāo)準(zhǔn)誤。此時,均數(shù)標(biāo)準(zhǔn)誤的估計值為:
標(biāo)準(zhǔn)誤的大小與原變量的標(biāo)準(zhǔn)差成正比,與樣本含量的平方根成反比,因此,實際應(yīng)用中可通過增加樣本含量來減少均數(shù)的標(biāo)準(zhǔn)誤,從而降低抽樣誤差。
例:2000年某研究所隨機調(diào)查某地健康成年男子27人,得到血紅蛋白的均數(shù)為125g/L,標(biāo)準(zhǔn)差為15g/L。試估計該樣均數(shù)的抽樣誤差。
注意:標(biāo)準(zhǔn)差描述的是度量值的變化,在此題中,標(biāo)準(zhǔn)差為15g/L,標(biāo)準(zhǔn)誤描述的是估計值的變化,在此題中,標(biāo)準(zhǔn)誤為2.89g/L,隨著樣本量n的增加,標(biāo)準(zhǔn)誤是會減小的,但是標(biāo)準(zhǔn)差是不變的。
樣本頻率的標(biāo)準(zhǔn)誤
從同一總體中隨機抽出觀察單位相等的多個樣本,樣本率與總體率及各樣本率之間都存在差異,稱為頻率的抽樣誤差。表示樣本頻率抽樣誤差大小的指標(biāo)即為頻率的標(biāo)準(zhǔn)誤。
根據(jù)二項分布原理,若隨機變量,則樣本頻率的總體概率為,標(biāo)準(zhǔn)誤為。
頻率的標(biāo)準(zhǔn)誤愈小,用樣本頻率估計總體概率的可靠性愈好;反之,用樣本頻率估計總體概率的可靠性愈差。
實際應(yīng)用中,總體概率通常未知,需要用樣本頻率來近似的代替。得到頻率標(biāo)準(zhǔn)誤的估計值為:
頻率的標(biāo)準(zhǔn)誤與樣本含量的平方根成反比,因此,增加樣本含量可以減少樣本頻率的抽樣誤差(標(biāo)準(zhǔn)誤)。
例:某市隨機調(diào)查了50歲以上的中老年婦女776人,其中患有骨質(zhì)酥松癥者322人,患病率為41.5%,試計算該樣本頻率的抽樣誤差。
總體標(biāo)準(zhǔn)誤的估計值較小,說明用樣本患病率41.5%來估計患病率的可靠性較好。
均方誤差(mean-square error, MSE)
? ? ? ? 均方誤差是反映估計量與被估計量之間差異程度的一種度量,換句話說,參數(shù)估計值與參數(shù)真值之差的平方的期望值。MSE可以評價數(shù)據(jù)的變化程度,MSE的值越小,說明預(yù)測模型描述實驗數(shù)據(jù)具有更好的精確度。
,其中表示估計量,表示被估計量。
均方根誤差(root mean squared error,RMSE)
均方根誤差亦稱標(biāo)準(zhǔn)誤差,是均方誤差的算術(shù)平方根。換句話說,是觀測值與真值(或模擬值)偏差(而不是觀測值與其平均值之間的偏差)的平方與觀測次數(shù)n比值的平方根,在實際測量中,觀測次數(shù)n總是有限的,真值只能用最可信賴(最佳)值來代替。標(biāo)準(zhǔn)誤差對一組測量中的特大或特小誤差反映非常敏感,所以,標(biāo)準(zhǔn)誤差能夠很好地反映出測量的精密度。這正是標(biāo)準(zhǔn)誤差在工程測量中廣泛被采用的原因。因此,標(biāo)準(zhǔn)差是用來衡量一組數(shù)自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差。
?
?
?
總結(jié)
以上是生活随笔為你收集整理的统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宇视摄像机媒体流达到上限
- 下一篇: openCV中sobel边缘增强