数据挖掘之统计学基础(1):【理论】描述性统计
?
0x00前言
描述性統(tǒng)計(jì)是一種匯總統(tǒng)計(jì),用于定量描述或總結(jié)信息集合的特征。描述性統(tǒng)計(jì)的對象既可以是總體,也可以總體的一部分即是樣本。?
描述性統(tǒng)計(jì)分為集中趨勢和離散趨勢。
0x01集中趨勢
集中趨勢又稱 “數(shù)據(jù)的中心位置”,集中趨勢反映了數(shù)據(jù)向其中心值聚集的程度,是對數(shù)據(jù)一般水平的概括性度量,主要通過平均值、中位數(shù)和眾數(shù)來表示。
1.眾數(shù)
出現(xiàn)頻次最高的觀測值。
例子:數(shù)據(jù)集['a', 'a', 'b', 'c', 'c', 'c', 'd']的眾數(shù)是'c'。?
優(yōu)點(diǎn):不受極端值影響,可應(yīng)用于定性數(shù)據(jù)。
缺點(diǎn):一組數(shù)據(jù)可能不存在眾數(shù),有時(shí)一組數(shù)據(jù)可能會有一個(gè)以上的眾數(shù)。
使用場景:當(dāng)數(shù)值或被觀察者沒有明顯次序(常發(fā)生于非數(shù)值性資料)時(shí)特別有用, 由于可能無法良好定義算術(shù)平均數(shù)和中位數(shù).
2.中位數(shù)
按大小順序排列的數(shù)據(jù)組之中點(diǎn)位置對應(yīng)的數(shù)值,該數(shù)值把數(shù)據(jù)組分成兩半。
例子:數(shù)據(jù)集[777, 888, 4, 999, 5, 66, 1, 2, 3]的中位數(shù)是5。
優(yōu)點(diǎn):不受極端值影響。
缺點(diǎn):需要對數(shù)據(jù)排序,對大樣本將非常繁瑣。
使用場景:當(dāng)一組數(shù)據(jù)中的個(gè)別數(shù)據(jù)變動較大時(shí), 常用它來描述這組數(shù)據(jù)的集中趨勢.
3.分位數(shù)
分位數(shù)(Quantile),亦稱分位點(diǎn),是指將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)等份的數(shù)值點(diǎn),常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)、百分位數(shù)等。
優(yōu)點(diǎn):不受極端值影響。
缺點(diǎn):數(shù)據(jù)信息量不充分。
使用場景:排名百分比(如成績排名前10%的學(xué)員)、箱線圖、分位數(shù)回歸等。
1)二分位數(shù)
對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),則中位數(shù)不唯一,通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù),即二分位數(shù)。
例子
- 數(shù)據(jù)集[1, 2, 3, 4, 5]的二分位數(shù)是3。
- 數(shù)據(jù)集[1, 2, 3, 4, 5, 6]的二分位數(shù)是3.5。
2)百分位數(shù)
百分位數(shù),統(tǒng)計(jì)學(xué)術(shù)語,如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值就稱為這一百分位的百分位數(shù)。
例子:數(shù)據(jù)集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]
25%分位數(shù)是15,50%分位數(shù)是40,75%分位數(shù)是43。
4.平均數(shù)
平均數(shù),統(tǒng)計(jì)學(xué)術(shù)語,是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)。它是反映數(shù)據(jù)集中趨勢的一項(xiàng)指標(biāo)。
優(yōu)點(diǎn):充分利用數(shù)據(jù)全部信息,一組數(shù)據(jù)只有一個(gè)平均數(shù)并且組中每個(gè)數(shù)據(jù)的變化都會影響平均數(shù)。
缺點(diǎn):容易受極端值影響。?
1)算術(shù)平均數(shù)
算術(shù)平均數(shù)是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個(gè)數(shù)。它是反映數(shù)據(jù)集中趨勢的一項(xiàng)指標(biāo)。
?
例子:數(shù)據(jù)集[1, 2, 3, 4, 5, 6]的平均數(shù)是3.5。
使用場景:數(shù)據(jù)在各項(xiàng)的權(quán)重相等。
2)加權(quán)平均數(shù)
加權(quán)平均數(shù)是不同比重?cái)?shù)據(jù)的平均數(shù),加權(quán)平均數(shù)就是把原始數(shù)據(jù)按照合理的比例來計(jì)算。
平均數(shù)是加權(quán)平均數(shù)的一種特殊情況,即各項(xiàng)的權(quán)相等時(shí),加權(quán)平均數(shù)就是算術(shù)平均數(shù)。
?
例子:數(shù)據(jù)集[1, 2, 3, 4, 5],對應(yīng)的權(quán)重是[0.1, 0.3, 0.2, 0.4, 0.1]
加權(quán)平均數(shù)=(1*0.1 + 2*0.3 + 3*0.2 + 4*0.4 + 5*0.1)/(0.1 + 0.3 + 0.2 + 0.4 + 0.1)=3.0909090909。
權(quán)重是一個(gè)相對的概念,是針對某一指標(biāo)而言。某一指標(biāo)的權(quán)重是指該指標(biāo)在整體評價(jià)中的相對重要程度。權(quán)重表示在評價(jià)過程中,是被評價(jià)對象的不同側(cè)面的重要程度的定量分配,對各評價(jià)因子在總體評價(jià)中的作用進(jìn)行區(qū)別對待。事實(shí)上,沒有重點(diǎn)的評價(jià)就不算是客觀的評價(jià)。
使用場景:某一指標(biāo)的權(quán)重是指該指標(biāo)在整體評價(jià)中的相對重要程度, 沒有重要性的指標(biāo)分析是不完善的。
3)幾何平均數(shù)
幾何平均數(shù)是對各變量值的連乘積開項(xiàng)數(shù)次方根。根據(jù)所拿握資料的形式不同,其分為簡單幾何平均數(shù)和加權(quán)幾何平均數(shù)兩種形式。?
簡單幾何平均數(shù):
加權(quán)幾何平均數(shù):
例子:假定某地儲蓄年利率(按復(fù)利計(jì)算):5%持續(xù)1.5年,3%持續(xù)2.5年,2.2%持續(xù)1年。求此5年內(nèi)該地平均儲蓄年利率。
得到該地平均儲蓄年利率:
使用場景:
- 對比率、指數(shù)等進(jìn)行平均;
- 計(jì)算平均發(fā)展速度;
- 復(fù)利下的平均年利率;
- 連續(xù)作業(yè)的車間求產(chǎn)品的平均合格率。
0x02離散程度
離散趨勢反映了數(shù)據(jù)遠(yuǎn)離中心值的程度,是衡量集中趨勢值對整個(gè)數(shù)據(jù)的代表程度。數(shù)據(jù)的離散度越大,說明集中趨勢值的代表性越低;反之,數(shù)據(jù)的離散程度越接近于0,說明集中趨勢值的代表性越高。數(shù)據(jù)的離散程度主要通過范圍、標(biāo)準(zhǔn)差和方差來表示。
1.數(shù)值型數(shù)據(jù)
1)方差
方差是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度的度量。概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。?
σ^2為總體方差,X為變量,μ為總體均值,N為總體例數(shù)。
?
優(yōu)點(diǎn):方差的計(jì)算結(jié)果將數(shù)據(jù)的波動性數(shù)值放大,比極差和標(biāo)準(zhǔn)差更為細(xì)致、準(zhǔn)確、明顯。
缺點(diǎn):增加數(shù)據(jù)點(diǎn)時(shí),方差的結(jié)果會隨之增大。
使用場景:計(jì)算數(shù)據(jù)的離散程度,例如通過模型誤差的方差來判斷模型的泛華能力。?
2)標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差(Standard Deviation) ,中文環(huán)境中又常稱均方差,是離均差平方的算術(shù)平均數(shù)的平方根,用σ表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。
優(yōu)點(diǎn):表示離散程度的數(shù)字與樣本數(shù)據(jù)點(diǎn)的數(shù)量級一致,更適合對數(shù)據(jù)樣本形成感性認(rèn)知。另外,在樣本數(shù)據(jù)大致符合正態(tài)分布的情況下,標(biāo)準(zhǔn)差具有方便估算的特性:66.7%的數(shù)據(jù)點(diǎn)落在平均值前后1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)、95%的數(shù)據(jù)點(diǎn)落在平均值前后2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),而99%的數(shù)據(jù)點(diǎn)將會落在平均值前后3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
缺點(diǎn):增加數(shù)據(jù)點(diǎn)時(shí),標(biāo)準(zhǔn)差的結(jié)果會隨之增大。
使用場景:標(biāo)準(zhǔn)差應(yīng)用于投資上,可作為量度回報(bào)穩(wěn)定性的指標(biāo)。標(biāo)準(zhǔn)差數(shù)值越大,代表回報(bào)遠(yuǎn)離過去平均數(shù)值,回報(bào)較不穩(wěn)定故風(fēng)險(xiǎn)越高。相反,標(biāo)準(zhǔn)差數(shù)值越小,代表回報(bào)較為穩(wěn)定,風(fēng)險(xiǎn)亦較小。?
3)極差
為一組數(shù)據(jù)的最大值和最小值之差。?
優(yōu)點(diǎn):計(jì)算十分簡單。
缺點(diǎn):它只考慮了數(shù)據(jù)中的最大值和最小值,而忽略了全部觀察值之間的差異,僅適用樣本容量較小(n<10)情況。
使用場景:極差在SPC控制圖中有大量應(yīng)用。?
4)平均差
平均差(Mean Deviation)是表示各個(gè)變量值之間差異程度的數(shù)值之一。指各個(gè)變量值同平均數(shù)的離差絕對值的算術(shù)平均數(shù)。
優(yōu)點(diǎn):充分利用數(shù)據(jù)全部信息。?缺點(diǎn):絕對值不便于運(yùn)算。
使用場景:由于平均差采用了離差的絕對值,不便于運(yùn)算,這樣使其應(yīng)用受到了很大限制。
2.順序數(shù)據(jù):四分位數(shù)
四分位數(shù)(Quartile)是統(tǒng)計(jì)學(xué)中分位數(shù)的一種,即把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。
- 第一四分位數(shù)(Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字;
- 第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字;
- 第三四分位數(shù)(Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距。
例子:數(shù)據(jù)集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]的Q1=15,Q2=40,Q3=43。
優(yōu)點(diǎn):四分位數(shù)不受極值的影響。
缺點(diǎn):需要對數(shù)據(jù)排序,對大樣本將非常繁瑣。?使用場景:四分位距、異常值判斷等。
3.分類數(shù)據(jù):異眾比率
異眾比率又稱離異比率或變差比,是指的是非眾數(shù)的次數(shù)與全部變量值總次數(shù)的比率,即眾數(shù)不能代表的那一部分變量值在總體中的比重。
使用場景:異眾比率主要用于測度分類數(shù)據(jù)的離散程度,當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計(jì)算異眾比率。譬如,我們通過計(jì)算求出一項(xiàng)50人調(diào)查中,購買其它品牌飲料(指除可口可樂之外的品牌)的人數(shù)達(dá)到70%的異眾比率,異眾比率比較大,那么,說明用“可口可樂”來代表消費(fèi)者購買飲料品牌的狀況,其代表性比較差,其眾數(shù)代表性就不是很明顯。?
4.相對離散程度:離散系數(shù)
離散系數(shù)又稱變異系數(shù),是統(tǒng)計(jì)學(xué)當(dāng)中的常用統(tǒng)計(jì)指標(biāo)。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計(jì) 量,主要是用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度也大;離散系數(shù)小,說明數(shù)據(jù)的離散程度也小。
優(yōu)點(diǎn):比起標(biāo)準(zhǔn)差來,變異系數(shù)的好處是不需要參照數(shù)據(jù)的平均值。變異系數(shù)是一個(gè)無量綱量,因此在比較兩組量綱不同或均值不同的數(shù)據(jù)時(shí),應(yīng)該用變異系數(shù)而不是標(biāo)準(zhǔn)差來作為比較的參考。
缺點(diǎn):當(dāng)平均值接近于0的時(shí)候,微小的擾動也會對變異系數(shù)產(chǎn)生巨大影響,因此造成精確度不足。另外,離散系數(shù)無法發(fā)展出類似于均值的置信區(qū)間的工具。
使用場景:比較不同樣本數(shù)據(jù)的離散程度。?
0x03分布的形狀
1.偏態(tài)系數(shù)
偏態(tài)(skewness)是對數(shù)據(jù)分布對稱性的測度,測量偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)(coefficient of skewness,SK),是對統(tǒng)計(jì)數(shù)據(jù)分布偏斜程度的度量,是描述分布非對稱程度的數(shù)字特征。
偏態(tài)越大,表示偏斜的程度越大。?
偏態(tài)系數(shù)以平均值與中位數(shù)之差對標(biāo)準(zhǔn)差之比率來衡量偏斜的程度,用SK表示偏斜系數(shù):偏態(tài)系數(shù)小于0,因?yàn)槠骄鶖?shù)在眾數(shù)之左,是一種左偏的分布,又稱為負(fù)偏。偏態(tài)系數(shù)大于0,因?yàn)榫翟诒姅?shù)之右,是一種右偏的分布,又稱為正偏。?
?
使用場景:在社會經(jīng)濟(jì)現(xiàn)象的計(jì)量分析中,許多現(xiàn)象的次數(shù)分布并非對稱,如果應(yīng)用偏態(tài)系數(shù)指標(biāo),則可將被研究總體在其平均水平上下次數(shù)分布的特征簡明扼要地反映出來。?
2.峰態(tài)系數(shù)
峰態(tài)(kurtosis)是對數(shù)據(jù)分布平峰或尖峰程度的測度。測度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)(coefficient of kurtosis),記作K,是對統(tǒng)計(jì)數(shù)據(jù)分布陡峭程度的度量。通常是與標(biāo)準(zhǔn)正態(tài)分布相比較而言。
?
?
使用場景:一項(xiàng)金融資產(chǎn),設(shè)若其預(yù)期收益率的峰度較高,則說明該項(xiàng)資產(chǎn)的預(yù)期收益率有相對較高的概率取極端值。換句話說,該項(xiàng)資產(chǎn)未來行市發(fā)生劇烈波動的概率相對較高。?
參考文獻(xiàn):
[1] 百度百科. https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91
[2] https://wenku.baidu.com/view/6382042865ce05087732139f.html. https://wenku.baidu.com/view/6382042865ce05087732139f.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘之统计学基础(1):【理论】描述性统计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于SSM+VUE的医院设备管理系统
- 下一篇: Comcast 力推 RDK