数据挖掘学习日志(part1)--熵值法
學(xué)習(xí)筆記,僅供參考
熵值法
信息熵介紹
信息熵是將系統(tǒng)無序程度的度量,信息是系統(tǒng)有序程度的度量,二者絕對值相等但符號相反,某項指標(biāo)的指標(biāo)值變異程度越大,信息熵就越小,該指標(biāo)提供的信息量就越大,該指標(biāo)的權(quán)重也應(yīng)越大;反之,某項指標(biāo)的指標(biāo)值變異程度越小,信息熵越大,該指標(biāo)提供的信息量越小,該指標(biāo)的權(quán)重也應(yīng)越小。
計算步驟
首先,我們由于指標(biāo)體系中的各個指標(biāo)的量綱、數(shù)量級不同,我們需要對它們進(jìn)行無量綱化處理,具體方法如下:
Positiveindicators:xij′=xij?xminxmax?xminNegativeindex:xij′=xmax?xijxmax?xminPositive \; indicators:x'_{ij} = \frac{x_{ij}-x_{min}}{x_{max}-x_{min}} \\Negative \; index: x'_{ij} = \frac{x_{max}-x_{ij}}{x_{max}-x_{min}} Positiveindicators:xij′?=xmax??xmin?xij??xmin??Negativeindex:xij′?=xmax??xmin?xmax??xij??
其中,xijx_{ij}xij?為第iii個樣本第jjj個指標(biāo)的指標(biāo)值,xmaxx_{max}xmax?為第jjj個指標(biāo)的最大值,xminx_{min}xmin?為第jjj個指標(biāo)的最小值,其中有mmm個樣本,nnn個指標(biāo)。
根據(jù)各項指標(biāo)值的變異程度,利用信息熵工具,計算出各指標(biāo)權(quán)重,具體步驟為:
- 將各指標(biāo)同度量化,計算第jjj項指標(biāo)下第iii個樣本指標(biāo)值的比重
pij=xij∑i=1mxijp_{ij}= \frac{x_{ij}}{\sum_{i=1}^m x_{ij}} pij?=∑i=1m?xij?xij??
- 計算第jjj項指標(biāo)的熵值eje_jej?
$$ e_j = -k \sum_{i=1}^m p_{ij}lnp_{ij} $$
其中,k>0k>0k>0,ej≥0e_j \ge 0ej?≥0,如果xijx_{ij}xij?對于給定的jjj全部相等。則pij=1mp_{ij}=\frac{1}{m}pij?=m1?,此時eje_jej?取極大值,即:
ej=?k∑i=1m1mln1m=klnme_j = -k \sum_{i=1}^m \frac{1}{m} ln \frac{1}{m} = klnm ej?=?ki=1∑m?m1?lnm1?=klnm
若設(shè)k=1lnmk=\frac{1}{lnm}k=lnm1?,于是有0≤ej≤10\le e_j \le 10≤ej?≤1.
- 計算第jjj項指標(biāo)的差異性系數(shù)gig_igi?
gj=1?ejg_j=1-e_j gj?=1?ej?
- 對于差異性系數(shù)進(jìn)行歸一化,可計算出各指標(biāo)的權(quán)重
wj=gj∑k=1mgkw_j = \frac{g_j}{\sum_{k=1}^m g_k} wj?=∑k=1m?gk?gj??
總結(jié)
以上是生活随笔為你收集整理的数据挖掘学习日志(part1)--熵值法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么做羊脑汤 自己做羊脑汤的方法
- 下一篇: R语言观察日志(part6)--初识rM