熵 互信息 Gini指数 和 不纯度
在學(xué)習(xí)決策樹類的算法時,總是繞不開 信息熵、Gini指數(shù)和它們相關(guān)聯(lián)的概念,概念不清楚,就很難理解決策樹的構(gòu)造過程,現(xiàn)在把這些概念捋一捋。
信息熵
信息熵,簡稱熵,用來衡量隨機變量的不確定性大小,熵越大,說明隨機變量的不確定性越大。計算公式如下:
考慮二元分布的情況,當(dāng)取2為對數(shù)底時,可以得到如下的函數(shù)曲線??梢钥吹?,當(dāng)p=0.5時,不確定性最大,熵的值是1,也最大,當(dāng)p=0或1時,沒有不確定性,熵的值最小,是0。
條件熵
我們在分析某個特征對隨機變量的影響時,需要計算條件熵,即隨機變量Y的信息熵相對特征X的條件期望,公式如下:
互信息
互信息,也叫信息增益,是熵和條件熵的差值,g(Y,X) = H(Y) - H(Y|X)。
信息增益的含義是,某一個特征會使得隨機變量的不確定性下降多少。下降的越多,說明這個特征與標(biāo)簽的相關(guān)性越強,分類效果自然越好。在構(gòu)造決策樹時,常用的做法是選擇信息增益更大的特征構(gòu)造分支。
另外,在構(gòu)造決策樹時,信息增益有兩種算法,一是差值(ID3),二是比值(C4.5),比值是差值與特征的信息熵的比例,公式如下所示:
比值比差值能更準(zhǔn)確的反應(yīng)不確定性變化的程度,原因是,如果按差值選取節(jié)點,那些取值數(shù)量更多的特征總是會排在前面,在比值的計算公式中,分母可以度量特征的取值數(shù)量,相當(dāng)于對各個特征做了歸一化,所以不會出現(xiàn),特征取值數(shù)量多,信息增益一定更大的情況。
Gini指數(shù)
Gini指數(shù)和熵類似,都是衡量隨機變量不確定程度的,計算公式是:
Gini指數(shù)有一個比較直觀的解釋:從樣本中任意挑選兩個,兩個樣本屬于不同類別的概率就是Gini指數(shù)。從Gini指數(shù)的定義和解釋就可以發(fā)現(xiàn),它和熵和類似,不確定性越大,Gini指數(shù)和熵也越大。不同點在于Gini指數(shù)的最大值是0.5,不是1。把Gini指數(shù)公式和信息熵公式都變換成求和的形式,可以發(fā)現(xiàn)二者只相差一個乘積項,Gini指數(shù)是 1-p,信息熵是-log(p),就是這么一點點差別。
Gini指數(shù)的另一種說法是不純度(impurity),Gini指數(shù)越大,不確定性越大,數(shù)據(jù)越混亂,不純度越高。
筆者沒研究過信息熵和Gini指數(shù)的發(fā)跡史,但可以猜測,Gini指數(shù)和信息熵很可能是不同領(lǐng)域的研究者分別建立的評價不確定性的指標(biāo),從含義上看,二者殊途同歸。在實際使用時,往往用Gini指數(shù)來構(gòu)造CART。
總結(jié)
以上是生活随笔為你收集整理的熵 互信息 Gini指数 和 不纯度的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李念老公多大(李念个人资料老公多大)
- 下一篇: 晚上吃姜赛砒霜(晚上喝生姜结果丧命了)