當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

熵互信息 Gini指数和不纯度

發(fā)布時間：2023/12/29 综合教程 38 生活家

生活随笔收集整理的這篇文章主要介紹了熵互信息 Gini指数和不纯度小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在學(xué)習(xí)決策樹類的算法時，總是繞不開信息熵、Gini指數(shù)和它們相關(guān)聯(lián)的概念，概念不清楚，就很難理解決策樹的構(gòu)造過程，現(xiàn)在把這些概念捋一捋。

信息熵

信息熵，簡稱熵，用來衡量隨機變量的不確定性大小，熵越大，說明隨機變量的不確定性越大。計算公式如下：

考慮二元分布的情況，當(dāng)取2為對數(shù)底時，可以得到如下的函數(shù)曲線?？梢钥吹?，當(dāng)p=0.5時，不確定性最大，熵的值是1，也最大，當(dāng)p=0或1時，沒有不確定性，熵的值最小，是0。

條件熵

我們在分析某個特征對隨機變量的影響時，需要計算條件熵，即隨機變量Y的信息熵相對特征X的條件期望，公式如下：

互信息

互信息，也叫信息增益，是熵和條件熵的差值，g(Y,X) = H(Y) - H(Y|X)。

信息增益的含義是，某一個特征會使得隨機變量的不確定性下降多少。下降的越多，說明這個特征與標(biāo)簽的相關(guān)性越強，分類效果自然越好。在構(gòu)造決策樹時，常用的做法是選擇信息增益更大的特征構(gòu)造分支。

另外，在構(gòu)造決策樹時，信息增益有兩種算法，一是差值（ID3），二是比值（C4.5），比值是差值與特征的信息熵的比例，公式如下所示：

比值比差值能更準(zhǔn)確的反應(yīng)不確定性變化的程度，原因是，如果按差值選取節(jié)點，那些取值數(shù)量更多的特征總是會排在前面，在比值的計算公式中，分母可以度量特征的取值數(shù)量，相當(dāng)于對各個特征做了歸一化，所以不會出現(xiàn)，特征取值數(shù)量多，信息增益一定更大的情況。

Gini指數(shù)

Gini指數(shù)和熵類似，都是衡量隨機變量不確定程度的，計算公式是：

Gini指數(shù)有一個比較直觀的解釋：從樣本中任意挑選兩個，兩個樣本屬于不同類別的概率就是Gini指數(shù)。從Gini指數(shù)的定義和解釋就可以發(fā)現(xiàn)，它和熵和類似，不確定性越大，Gini指數(shù)和熵也越大。不同點在于Gini指數(shù)的最大值是0.5，不是1。把Gini指數(shù)公式和信息熵公式都變換成求和的形式，可以發(fā)現(xiàn)二者只相差一個乘積項，Gini指數(shù)是 1-p，信息熵是-log(p)，就是這么一點點差別。

Gini指數(shù)的另一種說法是不純度（impurity），Gini指數(shù)越大，不確定性越大，數(shù)據(jù)越混亂，不純度越高。

筆者沒研究過信息熵和Gini指數(shù)的發(fā)跡史，但可以猜測，Gini指數(shù)和信息熵很可能是不同領(lǐng)域的研究者分別建立的評價不確定性的指標(biāo)，從含義上看，二者殊途同歸。在實際使用時，往往用Gini指數(shù)來構(gòu)造CART。

總結(jié)

以上是生活随笔為你收集整理的熵互信息 Gini指数和不纯度的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：李念老公多大（李念个人资料老公多大）
下一篇：晚上吃姜赛砒霜（晚上喝生姜结果丧命了）

综合教程

熵 互信息 Gini指数 和 不纯度

信息熵

條件熵

互信息

Gini指數(shù)

總結(jié)

熵互信息 Gini指数和不纯度