日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

熵 互信息 Gini指数 和 不纯度

發(fā)布時間:2023/12/29 综合教程 38 生活家
生活随笔 收集整理的這篇文章主要介紹了 熵 互信息 Gini指数 和 不纯度 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在學(xué)習(xí)決策樹類的算法時,總是繞不開 信息熵、Gini指數(shù)和它們相關(guān)聯(lián)的概念,概念不清楚,就很難理解決策樹的構(gòu)造過程,現(xiàn)在把這些概念捋一捋。

信息熵

信息熵,簡稱熵,用來衡量隨機變量的不確定性大小,熵越大,說明隨機變量的不確定性越大。計算公式如下:

考慮二元分布的情況,當(dāng)取2為對數(shù)底時,可以得到如下的函數(shù)曲線??梢钥吹?,當(dāng)p=0.5時,不確定性最大,熵的值是1,也最大,當(dāng)p=0或1時,沒有不確定性,熵的值最小,是0。

條件熵

我們在分析某個特征對隨機變量的影響時,需要計算條件熵,即隨機變量Y的信息熵相對特征X的條件期望,公式如下:

互信息

互信息,也叫信息增益,是熵和條件熵的差值,g(Y,X) = H(Y) - H(Y|X)。

信息增益的含義是,某一個特征會使得隨機變量的不確定性下降多少。下降的越多,說明這個特征與標(biāo)簽的相關(guān)性越強,分類效果自然越好。在構(gòu)造決策樹時,常用的做法是選擇信息增益更大的特征構(gòu)造分支。

另外,在構(gòu)造決策樹時,信息增益有兩種算法,一是差值(ID3),二是比值(C4.5),比值是差值與特征的信息熵的比例,公式如下所示:

比值比差值能更準(zhǔn)確的反應(yīng)不確定性變化的程度,原因是,如果按差值選取節(jié)點,那些取值數(shù)量更多的特征總是會排在前面,在比值的計算公式中,分母可以度量特征的取值數(shù)量,相當(dāng)于對各個特征做了歸一化,所以不會出現(xiàn),特征取值數(shù)量多,信息增益一定更大的情況。

Gini指數(shù)

Gini指數(shù)和熵類似,都是衡量隨機變量不確定程度的,計算公式是:

Gini指數(shù)有一個比較直觀的解釋:從樣本中任意挑選兩個,兩個樣本屬于不同類別的概率就是Gini指數(shù)。從Gini指數(shù)的定義和解釋就可以發(fā)現(xiàn),它和熵和類似,不確定性越大,Gini指數(shù)和熵也越大。不同點在于Gini指數(shù)的最大值是0.5,不是1。把Gini指數(shù)公式和信息熵公式都變換成求和的形式,可以發(fā)現(xiàn)二者只相差一個乘積項,Gini指數(shù)是 1-p,信息熵是-log(p),就是這么一點點差別。

Gini指數(shù)的另一種說法是不純度(impurity),Gini指數(shù)越大,不確定性越大,數(shù)據(jù)越混亂,不純度越高。

筆者沒研究過信息熵和Gini指數(shù)的發(fā)跡史,但可以猜測,Gini指數(shù)和信息熵很可能是不同領(lǐng)域的研究者分別建立的評價不確定性的指標(biāo),從含義上看,二者殊途同歸。在實際使用時,往往用Gini指數(shù)來構(gòu)造CART。

總結(jié)

以上是生活随笔為你收集整理的熵 互信息 Gini指数 和 不纯度的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。