日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

信息熵与信息增益的理解

發(fā)布時(shí)間:2024/4/18 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息熵与信息增益的理解 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一 信息熵

1948年香農(nóng)提出了信息熵(Entropy)的概念。

假如事件A的分類劃分是(A1,A2,...,An),每部分發(fā)生的概率是(p1,p2,...,pn),那信息熵定義為公式如下:

吳軍在《數(shù)學(xué)之美系列四--怎樣度量信息?》中認(rèn)為信息熵的大小指的的是了解一件事情所需要付出的信息量是多少,這件事的不確定性越大,要搞清它所需要的信息量也就越大,也就是它的信息熵越大。

?

Matrix67在《互聯(lián)網(wǎng)時(shí)代的社會(huì)語(yǔ)言學(xué):基于SNS的文本數(shù)據(jù)挖掘》認(rèn)為信息熵衡量的是在你知道一個(gè)事件的結(jié)果后平均會(huì)給你帶來(lái)多大的信息量。如果一顆骰子的六個(gè)面都是 1 ,投擲它不會(huì)給你帶來(lái)任何新信息,因?yàn)槟阒浪慕Y(jié)果肯定是1,它的信息熵為 - log(1) = 0 。(log是以2為底,lg是以10為底)

?

兩種解釋在不同的應(yīng)用上可以有不同的理解。例如在《文本分類入門(十一)特征選擇方法之信息增益》可以看出在文本分類中對(duì)信息熵的理解是第二種。不過(guò),兩種理解其實(shí)都指出了信息熵的另一個(gè)作用,就是信息熵可以衡量事物的不確定性,這個(gè)事物不確定性越大,信息熵也越大

為何信息熵會(huì)有這樣的作用?為何它的公式這樣表示?所以還需要理解信息量這一的概念。香農(nóng)用“比特”這個(gè)概念來(lái)度量信息量。也即信息量的多少就是比特的多少

拿吳軍舉的例子來(lái)講,32只球隊(duì)共有32種奪冠的可能性,用多少信息量才能包括這32個(gè)結(jié)果?按照計(jì)算機(jī)的二進(jìn)制(只有1和0)表示法,我們知道2^5=32 ,也就是需要5符號(hào)的組合結(jié)果就可以完全表示這32個(gè)變化,而這里的符號(hào)通常稱之為比特。既然是這樣,那么當(dāng)一件事的結(jié)果越不確定時(shí),也就是變化情況越多時(shí),那么你若想涵蓋所有結(jié)果,所需要的比特就要越多,也就是,你要付出的信息量越大,也即信息熵越大。當(dāng)然,每個(gè)變化出現(xiàn)的概率不同,因而在香農(nóng)的公式中才會(huì)用概率,所以信息熵算的是了解這件事所付出的平均信息量。比如這個(gè)例子里假設(shè)32只球隊(duì)奪冠可能性相同,即Pi=1/32 ,那么按照香農(nóng)公式計(jì)算:

entropy(P1,P2,...,P32)=-(1/32)log(1/32)-(1/32)log(1/32)......-(1/32)log(1/32)

????????????????????????????????? =5/32+5/32...+5/32

????????????????????????????????? =(5*32)/32

????????????????????????????????? =5

?

二 信息增益(又稱相對(duì)熵[relative entropy]、k-l散度[Kullback–Leibler divergence]、信息散度[information divergence])

在概率論和信息論中,信息增益是非對(duì)稱的,用以度量?jī)煞N概率分布P和Q的差異。信息增益描述了當(dāng)使用Q進(jìn)行編碼時(shí),再使用P進(jìn)行編碼的差異。通常P代表樣本或觀察值的分布,也有可能是精確計(jì)算的理論分布。Q代表一種理論,模型,描述或者對(duì)P的近似。

詳細(xì)的應(yīng)用實(shí)例可見這篇文章《信息增益》和《歸納決策樹ID3(Java實(shí)現(xiàn))

總結(jié)

以上是生活随笔為你收集整理的信息熵与信息增益的理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。