通俗讲清楚为什么使用信息熵增益比而不是信息熵增益?
來舉個簡單的例子:
數據集D(出去玩是標簽)
A代表屬性,A=心情、天氣
心情 天氣 出去玩
好 晴朗 玩
不好 下雨 不玩
不好 刮風 不玩
好了 ,現在建立決策樹,根節點是啥?
第一種方式(信息熵增益):
令A=天氣
總熵S(D)=?13log213?23log223=0.918-\frac{1}{3}log_{2}\frac{1}{3}-\frac{2}{3}log_{2}\frac{2}{3}=0.918?31?log2?31??32?log2?32?=0.918
條件熵S(D|A)=13?0+13?0+13?0=0\frac{1}{3}·0+\frac{1}{3}·0+\frac{1}{3}·0=031??0+31??0+31??0=0
g(D,A)=S(D)-S(D|A)=0.918
令A=心情
總熵S(D)=?13log213?23log223=0.918-\frac{1}{3}log_{2}\frac{1}{3}-\frac{2}{3}log_{2}\frac{2}{3}=0.918?31?log2?31??32?log2?32?=0.918
條件熵S(D|A)=13?0+23?0=0\frac{1}{3}·0+\frac{2}{3}·0=031??0+32??0=0
g(D,A)=S(D)-S(D|A)=0.918
現在選擇哪一個呢?
顯然定不下來。
----------------計算心情的信息熵增益率-------------
A=心情時,特征熵=13log213+23log223=0.918\frac{1}{3}log_{2}\frac{1}{3}+\frac{2}{3}log_{2}\frac{2}{3}=0.91831?log2?31?+32?log2?32?=0.918
A=天氣時,特征熵=?3?13log213=1.5849-3·\frac{1}{3}log_{2}\frac{1}{3}=1.5849?3?31?log2?31?=1.5849
那么此時特征A的信息熵增益率是0.9181.5849=0.58\frac{0.918}{1.5849}=0.581.58490.918?=0.58
結論,可以看到,使用信息熵增益率可以更好地對數據集進行劃分
讓劃分更加符合實際情況。
因為顯然,刮風天出不出去玩是看心情的。
總結
以上是生活随笔為你收集整理的通俗讲清楚为什么使用信息熵增益比而不是信息熵增益?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ID3的REP(Reduced Erro
- 下一篇: ubuntu16.04終端補全忽略大小寫