机器学习(四)决策树
一、信息熵
首先給出信息熵的定義如下\[H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) \]
1、無約束條件時,均勻分布熵最大
2、若給定分布的期望和方差,則正態分布的熵最大
二、決策樹是什么
決策樹就是下圖所示的東西
三、決策樹
1、幾個名詞:
1、訓練數據集:D
2、數據的標簽有K種,即有K個類,記為\(C_{k}\)
3、數據有多個特征,其中有某一個特征叫A,這個A特征有n個取值,記所有A特征取值為i的數據的集合為\(D_{i}\)
4、在子集\(D_{i}\)中屬于第k個類的樣本集合記為\(D_{ik}\)
定義如下兩個量:
\[H\left( D\right) =\sum ^{K}_{k=1}\dfrac {\left| C_{k}\right| }{\left| D\right| }\log\dfrac {\left| C_{k}\right| }{\left| D\right| }\]
\[H\left( D| A\right) =-\sum ^{n}_{i=1}\dfrac {\left| Di\right| }{\left| D\right| }\sum ^{K}_{k=1}\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right| }log\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right|}\]
2、評估指標
根據以上定義的量,定義如下幾個評估指標:
1、信息增益:\(g(D,A)=H(D)-H(D|A)\)
2、信息增益率:\(g_{r}(D,A)=g(D,A)/H(A)\)
3、基尼系數:\(Gini(p)=1-\sum ^{K}_{k=1}(\dfrac {\left| C_{k}\right| }{\left| D\right| })^{2}\)
3、決策樹算法
常用決策樹算法包括ID3算法、C4.5算法,CART決策樹,它們最重要的不同在于評估指標不同,其中,ID3采用信息增益作為評估指標,C4.5采用信息增益率作為評估指標,CART決策樹采用基尼系數作為評估指標。
我們以ID3為例,它首先掃描所有特征,找出信息增益最大的特征作為其根節點,在對其各個子節點遞歸地進行這個過程,直至達到某個收斂條件。
4、決策樹的目標函數
決策樹的目標函數,或者說決策樹的損失函數為:
\(C(T)=\sum_{t\in leaf}N_{t}\times H(t)\)
其中,\(N_{t}\)代表某一葉結點中包含的樣本數;\(H(t)\)代表該葉結點中的熵
對該目標函數進行正則化后的目標函數為:\(C_{\alpha}(T)=C(T)+\alpha\times|leafs|\),即加上葉節點個數的信息。
轉載于:https://www.cnblogs.com/Yolanda7171/p/7242334.html
總結
以上是生活随笔為你收集整理的机器学习(四)决策树的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 倒腾了一天的笔记-centos 部署ja
- 下一篇: velocity 的 escape实现