日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(四)决策树

發布時間:2024/4/14 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习(四)决策树 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、信息熵

首先給出信息熵的定義如下\[H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) \]
1、無約束條件時,均勻分布熵最大
2、若給定分布的期望和方差,則正態分布的熵最大

二、決策樹是什么

決策樹就是下圖所示的東西

三、決策樹

1、幾個名詞:

1、訓練數據集:D
2、數據的標簽有K種,即有K個類,記為\(C_{k}\)
3、數據有多個特征,其中有某一個特征叫A,這個A特征有n個取值,記所有A特征取值為i的數據的集合為\(D_{i}\)
4、在子集\(D_{i}\)中屬于第k個類的樣本集合記為\(D_{ik}\)
定義如下兩個量:
\[H\left( D\right) =\sum ^{K}_{k=1}\dfrac {\left| C_{k}\right| }{\left| D\right| }\log\dfrac {\left| C_{k}\right| }{\left| D\right| }\]
\[H\left( D| A\right) =-\sum ^{n}_{i=1}\dfrac {\left| Di\right| }{\left| D\right| }\sum ^{K}_{k=1}\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right| }log\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right|}\]

2、評估指標

根據以上定義的量,定義如下幾個評估指標:
1、信息增益:\(g(D,A)=H(D)-H(D|A)\)
2、信息增益率:\(g_{r}(D,A)=g(D,A)/H(A)\)
3、基尼系數:\(Gini(p)=1-\sum ^{K}_{k=1}(\dfrac {\left| C_{k}\right| }{\left| D\right| })^{2}\)

3、決策樹算法

常用決策樹算法包括ID3算法、C4.5算法,CART決策樹,它們最重要的不同在于評估指標不同,其中,ID3采用信息增益作為評估指標,C4.5采用信息增益率作為評估指標,CART決策樹采用基尼系數作為評估指標。

我們以ID3為例,它首先掃描所有特征,找出信息增益最大的特征作為其根節點,在對其各個子節點遞歸地進行這個過程,直至達到某個收斂條件。

4、決策樹的目標函數

決策樹的目標函數,或者說決策樹的損失函數為:
\(C(T)=\sum_{t\in leaf}N_{t}\times H(t)\)
其中,\(N_{t}\)代表某一葉結點中包含的樣本數;\(H(t)\)代表該葉結點中的熵

對該目標函數進行正則化后的目標函數為:\(C_{\alpha}(T)=C(T)+\alpha\times|leafs|\),即加上葉節點個數的信息。

轉載于:https://www.cnblogs.com/Yolanda7171/p/7242334.html

總結

以上是生活随笔為你收集整理的机器学习(四)决策树的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。