日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

决策树 C4.5 理解要点

發布時間:2024/4/15 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 决策树 C4.5 理解要点 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹的主要過程首先用根節點代表一個給定的數據集;然后從根節點開始(包括根節點)在每個節點上選擇一個屬性,使結點數據集劃分(一棵樹分裂為幾棵樹)為更小的子集(子樹);直到使用某個屬性,其子集中所有樣本都屬于一個類別,才停止分裂。

這里面需要注意的是如何尋找分裂點,C4.5區別于ID3算法之一在于分裂點選擇信息增益率最大的方式。 為什么選擇信息增益率而不是信息增益?因為如果僅僅用信息增益,則一個屬性具有較多不同值往往容易有較大的信息增益,因此比較容易成為分裂點特征。舉個例子比如客戶ID,這個特征幾乎每行都有不同值,如果將其作為分裂點顯然會有overfit的問題

C4.5是可以支持特征是離散變量或者連續變量,

對于離散變量A,如果選擇屬性A劃分數據集S, 其在S上的信息熵計算為

?

?對于連續型數據A,則按屬性A的取值遞增排序,將每對相鄰值的中點看作可能的分裂點,對每個可能的分裂點,計算:

?

最后計算信息增益率,選擇增益率最大的節點作為分裂點,信息增益率將分裂信息作為分母,屬性取值數目越大,分裂信息值越大,從而部分抵消了屬性取值數目所帶來的影響

?

?

??

?

轉載于:https://www.cnblogs.com/datawang/p/6362521.html

超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的决策树 C4.5 理解要点的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。