决策树算法框架
決策樹算法框架
(一)決策樹主函數
????????各種決策樹的主函數都大同小異,本質上是一個遞歸函數。該函數的主要功能是按照某種規則生長決策樹的各個分支節點,并根據終止條件結束算法。一般來講,主函數需要完成如下幾個功能。
(1)輸入需要分類的數據集和類別標簽。
(2)根據某種分類規則得到最優的劃分特征,并創建特征的劃分節點----計算最優特征子函數。
(3)按照該特征的每個取值劃分數據集為若干部分------劃分數據集子函數。
(4)根據劃分子函數的計算結果構建出新的節點,作為樹生長出的新分支。
(5)檢驗是否符合遞歸的終止條件。
(6)將劃分的新節點包含的數據集和類別標簽作為輸入,遞歸執行上述步驟。
(二)計算最優特征子函數
????????計算最優特征子函數是除主函數外最重要的函數。每種決策樹之所以不同,一般都是因為最優特征選擇的標準上有所差異,不同的標準導致不同類型的決策樹,例如ID3的最優特征選擇是信息增益、C4.5是信息增益率、CART是節點方差的大小等。后面所講的理論部分,都是針對特征選擇標準而言的。
????????在算法邏輯上,一般選擇最優特征需要遍歷整個數據集,評估每個特征,找到最優的那一個特征返回。
(三)劃分數據集函數
????????劃分數據集函數的主要功能是分隔數據集,有的需要刪除某個特征軸所在的數據列,返回剩余的數據集;有的干脆將數據集一分為二,雖然實現有所不同,但基本含義都是一致的。
(四)分類器
????????所有的機器學習算法都要用于分類或回歸預測。決策樹的分類器就是通過遍歷整個決策樹,使測試集數據找到決策樹中葉子節點對應的類別標簽。這個標簽就是返回的結果。
上述四大部分構成了決策樹算法的基本框架。
總結
- 上一篇: wget for windows 下载与
- 下一篇: 图像处理:给验证码图片做降噪处理及数据清