日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

监督学习 | CART 分类回归树原理

發布時間:2025/3/15 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 监督学习 | CART 分类回归树原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • CART 算法
  • 1. CART 生成
    • 1.1 回歸樹生成
      • 最小二乘回歸樹生成算法
    • 1.2 分類樹生成
      • 基尼指數
      • CART 生成算法
  • 參考文獻

相關文章:

機器學習 | 目錄

監督學習 | ID3 決策樹原理及Python實現

監督學習 | ID3 & C4.5 決策樹原理

監督學習 | 決策樹之Sklearn實現

監督學習 | 決策樹之網絡搜索

本文大部分內容搬運自李航老師的《統計學習方法》[1],以給出決策樹算法較為完整的定義,關于決策樹算法的 Sklearn 實現,可以參考這篇文章。

CART 算法

分類與回歸樹(classification and regression tree, CART)模型由 Beriman 等人在 1984 年提出,是應用廣泛的決策樹學習方法,CART 同樣由特征選擇、樹的生成及剪枝組成,既可以用于分類也可以用于回歸,以下將用于分類與回歸的樹統稱為決策樹。

CART 是在給定輸入隨機變量 X 條件下輸出隨機變量 Y 的條件概率分布的學習方法。CART 假設決策樹是二叉樹,內部結點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。這樣的決策樹等價于遞歸地二分每個特征,將輸入空間即特征空間劃分為有限個單元,并在這些單元上確定預測的概率分布,也就是在輸入給定的條件下輸出的條件概率分布。

CART 算法由以下兩部組成:

(1)決策樹生成:基于訓練數據集生成決策樹,生成的決策樹要盡量大;

(2)決策樹剪枝:用驗證數據集對已生成的樹進行剪枝并選擇最優子樹,這是用損失函數最小作為剪枝的標準。

1. CART 生成

決策樹的生成就是遞歸地構建二叉決策樹的過程。對回歸樹用平方誤差最小化準則,對分類樹用基尼指數(Gini index)最小化準則,進行特征選擇,生成二叉樹。

1.1 回歸樹生成

假設 XXXYYY分別是輸入和輸出變量,并且 YYY 是連續變量,給定訓練數據集:

D={(x1,y1),(x2,y2),...,(xN,yN)}D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}D={(x1?,y1?),(x2?,y2?),...,(xN?,yN?)}

一個回歸樹對應著輸入空間(即特征空間)的一個劃分以及在劃分的單元上的輸出值。假設已將輸入空間劃分為 MMM 個單元 R1,R2,...,RMR_1,R_2,...,R_MR1?,R2?,...,RM? 并且在每個單元 RmR_mRm? 上有一個固定的輸出值 CmC_mCm?,于是回歸樹模型可表示為:

f(x)=∑m=1McmI(x∈Rm)(1)f(x)=\sum_{m=1}^M c_mI(x \in R_m) \tag{1}f(x)=m=1M?cm?I(xRm?)(1)

當輸入空間的劃分確定時,可以用平方誤差 ∑xi∈Rm(yi?f(xi))2\sum_{x_i\in R_m}(y_i-f(x_i))^2xi?Rm??(yi??f(xi?))2 來表示回歸樹對于訓練數據的預測誤差,用平方誤差最小的準則求解每個單元上的最優輸出值。

因此,單元 RmR_mRm? 上的 cmc_mcm? 的最優值 c^m\hat{c}_mc^m?RmR_mRm? 上所有輸入實例 xix_ixi? 對應的輸出 yiy_iyi? 的均值,即:

c^m=ave(yi∣xi∈Rm)(2)\hat{c}_m = ave(y_i|x_i \in R_m) \tag{2}c^m?=ave(yi?xi?Rm?)(2)

這里采用啟發式的方法對輸入空間進行劃分:選擇第 jjj 個變量 x(j)x^{(j)}x(j) 和它取的值 sss,作為切分變量(splitting variable)和切分點(splitting point),并定義兩個區域:

R1(j,s)={x∣x(j)≤s}和R2(j,s)={x∣x(j)>s}(3)R_1(j,s)=\{x|x^{(j)}\leq s\} \quad 和 \quad R_2(j,s)=\{x|x^{(j)}> s\} \tag{3}R1?(j,s)={xx(j)s}R2?(j,s)={xx(j)>s}(3)

然后尋找最優切分變量 jjj 和最優切分點 sss

min?j[min?cj∑xi∈R1(j,s)(yi?c1)2+min?cj∑xi∈R2(j,s)(yi?c2)2](4)\min \limits_{j}\bigg[ \min \limits_{c_j} \sum_{x_i\in R_1(j,s)}(y_i-c_1)^2 + \min \limits_{c_j} \sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \bigg] \tag{4}jmin?[cj?min?xi?R1?(j,s)?(yi??c1?)2+cj?min?xi?R2?(j,s)?(yi??c2?)2](4)

對固定輸入變量 jjj 可以找到最優切分點 sss

因此有:

c^1=ave(yi∣xi∈R1(j,s))和c^2=ave(yi∣xi∈R2(j,s))(5)\hat{c}_1=ave(y_i|x_i\in R_1(j,s)) \quad 和 \quad \hat{c}_2=ave(y_i|x_i\in R_2(j,s)) \tag{5}c^1?=ave(yi?xi?R1?(j,s))c^2?=ave(yi?xi?R2?(j,s))(5)

遍歷所有輸入變量,找到最優的切分變量 jjj,構造一個對 (j,s)(j,s)(j,s)。依次將輸入空間劃分為兩個區域。接著,最每個區域重復上述劃分過程,直到滿足停止條件為止,這樣就生成一顆回歸樹。這樣的回歸樹通常稱為最小二乘回歸樹(least squares regression tree)。

最小二乘回歸樹生成算法

輸入:訓練數據集 DDD;

輸出:回歸樹 f(x)f(x)f(x).

在訓練數據集所在的輸入空間中,遞歸地將每個區域劃分為兩個子區域并決定每個子區域熵的輸出值,構建二叉決策樹;

(1)選擇最優切分變量 jjj 和最優切分點 sss,求解:

min?j[min?cj∑xi∈R1(j,s)(yi?c1)2+min?cj∑xi∈R2(j,s)(yi?c2)2](6)\min \limits_{j}\bigg[ \min \limits_{c_j} \sum_{x_i\in R_1(j,s)}(y_i-c_1)^2 + \min \limits_{c_j} \sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \bigg] \tag{6}jmin?[cj?min?xi?R1?(j,s)?(yi??c1?)2+cj?min?xi?R2?(j,s)?(yi??c2?)2](6)

\quad 遍歷變量 jjj,對固定的切分變量 jjj 掃描切分點 sss,選擇使上式達到最小的對 (j,s)(j,s)(j,s)

(2)用選定的對 (j,s)(j,s)(j,s) 劃分區域并決定相應的輸出值:

R1(j,s)={x∣x(j)≤s}R2(j,s)={x∣x(j)>s}(7)R_1(j,s)=\{x|x^{(j)}\leq s\} \quad R_2(j,s)=\{x|x^{(j)}> s\} \tag{7}R1?(j,s)={xx(j)s}R2?(j,s)={xx(j)>s}(7)

c^m=1Nm∑xi∈Rm(j,s)yi,x∈Rm,m=1,2(8)\hat{c}_m=\frac{1}{N_m} \sum_{x_i \in R_m(j,s)}y_i,\quad x\in R_m,\quad m=1,2 \tag{8}c^m?=Nm?1?xi?Rm?(j,s)?yi?,xRm?,m=1,2(8)

(3)繼續對兩個子區域調用步驟 (1),(2),直至滿足停止條件;

(4)將輸入空間劃分為 MMM 個單元 R1,R2,...,RMR_1,R_2,...,R_MR1?,R2?,...,RM? ,生成決策樹:

f(x)=∑m=1McmI(x∈Rm)(9)f(x)=\sum_{m=1}^M c_mI(x \in R_m) \tag{9}f(x)=m=1M?cm?I(xRm?)(9)

1.2 分類樹生成

分類樹用基尼指數選擇最優特征,同時決定該特征的最優二值切分點。

基尼指數

分類問題中,假設有 KKK 個類,樣本點屬于第 kkk 類的概率為 pkp_kpk?,則概率分布的基尼指數定義為:

Gini(p)=∑k=1Kpk(1?pk)=1?∑k=1Kpk2(10)Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2 \tag{10}Gini(p)=k=1K?pk?(1?pk?)=1?k=1K?pk2?(10)

對于二類分類問題,若樣本點屬于第 1 個類的概率是 ppp,則概率分布的基尼指數為:

Gini(p)=2p(1?p)(11)Gini(p)=2p(1-p) \tag{11}Gini(p)=2p(1?p)(11)

對于給定的樣本集合 DDD,其基尼指數為:

Gini(D)=1?∑k=1K(∣Ck∣∣D∣)2(12)Gini(D)=1-\sum_{k=1}^K\bigg(\frac{|C_k|}{|D|} \bigg)^2 \tag{12}Gini(D)=1?k=1K?(DCk??)2(12)

這里,CkC_kCk?DDD 中屬于第 kkk 類的樣本子集,KKK 是類的個數。

如果樣本集合 DDD 根據特征 AAA 是否取某一可能值 α\alphaα 被分割成 D1D_1D1?D2D_2D2? 來那個部分,即:

D1={(x,y)∈D∣A(x)=a},D2=D?D1(13)D_1=\{(x,y)\in D|A(x)=a\}, \quad D_2=D-D_1 \tag{13}D1?={(x,y)DA(x)=a},D2?=D?D1?(13)

則在特征 AAA 的條件下,集合 DDD 的基尼指數定義為:

Gini(D,A)=∣D1∣∣D∣Gini(D1)+∣D2∣∣D∣Gini(D2)(14)Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2) \tag{14}Gini(D,A)=DD1??Gini(D1?)+DD2??Gini(D2?)(14)

基尼指數 Gini(D)Gini(D)Gini(D) 表示集合 DDD 的不確定性,基尼指數值越大,樣本集合的不確定性也就越大,這一點與熵相似。

CART 生成算法

輸入:訓練數據集 DDD,停止計算的條件;

輸出:CART 分類決策樹。

根據訓練數據集,從根結點開始,遞歸地對每個結點進行以下操作,構建二叉決策樹:

(1)設結點的訓練數據集為 DDD,計算現有特征對該數據集的基尼指數。此時,對每一個特征 AAA,對其可能取的每個值 aaa,根據樣本點對 A=aA=aA=a 的測試為“是”或“否”將 DDD 分割成 D1D_1D1?D2D_2D2?兩部分,利用式 (14) 計算 A=aA=aA=a 時的基尼指數;

(2)在所有可能的特征 AAA 以及它們所有可能的切分點 aaa 中,選擇基尼指數最小的特征及其對應的切分點作為最優特征與最優切分點。依最優特征與最優切分點,從現生成兩個子結點,將訓練數據集依特征分配到兩個子結點中去;

(3)對兩個子結點遞歸地調用 (1) ,(2),直到滿足停止條件;

(4)生成 CART 決策樹。

算法停止計算的條件是結點中的樣本個數小于預定閾值,或樣本集的基尼指數小于預定閾值(樣本基本屬于同一類),或者沒有更多特征。

參考文獻

[1] 李航. 統計學習方法[M]. 北京: 清華大學出版社, 2012: 55-66.

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的监督学习 | CART 分类回归树原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩国产色 | 国产视频污在线观看 | 久久久免费看 | 欧美成人区 | 奇米色婷婷| 啪啪导航 | 高清国产一区二区三区四区五区 | 久草视频精品在线 | 国产熟妇搡bbbb搡bbbb搡 | 97香蕉久久夜色精品国产 | 国产ts人妖系列高潮 | 久久禁| 最近中文字幕在线观看 | 国产乱了高清露脸对白 | 久久婷婷一区 | 性欧美在线视频观看 | 被扒开腿一边憋尿一边惩罚 | 午夜精品久久 | 丰满岳跪趴高撅肥臀尤物在线观看 | 日韩精品一区二区三区视频在线观看 | 久操视频在线观看免费 | 国产福利短视频 | 少妇被按摩师摸高潮了 | 97人人草| 91播放在线 | 国产3p露脸普通话对白 | 免费三片在线观看网站v888 | 国产成人tv | 天天尻逼| 91精品在线播放 | 少妇精品一区二区三区 | 涩涩成人网 | 福利视频二区 | 欧美日韩另类一区 | 欧美日韩视频无码一区二区三 | 少妇脚交调教玩男人的视频 | 免费色av | 男女做的视频 | 国产成人精品无码播放 | 精品日韩制服无码久久久久久 | 国产69视频在线观看 | 波多野结衣一区在线 | 噜噜吧噜噜色 | 色老头一区 | 成人深夜小视频 | 色就是色综合 | 日本视频网站在线观看 | 国产一区毛片 | 欧美一级淫 | 欧美色xxxx| 黄色免费毛片 | 久久电影一区二区 | 亚洲综合五月天婷婷丁香 | 精品久久久精品 | 亚洲一区久久 | 五月天超碰 | 天天操操 | 伊人影院在线播放 | 欧美全黄 | 国产无遮挡免费视频 | www成人啪啪18软件 | 床上激情网站 | 波多野结衣久久久久 | 国产乱码精品一区二区 | 日韩视频免费观看高清完整版在线观看 | 久久久久久国产免费a片 | 69视频在线| 夜夜骚av一区二区三区 | 男女视频在线观看免费 | av毛片基地 | www99热| 自拍偷拍av | 亚洲成人精品视频 | 久久久久久久女国产乱让韩 | 精品免费在线 | 国产精品色呦呦 | 大尺度舌吻呻吟声 | 村姑电影在线播放免费观看 | 国产成人在线观看网站 | 91美女在线观看 | 无码人妻一区二区三区av | fc2成人免费视频 | 日韩资源在线观看 | 西西人体做爰大胆gogo | 靠逼动漫 | 国产一区二区精彩视频 | 91在线视频观看 | 欧美特黄一区二区三区 | 性生交大片免费看女人按摩 | 中国av一区二区 | av在线收看 | 国产精品色 | 国产福利精品在线 | 91噜噜噜 | 国产伦理精品 | 国产视频一区在线 | 粉嫩av网站 | 国产精品视频第一页 | 成人交性视频免费看 |