日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

C4.5决策树算法概念学习

發(fā)布時(shí)間:2025/3/8 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 C4.5决策树算法概念学习 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過(guò)程。

?分類和聚類 ?分類(Classification)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽,再根據(jù)標(biāo)簽來(lái)區(qū)分歸類,類別數(shù)不變。 ?聚類(clustering)是指根據(jù)“物以類聚”的原理,將本身沒(méi)有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇,并且對(duì)每一個(gè)這樣的簇進(jìn)行描述的過(guò)程。 C4.5算法應(yīng)該解決的問(wèn)題有哪些呢? 一、如何選擇測(cè)試屬性構(gòu)造決策樹? 二、對(duì)于連續(xù)變量決策樹中的測(cè)試是怎樣的呢? 三、如何選擇處理連續(xù)變量(閾值)? 四、如何終止樹的增長(zhǎng)? 五、如何確定葉子節(jié)點(diǎn)的類? 決策樹: 如何選擇測(cè)試屬性構(gòu)造決策樹? ?用信息增益率來(lái)選擇屬性 ?這個(gè)指標(biāo)實(shí)際上就等于增益/熵,之所以采用這個(gè)指標(biāo)是為了克服采用增益作為衡量標(biāo)準(zhǔn)的缺點(diǎn),采用增益作為衡量標(biāo)準(zhǔn)會(huì)導(dǎo)致分類樹傾向于優(yōu)先選擇那些具有比較多的分支的測(cè)試,也就是選擇取值較多的屬性,這種傾向需要被抑制。 ?其中,S1到Sc是c個(gè)不同值的屬性A分割S而形成的c個(gè)樣本子集。如按照屬性A把S集(含30個(gè)用例)分成了10個(gè)用例和20個(gè)用例兩個(gè)集合則SplitInfo(S,A)=-1/3*log(1/3)-2/3*log(2/3) ?很明顯,我們看到這個(gè)例子中對(duì)于連續(xù)變量,所有連續(xù)變量的測(cè)試分支都是2條,因此在C4.5算法中,連續(xù)變量的分支總是兩條,分支其測(cè)試分支分別對(duì)應(yīng)著{<=θ,>θ},θ對(duì)應(yīng)著分支閾值,但是這個(gè)θ怎么確定呢? ?很簡(jiǎn)單,把需要處理的樣本(對(duì)應(yīng)根節(jié)點(diǎn))或樣本子集(對(duì)應(yīng)子樹)按照連續(xù)變量的大小從小到大進(jìn)行排序,假設(shè)該屬性對(duì)應(yīng)的不同的屬性值一共有N個(gè),那么總共有N-1個(gè)可能的候選分割閾值點(diǎn),每個(gè)候選的分割閾值點(diǎn)的值為上述排序后的屬性值鏈表中兩兩前后連續(xù)元素的中點(diǎn),那么我們的任務(wù)就是從這個(gè)N-1個(gè)候選分割閾值點(diǎn)中選出一個(gè),使得前面提到的信息論標(biāo)準(zhǔn)最大。舉個(gè)例子,對(duì)于Golf數(shù)據(jù)集,我們來(lái)處理溫度屬性,來(lái)選擇合適的閾值。首先按照溫度大小對(duì)對(duì)應(yīng)樣本進(jìn)行排序如下: ?那么可以看到有13個(gè)可能的候選閾值點(diǎn),比如middle[64,65], middle[65,68]….,middle[83,85]。那么最優(yōu)的閾值該選多少呢?應(yīng)該是middle[71,72],如上圖中紅線所示。為什么呢?如下計(jì)算: ?通過(guò)上述計(jì)算方式,0.939是最大的,因此測(cè)試的增益是最小的。(測(cè)試的增益和測(cè)試后的熵是成反比的,這個(gè)從后面的公式可以很清楚的看到)。根據(jù)上面的描述,我們需要對(duì)每個(gè)候選分割閾值進(jìn)行增益或熵的計(jì)算才能得到最優(yōu)的閾值,我們需要算N-1次增益或熵(對(duì)應(yīng)溫度這個(gè)變量而言就是13次計(jì)算)。能否有所改進(jìn)呢?少算幾次,加快速度。 如何終止樹的增長(zhǎng)? ?前面提到樹的增長(zhǎng)實(shí)際上是一個(gè)遞歸過(guò)程,那么這個(gè)遞歸什么時(shí)候到達(dá)終止條件退出遞歸呢?有兩種方式,第一種方式是如果某一節(jié)點(diǎn)的分支所覆蓋的樣本都屬于同一類的時(shí)候,那么遞歸就可以終止,該分支就會(huì)產(chǎn)生一個(gè)葉子節(jié)點(diǎn).還有一種方式就是,如果某一分支覆蓋的樣本的個(gè)數(shù)如果小于一個(gè)閾值,那么也可產(chǎn)生葉子節(jié)點(diǎn),從而終止樹的增長(zhǎng)。 如何確定葉子節(jié)點(diǎn)的類? ?Tree-Growth終止的方式有2種,對(duì)于第一種方式,葉子節(jié)點(diǎn)覆蓋的樣本都屬于同一類,那么這種情況下葉子節(jié)點(diǎn)的類自然不必多言。對(duì)于第二種方式,葉子節(jié)點(diǎn)覆蓋的樣本未必屬于同一類,直接一點(diǎn)的方法就是,該葉子節(jié)點(diǎn)所覆蓋的樣本哪個(gè)類占大多數(shù),那么該葉子節(jié)點(diǎn)的類別就是那個(gè)占大多數(shù)的類。 借鑒于:大數(shù)據(jù)經(jīng)典算法c4.5講解 創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的C4.5决策树算法概念学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。