日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法精讲】集成分类与随机森林

發(fā)布時(shí)間:2025/3/12 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【算法精讲】集成分类与随机森林 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

ONE

集成分類

01

什么是集成分類

集成分類是集成學(xué)習(xí)的一種,先講下集成學(xué)習(xí)是什么。

所謂集成學(xué)習(xí),引用一句諺語“三個(gè)臭皮匠頂個(gè)諸葛亮”最恰當(dāng)不過。

集成學(xué)習(xí)就是將多個(gè)弱學(xué)習(xí)器進(jìn)行組合,最終形成高性能分類器(強(qiáng)學(xué)習(xí)器)的方法。

將集成學(xué)習(xí)放在數(shù)據(jù)分類中,即叫集成分類。

02

集成分類的方法

集成分類有兩種集成學(xué)習(xí)方法:BoostingBagging

Bagging(套袋法)是對(duì)多個(gè)弱分類器獨(dú)立學(xué)習(xí)的方法;

Boosting(提升法)是對(duì)多個(gè)弱學(xué)習(xí)器依次進(jìn)行學(xué)習(xí)的方法。

二者的區(qū)別我們通過下圖來對(duì)比了解一下:

Bagging

Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n,每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù),并分別生成各自的分類器(弱分類器)。其中,隨機(jī)抽取數(shù)據(jù)重新整理樣本的過程叫做自助法(又名:Bootstrapping)。

Step2:將得到的弱學(xué)習(xí)器求平均值,得到強(qiáng)學(xué)習(xí)器。

Boosting

Step:將訓(xùn)練集中的數(shù)據(jù)分別生成學(xué)習(xí)器(多種方法),將初步得到的眾多學(xué)習(xí)器分別匹配一個(gè)權(quán)值1/b(假設(shè)一共有b個(gè)學(xué)習(xí)器),由于訓(xùn)練集已知每個(gè)數(shù)據(jù)的標(biāo)簽,故將分類效果較好的權(quán)值進(jìn)行減小,將分類效果較差的權(quán)值進(jìn)行增大,這樣對(duì)于原來沒有正確分類的樣本有了改進(jìn),經(jīng)過多次迭代后,幾乎所有的樣本都能正確分類了,通過將預(yù)測函數(shù)加權(quán)(另一個(gè)權(quán)值)求和生成高性能學(xué)習(xí)器(強(qiáng)學(xué)習(xí)器)。

注:Boosting中權(quán)值涉及到兩類,一個(gè)是樣本的權(quán)值,一個(gè)是預(yù)測函數(shù)的權(quán)值。

Adaboost:

Boosting中用來進(jìn)行樣本加權(quán)的方法即為Adaboost,全稱Adaptive Boosting(自適應(yīng)加強(qiáng))。

該方法的主要內(nèi)容為:誤差率越小,權(quán)重就越小;誤差率越大,權(quán)重就越大。

集成分類的過程及結(jié)果如圖示:

主要區(qū)別:

1、樣本選擇

Bagging采用的是Bootstrap隨機(jī)有放回抽樣;而Boosting每一輪的訓(xùn)練集是不變的,改變的只是每一個(gè)樣本的權(quán)重。

2、樣本權(quán)重

Bagging使用的是均勻取樣,每個(gè)樣本權(quán)重相等;Boosting根據(jù)錯(cuò)誤率調(diào)整樣本權(quán)重,錯(cuò)誤率越大的樣本權(quán)重越大。

3、預(yù)測函數(shù)

Bagging所有的預(yù)測函數(shù)的權(quán)重相等;Boosting中誤差越小的預(yù)測函數(shù)其權(quán)重越大。

4、并行計(jì)算

Bagging各個(gè)預(yù)測函數(shù)可以并行生成;Boosting各個(gè)預(yù)測函數(shù)必須按順序迭代生成。

TWO

弱分類器

01

剪枝分類器與決策樹分類器

剪枝分類器是弱分類器的一種,將輸入進(jìn)去n維數(shù)據(jù)任選其中一維,與之前設(shè)定好的閾值進(jìn)行比較,從而進(jìn)行分類。

將剪枝分類器進(jìn)行一層層積累,就得到決策樹分類器。

02

弱分類器與集成學(xué)習(xí)方法結(jié)合

下面是將決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法:

1)Bagging + 決策樹 = 隨機(jī)森林

2)AdaBoost + 決策樹 = 提升樹

3)Gradient Boosting + 決策樹 = GBDT

03

隨機(jī)森林(RF)

下面部分著重講一下隨機(jī)森林,這也在師兄所講論文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作為預(yù)測的最后一個(gè)環(huán)節(jié)。

決策樹分類器(弱分類器)+Bagging(集成學(xué)習(xí)方法)=隨機(jī)森林

在將得到的多組抽取到的n個(gè)數(shù)據(jù)分別生成弱分類器的時(shí)候,應(yīng)用決策樹分類器。應(yīng)用處在以下加粗部分:

Bagging:

Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n,每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù),并分別生成各自的分類器(弱分類器)。

Step2:將得到的弱學(xué)習(xí)器求平均值,得到強(qiáng)學(xué)習(xí)器。

在剛才提到的太陽能輻射預(yù)測值相關(guān)那篇論文中,首先將時(shí)間序列分為訓(xùn)練集和測試集,將訓(xùn)練集用過MEMD進(jìn)行分解,提取特征值,再通過SVD奇異值分解進(jìn)行降維,進(jìn)而保留最相關(guān)特征,最后一步通過隨機(jī)森林將最相關(guān)特征輸入,建立強(qiáng)學(xué)習(xí)器(預(yù)測模型)。

上面提到的涉及RF的這篇論文近幾天將完成精講的編寫。

如有錯(cuò)誤請(qǐng)多多指正。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載本站qq群955171419,加入微信群請(qǐng)掃碼:

總結(jié)

以上是生活随笔為你收集整理的【算法精讲】集成分类与随机森林的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。