當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【算法精讲】集成分类与随机森林

發(fā)布時(shí)間：2025/3/12 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了【算法精讲】集成分类与随机森林小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

ONE

集成分類

什么是集成分類

集成分類是集成學(xué)習(xí)的一種，先講下集成學(xué)習(xí)是什么。

所謂集成學(xué)習(xí)，引用一句諺語“三個(gè)臭皮匠頂個(gè)諸葛亮”最恰當(dāng)不過。

集成學(xué)習(xí)就是將多個(gè)弱學(xué)習(xí)器進(jìn)行組合，最終形成高性能分類器（強(qiáng)學(xué)習(xí)器）的方法。

將集成學(xué)習(xí)放在數(shù)據(jù)分類中，即叫集成分類。

集成分類的方法

集成分類有兩種集成學(xué)習(xí)方法：Boosting和Bagging。

Bagging（套袋法）是對(duì)多個(gè)弱分類器獨(dú)立學(xué)習(xí)的方法；

Boosting（提升法）是對(duì)多個(gè)弱學(xué)習(xí)器依次進(jìn)行學(xué)習(xí)的方法。

二者的區(qū)別我們通過下圖來對(duì)比了解一下：

Bagging

Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n，每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù)，并分別生成各自的分類器（弱分類器）。其中，隨機(jī)抽取數(shù)據(jù)重新整理樣本的過程叫做自助法（又名：Bootstrapping）。

Step2:將得到的弱學(xué)習(xí)器求平均值，得到強(qiáng)學(xué)習(xí)器。

Boosting

Step：將訓(xùn)練集中的數(shù)據(jù)分別生成學(xué)習(xí)器（多種方法），將初步得到的眾多學(xué)習(xí)器分別匹配一個(gè)權(quán)值1/b（假設(shè)一共有b個(gè)學(xué)習(xí)器），由于訓(xùn)練集已知每個(gè)數(shù)據(jù)的標(biāo)簽，故將分類效果較好的權(quán)值進(jìn)行減小，將分類效果較差的權(quán)值進(jìn)行增大，這樣對(duì)于原來沒有正確分類的樣本有了改進(jìn)，經(jīng)過多次迭代后，幾乎所有的樣本都能正確分類了，通過將預(yù)測函數(shù)加權(quán)（另一個(gè)權(quán)值）求和生成高性能學(xué)習(xí)器（強(qiáng)學(xué)習(xí)器）。

注：Boosting中權(quán)值涉及到兩類，一個(gè)是樣本的權(quán)值，一個(gè)是預(yù)測函數(shù)的權(quán)值。

Adaboost：

Boosting中用來進(jìn)行樣本加權(quán)的方法即為Adaboost，全稱Adaptive Boosting(自適應(yīng)加強(qiáng))。

該方法的主要內(nèi)容為：誤差率越小，權(quán)重就越小；誤差率越大，權(quán)重就越大。

集成分類的過程及結(jié)果如圖示：

主要區(qū)別：

1、樣本選擇

Bagging采用的是Bootstrap隨機(jī)有放回抽樣；而Boosting每一輪的訓(xùn)練集是不變的，改變的只是每一個(gè)樣本的權(quán)重。

2、樣本權(quán)重

Bagging使用的是均勻取樣，每個(gè)樣本權(quán)重相等；Boosting根據(jù)錯(cuò)誤率調(diào)整樣本權(quán)重，錯(cuò)誤率越大的樣本權(quán)重越大。

3、預(yù)測函數(shù)

Bagging所有的預(yù)測函數(shù)的權(quán)重相等；Boosting中誤差越小的預(yù)測函數(shù)其權(quán)重越大。

4、并行計(jì)算

Bagging各個(gè)預(yù)測函數(shù)可以并行生成；Boosting各個(gè)預(yù)測函數(shù)必須按順序迭代生成。

TWO

弱分類器

剪枝分類器與決策樹分類器

剪枝分類器是弱分類器的一種，將輸入進(jìn)去n維數(shù)據(jù)任選其中一維，與之前設(shè)定好的閾值進(jìn)行比較，從而進(jìn)行分類。

將剪枝分類器進(jìn)行一層層積累，就得到決策樹分類器。

弱分類器與集成學(xué)習(xí)方法結(jié)合

下面是將決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法：

1）Bagging + 決策樹 = 隨機(jī)森林

2）AdaBoost + 決策樹 = 提升樹

3）Gradient Boosting + 決策樹 = GBDT

隨機(jī)森林（RF）

下面部分著重講一下隨機(jī)森林，這也在師兄所講論文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作為預(yù)測的最后一個(gè)環(huán)節(jié)。

決策樹分類器（弱分類器）+Bagging（集成學(xué)習(xí)方法）=隨機(jī)森林

在將得到的多組抽取到的n個(gè)數(shù)據(jù)分別生成弱分類器的時(shí)候，應(yīng)用決策樹分類器。應(yīng)用處在以下加粗部分：

Bagging:

Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n，每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù)，并分別生成各自的分類器（弱分類器）。

Step2:將得到的弱學(xué)習(xí)器求平均值，得到強(qiáng)學(xué)習(xí)器。

在剛才提到的太陽能輻射預(yù)測值相關(guān)那篇論文中，首先將時(shí)間序列分為訓(xùn)練集和測試集，將訓(xùn)練集用過MEMD進(jìn)行分解，提取特征值，再通過SVD奇異值分解進(jìn)行降維，進(jìn)而保留最相關(guān)特征，最后一步通過隨機(jī)森林將最相關(guān)特征輸入，建立強(qiáng)學(xué)習(xí)器（預(yù)測模型）。

上面提到的涉及RF的這篇論文近幾天將完成精講的編寫。

如有錯(cuò)誤請(qǐng)多多指正。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載本站qq群955171419，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【算法精讲】集成分类与随机森林的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。