【算法精讲】集成分类与随机森林
ONE
集成分類
01
什么是集成分類
集成分類是集成學(xué)習(xí)的一種,先講下集成學(xué)習(xí)是什么。
所謂集成學(xué)習(xí),引用一句諺語“三個(gè)臭皮匠頂個(gè)諸葛亮”最恰當(dāng)不過。
集成學(xué)習(xí)就是將多個(gè)弱學(xué)習(xí)器進(jìn)行組合,最終形成高性能分類器(強(qiáng)學(xué)習(xí)器)的方法。
將集成學(xué)習(xí)放在數(shù)據(jù)分類中,即叫集成分類。
02
集成分類的方法
集成分類有兩種集成學(xué)習(xí)方法:Boosting和Bagging。
Bagging(套袋法)是對(duì)多個(gè)弱分類器獨(dú)立學(xué)習(xí)的方法;
Boosting(提升法)是對(duì)多個(gè)弱學(xué)習(xí)器依次進(jìn)行學(xué)習(xí)的方法。
二者的區(qū)別我們通過下圖來對(duì)比了解一下:
Bagging
Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n,每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù),并分別生成各自的分類器(弱分類器)。其中,隨機(jī)抽取數(shù)據(jù)重新整理樣本的過程叫做自助法(又名:Bootstrapping)。
Step2:將得到的弱學(xué)習(xí)器求平均值,得到強(qiáng)學(xué)習(xí)器。
Boosting
Step:將訓(xùn)練集中的數(shù)據(jù)分別生成學(xué)習(xí)器(多種方法),將初步得到的眾多學(xué)習(xí)器分別匹配一個(gè)權(quán)值1/b(假設(shè)一共有b個(gè)學(xué)習(xí)器),由于訓(xùn)練集已知每個(gè)數(shù)據(jù)的標(biāo)簽,故將分類效果較好的權(quán)值進(jìn)行減小,將分類效果較差的權(quán)值進(jìn)行增大,這樣對(duì)于原來沒有正確分類的樣本有了改進(jìn),經(jīng)過多次迭代后,幾乎所有的樣本都能正確分類了,通過將預(yù)測函數(shù)加權(quán)(另一個(gè)權(quán)值)求和生成高性能學(xué)習(xí)器(強(qiáng)學(xué)習(xí)器)。
注:Boosting中權(quán)值涉及到兩類,一個(gè)是樣本的權(quán)值,一個(gè)是預(yù)測函數(shù)的權(quán)值。
Adaboost:
Boosting中用來進(jìn)行樣本加權(quán)的方法即為Adaboost,全稱Adaptive Boosting(自適應(yīng)加強(qiáng))。
該方法的主要內(nèi)容為:誤差率越小,權(quán)重就越小;誤差率越大,權(quán)重就越大。
集成分類的過程及結(jié)果如圖示:
主要區(qū)別:
1、樣本選擇
Bagging采用的是Bootstrap隨機(jī)有放回抽樣;而Boosting每一輪的訓(xùn)練集是不變的,改變的只是每一個(gè)樣本的權(quán)重。
2、樣本權(quán)重
Bagging使用的是均勻取樣,每個(gè)樣本權(quán)重相等;Boosting根據(jù)錯(cuò)誤率調(diào)整樣本權(quán)重,錯(cuò)誤率越大的樣本權(quán)重越大。
3、預(yù)測函數(shù)
Bagging所有的預(yù)測函數(shù)的權(quán)重相等;Boosting中誤差越小的預(yù)測函數(shù)其權(quán)重越大。
4、并行計(jì)算
Bagging各個(gè)預(yù)測函數(shù)可以并行生成;Boosting各個(gè)預(yù)測函數(shù)必須按順序迭代生成。
TWO
弱分類器
01
剪枝分類器與決策樹分類器
剪枝分類器是弱分類器的一種,將輸入進(jìn)去n維數(shù)據(jù)任選其中一維,與之前設(shè)定好的閾值進(jìn)行比較,從而進(jìn)行分類。
將剪枝分類器進(jìn)行一層層積累,就得到決策樹分類器。
02
弱分類器與集成學(xué)習(xí)方法結(jié)合
下面是將決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法:
1)Bagging + 決策樹 = 隨機(jī)森林
2)AdaBoost + 決策樹 = 提升樹
3)Gradient Boosting + 決策樹 = GBDT
03
隨機(jī)森林(RF)
下面部分著重講一下隨機(jī)森林,這也在師兄所講論文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作為預(yù)測的最后一個(gè)環(huán)節(jié)。
決策樹分類器(弱分類器)+Bagging(集成學(xué)習(xí)方法)=隨機(jī)森林
在將得到的多組抽取到的n個(gè)數(shù)據(jù)分別生成弱分類器的時(shí)候,應(yīng)用決策樹分類器。應(yīng)用處在以下加粗部分:
Bagging:
Step1:假設(shè)訓(xùn)練集中數(shù)據(jù)個(gè)數(shù)為n,每次從訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)數(shù)據(jù),并分別生成各自的分類器(弱分類器)。
Step2:將得到的弱學(xué)習(xí)器求平均值,得到強(qiáng)學(xué)習(xí)器。
在剛才提到的太陽能輻射預(yù)測值相關(guān)那篇論文中,首先將時(shí)間序列分為訓(xùn)練集和測試集,將訓(xùn)練集用過MEMD進(jìn)行分解,提取特征值,再通過SVD奇異值分解進(jìn)行降維,進(jìn)而保留最相關(guān)特征,最后一步通過隨機(jī)森林將最相關(guān)特征輸入,建立強(qiáng)學(xué)習(xí)器(預(yù)測模型)。
上面提到的涉及RF的這篇論文近幾天將完成精講的編寫。
如有錯(cuò)誤請(qǐng)多多指正。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載本站qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【算法精讲】集成分类与随机森林的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯视频怎么禁止别人登录我的会员
- 下一篇: 搜狐视频怎么开启青少年模式