集成方法-概念理解
集成方法(ensemble method)又叫元算法(meta-algorithm):將不同的分類器組合起來(lái)。
通俗的說:就是三個(gè)臭皮匠賽過諸葛亮。做決定時(shí),考慮多個(gè)人的意見,不是一個(gè)人的意見
集成方法:
1. bagging(自舉匯聚法):基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法。并行算法
2. boosting(再學(xué)習(xí)):基于所有分類器的加權(quán)求和的方法。? ? ? ? ? ? ? 串行算法。
bagging:從原始數(shù)據(jù)集選擇S次后得到S個(gè)新數(shù)據(jù)集的一種技術(shù)。新數(shù)據(jù)集和原數(shù)據(jù)集的大小相等。
其實(shí)就是有放回采樣,獲得一個(gè)和原來(lái)大小一樣的新數(shù)據(jù)集。這個(gè)新數(shù)據(jù)集可能會(huì)有重復(fù)值,原始數(shù)據(jù)集的某些值在新數(shù)據(jù)集中可能不在出現(xiàn)。
用這樣的方法構(gòu)建S個(gè)新的數(shù)據(jù)集參與訓(xùn)練,就會(huì)得到S個(gè)分類器。測(cè)試新數(shù)據(jù)時(shí),送到S個(gè)分類器里,得到的結(jié)果投票,數(shù)量最多的就是分類結(jié)果(得民心者得天下)。
boosting:串行訓(xùn)練。第一個(gè)訓(xùn)練完,第二個(gè)在第一個(gè)的基礎(chǔ)上接著訓(xùn)練。重點(diǎn)關(guān)注前面分類器錯(cuò)分的數(shù)據(jù)(說白了就是背鍋俠,前面哥們犯的錯(cuò),后面的去解決)。
目前 bagging 方法最流行的版本是: 隨機(jī)森林(random forest)
選男友:美女選擇擇偶對(duì)象的時(shí)候,會(huì)問幾個(gè)閨蜜的建議,最后選擇一個(gè)綜合得分最高的一個(gè)作為男朋友
目前 boosting 方法最流行的版本是: AdaBoost
追女友:3個(gè)帥哥追同一個(gè)美女,第1個(gè)帥哥失敗->(傳授經(jīng)驗(yàn):姓名、家庭情況) 第2個(gè)帥哥失敗->(傳授經(jīng)驗(yàn):興趣愛好、性格特點(diǎn)) 第3個(gè)帥哥成功
bagging和boosting共同點(diǎn)和差異點(diǎn):
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/gezhuangzhuang/p/10004304.html
總結(jié)
- 上一篇: 调试错误解决方案之VC++
- 下一篇: [react] React的displa