在envi做随机森林_随机森林原理
隨機森林由Leo Breiman(2001)提出的一種分類算法,它通過自助法(bootstrap)重采樣技術(shù),從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹,然后按以上步驟生成m棵決策樹組成隨機森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分數(shù)而定。
其實質(zhì)是對決策樹算法的一種改進,將多個決策樹合并在一起,每棵樹的建立依賴于獨立抽取的樣本。
單棵樹的分類能力可能很小,但在隨機產(chǎn)生大量的決策樹后,一個測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。
一、隨機森林大致過程如下:
1.從樣本集中有放回隨機采樣選出n個樣本;
2.從所有特征中隨機選擇k個特征,對選出的樣本利用這些特征建立決策樹(一般是CART,也可是別的或混合);
3.重復以上兩步m次,即生成m棵決策樹,形成隨機森林;
4.對于新數(shù)據(jù),經(jīng)過每棵樹決策,最后投票確認分到哪一類。
二、隨機森林特點: 隨機森林有很多優(yōu)點:
1) 每棵樹都選擇部分樣本及部分特征,一定程度避免過擬合;
2) 每棵樹隨機選擇樣本并隨機選擇特征,使得具有很好的抗噪能力,性能穩(wěn)定;
3) 能處理很高維度的數(shù)據(jù),并且不用做特征選擇;
4) 適合并行計算;
5) 實現(xiàn)比較簡單;
缺點:
1) 參數(shù)較復雜;
2) 模型訓練和預測都比較慢。
三、使用:
隨機森林算法在大部分數(shù)據(jù)處理軟件中都有實現(xiàn),使用時可以直接調(diào)用,只需指定所需參數(shù)。 隨機森林模型訓練前要設(shè)置的參數(shù)較多,按PAI平臺的實現(xiàn)有如下幾個:
o 算法類型:(可選)可供選擇的算法類型有id3算法、cart算法、c4.5算法以及默認情況下的將上述三種算法均分的混合算法 o 樹的數(shù)目:森林中樹的個數(shù), 范圍(0, 1000] o 隨機屬性個數(shù):(可選)單顆樹在生成時,每次選擇最優(yōu)特征,隨機的特征個數(shù)。
可供選擇的類型有l(wèi)ogN,N/3,sqrtN,N四種類型,其中N為屬性總數(shù) o 樹最大深度:(可選)單顆樹的最大深度,范圍[1, ∞),-1表示完全生長。
o 葉子節(jié)點最少記錄數(shù):(可選)葉節(jié)點數(shù)據(jù)的最小個數(shù)。最小個數(shù)為2 o 葉子節(jié)點最少記錄百分比:(可選)葉節(jié)點數(shù)據(jù)個數(shù)占父節(jié)點的最小比例,范圍[0,100],-1表示無限制。默認-1 o 每棵樹最大記錄數(shù):(可選)森林中單顆樹輸入的隨機數(shù)據(jù)的個數(shù)。范圍為(1000, 1000000]
四、模型評估:
算法模型建立后需要進行評估,以判斷模型的優(yōu)劣。
一般使用訓練集 (training set) 建立模型,使用測試集 (test set) 來評估模型。
對于分類算法評估指標有分類準確度、召回率、虛警率和精確度等。
而這些指標都是基于混淆矩陣 (confusion matrix) 進行計算的。 混淆矩陣用來評價監(jiān)督式學習模型的精確性,矩陣的每一列代表一個類的實例預測,而每一行表示一個實際的類的實例。
總結(jié)
以上是生活随笔為你收集整理的在envi做随机森林_随机森林原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ansys参数化编程与命令手册_查看Ba
- 下一篇: flutter 图片转base64_京东