當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

在envi做随机森林_随机森林原理

發(fā)布時間：2025/3/19 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了在envi做随机森林_随机森林原理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

隨機森林由Leo Breiman（2001）提出的一種分類算法，它通過自助法（bootstrap）重采樣技術(shù)，從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹，然后按以上步驟生成m棵決策樹組成隨機森林，新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分數(shù)而定。

其實質(zhì)是對決策樹算法的一種改進，將多個決策樹合并在一起，每棵樹的建立依賴于獨立抽取的樣本。

單棵樹的分類能力可能很小，但在隨機產(chǎn)生大量的決策樹后，一個測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。

一、隨機森林大致過程如下：

1.從樣本集中有放回隨機采樣選出n個樣本；

2.從所有特征中隨機選擇k個特征，對選出的樣本利用這些特征建立決策樹（一般是CART，也可是別的或混合）；

3.重復以上兩步m次，即生成m棵決策樹，形成隨機森林；

4.對于新數(shù)據(jù)，經(jīng)過每棵樹決策，最后投票確認分到哪一類。

二、隨機森林特點：隨機森林有很多優(yōu)點：

1）每棵樹都選擇部分樣本及部分特征，一定程度避免過擬合；

2）每棵樹隨機選擇樣本并隨機選擇特征，使得具有很好的抗噪能力，性能穩(wěn)定；

3）能處理很高維度的數(shù)據(jù)，并且不用做特征選擇；

4）適合并行計算；

5）實現(xiàn)比較簡單；

缺點：

1）參數(shù)較復雜；

2）模型訓練和預測都比較慢。

三、使用：

隨機森林算法在大部分數(shù)據(jù)處理軟件中都有實現(xiàn)，使用時可以直接調(diào)用，只需指定所需參數(shù)。隨機森林模型訓練前要設(shè)置的參數(shù)較多，按PAI平臺的實現(xiàn)有如下幾個：

o 算法類型：（可選）可供選擇的算法類型有id3算法、cart算法、c4.5算法以及默認情況下的將上述三種算法均分的混合算法 o 樹的數(shù)目：森林中樹的個數(shù), 范圍(0, 1000] o 隨機屬性個數(shù)：（可選）單顆樹在生成時，每次選擇最優(yōu)特征，隨機的特征個數(shù)。

可供選擇的類型有l(wèi)ogN，N/3，sqrtN，N四種類型，其中N為屬性總數(shù) o 樹最大深度：（可選）單顆樹的最大深度，范圍[1, ∞)，-1表示完全生長。

o 葉子節(jié)點最少記錄數(shù)：（可選）葉節(jié)點數(shù)據(jù)的最小個數(shù)。最小個數(shù)為2 o 葉子節(jié)點最少記錄百分比：（可選）葉節(jié)點數(shù)據(jù)個數(shù)占父節(jié)點的最小比例，范圍[0,100]，-1表示無限制。默認-1 o 每棵樹最大記錄數(shù)：（可選）森林中單顆樹輸入的隨機數(shù)據(jù)的個數(shù)。范圍為(1000, 1000000]

四、模型評估：

算法模型建立后需要進行評估，以判斷模型的優(yōu)劣。

一般使用訓練集 (training set) 建立模型，使用測試集 (test set) 來評估模型。

對于分類算法評估指標有分類準確度、召回率、虛警率和精確度等。

而這些指標都是基于混淆矩陣 (confusion matrix) 進行計算的。混淆矩陣用來評價監(jiān)督式學習模型的精確性，矩陣的每一列代表一個類的實例預測，而每一行表示一個實際的類的實例。

總結(jié)

以上是生活随笔為你收集整理的在envi做随机森林_随机森林原理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ansys参数化编程与命令手册_查看Ba
下一篇： flutter 图片转base64_京东