日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

在envi做随机森林_随机森林原理

發(fā)布時間:2025/3/19 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在envi做随机森林_随机森林原理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

隨機森林由Leo Breiman(2001)提出的一種分類算法,它通過自助法(bootstrap)重采樣技術(shù),從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹,然后按以上步驟生成m棵決策樹組成隨機森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分數(shù)而定。

其實質(zhì)是對決策樹算法的一種改進,將多個決策樹合并在一起,每棵樹的建立依賴于獨立抽取的樣本。

單棵樹的分類能力可能很小,但在隨機產(chǎn)生大量的決策樹后,一個測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。

一、隨機森林大致過程如下:

1.從樣本集中有放回隨機采樣選出n個樣本;

2.從所有特征中隨機選擇k個特征,對選出的樣本利用這些特征建立決策樹(一般是CART,也可是別的或混合);

3.重復以上兩步m次,即生成m棵決策樹,形成隨機森林;

4.對于新數(shù)據(jù),經(jīng)過每棵樹決策,最后投票確認分到哪一類。

二、隨機森林特點: 隨機森林有很多優(yōu)點:

1) 每棵樹都選擇部分樣本及部分特征,一定程度避免過擬合;

2) 每棵樹隨機選擇樣本并隨機選擇特征,使得具有很好的抗噪能力,性能穩(wěn)定;

3) 能處理很高維度的數(shù)據(jù),并且不用做特征選擇;

4) 適合并行計算;

5) 實現(xiàn)比較簡單;

缺點:

1) 參數(shù)較復雜;

2) 模型訓練和預測都比較慢。

三、使用:

隨機森林算法在大部分數(shù)據(jù)處理軟件中都有實現(xiàn),使用時可以直接調(diào)用,只需指定所需參數(shù)。 隨機森林模型訓練前要設(shè)置的參數(shù)較多,按PAI平臺的實現(xiàn)有如下幾個:

o 算法類型:(可選)可供選擇的算法類型有id3算法、cart算法、c4.5算法以及默認情況下的將上述三種算法均分的混合算法 o 樹的數(shù)目:森林中樹的個數(shù), 范圍(0, 1000] o 隨機屬性個數(shù):(可選)單顆樹在生成時,每次選擇最優(yōu)特征,隨機的特征個數(shù)。

可供選擇的類型有l(wèi)ogN,N/3,sqrtN,N四種類型,其中N為屬性總數(shù) o 樹最大深度:(可選)單顆樹的最大深度,范圍[1, ∞),-1表示完全生長。

o 葉子節(jié)點最少記錄數(shù):(可選)葉節(jié)點數(shù)據(jù)的最小個數(shù)。最小個數(shù)為2 o 葉子節(jié)點最少記錄百分比:(可選)葉節(jié)點數(shù)據(jù)個數(shù)占父節(jié)點的最小比例,范圍[0,100],-1表示無限制。默認-1 o 每棵樹最大記錄數(shù):(可選)森林中單顆樹輸入的隨機數(shù)據(jù)的個數(shù)。范圍為(1000, 1000000]

四、模型評估:

算法模型建立后需要進行評估,以判斷模型的優(yōu)劣。

一般使用訓練集 (training set) 建立模型,使用測試集 (test set) 來評估模型。

對于分類算法評估指標有分類準確度、召回率、虛警率和精確度等。

而這些指標都是基于混淆矩陣 (confusion matrix) 進行計算的。 混淆矩陣用來評價監(jiān)督式學習模型的精確性,矩陣的每一列代表一個類的實例預測,而每一行表示一個實際的類的實例。

總結(jié)

以上是生活随笔為你收集整理的在envi做随机森林_随机森林原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。