當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习算法概述：随机森林逻辑回归

發布時間：2024/8/23 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习算法概述：随机森林逻辑回归小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要：?機器學習算法入門介紹：隨機森林與邏輯回歸！

隨機森林是用于分類和回歸的監督式集成學習模型。為了使整體性能更好，集成學習模型聚合了多個機器學習模型。因為每個模型單獨使用時性能表現的不是很好，但如果放在一個整體中則很強大。在隨機森林模型下，使用大量“弱”因子的決策樹，來聚合它們的輸出，結果能代表“強”的集成。

權衡偏差與方差

在任何機器學習模型中，有兩個誤差來源:偏差和方差。為了更好地說明這兩個概念，假設已創建了一個機器學習模型并已知數據的實際輸出，用同一數據的不同部分對其進行訓練，結果機器學習模型在數據的不同部分產生了不同的輸出。為了確定偏差和方差，對這兩個輸出進行比較，偏差是機器學習模型中預測值與實際值之間的差異，而方差則是這些預測值的分布情況。

簡而言之：

偏差是當算法作了太多簡化假設之后出現的錯誤，這導致模型預測值與實際值有所出入。

方差是由于算法對訓練數據集中小變化的敏感性而產生的誤差;方差越大，意味著算法受數據變化的影響更大。

理想情況下，偏差和方差都會很小，這意味模型在相同數據集的不同數據中的預測值很接近真值。當這種情況發生時，模型可以精確地學習數據集中的潛在模式。

隨機森林是一種減少方差的算法

決策樹以高方差、低偏差為人所知。這主要是因為它能夠對復雜的關系，甚至是過擬合數據中的噪聲進行建模。簡單地說:決策樹訓練的模型通常是精確的，但常常在同一數據集中的不同數據樣本之間顯示出很大程度的變化。

隨機森林通過聚合單個決策樹的不同輸出來減少可能導致決策樹錯誤的方差。通過多數投票算法，我們可以找到大多數單個樹給出的平均輸出，從而平滑了方差，這樣模型就不容易產生離真值更遠的結果。

隨機森林思想是取一組高方差、低偏差的決策樹，并將它們轉換成低方差、低偏差的新模型。

為什么隨機森林是隨機的?

隨機森林中的隨機來源于算法用訓練數據的不同子集訓練每個單獨的決策樹，用數據中隨機選擇的屬性對每個決策樹的每個節點進行分割。通過引入這種隨機性元素，該算法能夠創建彼此不相關的模型。這導致可能的誤差均勻分布在模型中，意味著誤差最終會通過隨機森林模型的多數投票決策策略被消除。

隨機森林實際是如何工作的?

想象一下，你厭倦了一遍又一遍地聽著同樣的電子音樂，強烈地想找到一些可能喜歡的新音樂，所以你上網去尋找推薦，找到了能讓真實的人根據你的喜好給你音樂建議的一個網站。

那么它是如何工作的呢?首先，為了避免建議的隨機性，先填寫一份關于自己的基本音樂喜好的問卷，為可能喜歡的音樂類型提供一個標準。然后網友利用這些信息開始根據你提供的標準(特征)來分析歌曲，此時每個人本質上都是一個決策樹。

就個人而言，網上提出建議的人并不能很好地概括你的音樂喜好。比如，有人可能會認為你不喜歡80年代之前的任何歌曲，因此不會給你推薦這些歌曲。但是這假設可能不準確，并可能會導致你不會收到喜歡的音樂的建議。

為什么會發生這種錯誤?每一個推薦人對你的喜好的了解都是有限的，而且他們對自己個人的音樂品味也是有偏見的。為了解決這個問題，我們統計來自許多個人的建議(每個人都扮演決策樹的角色)，并對他們的建議使用多數投票算法(本質上是創建一個隨機森林)。

然而，還有一個問題——因為每個人都在使用來自同一份問卷的相同數據，因此得出的建議將會是類似的，而且可能具有高度的偏見和相關性。為了擴大建議的范圍，每個推薦人都會得到一組調查問卷的隨機答案，而不是所有的答案，這意味著他們的推薦標準更少。最后，通過多數投票消除了極端異常值，你就會得到一個準確而多樣的推薦歌曲列表。

總結

隨機森林的優點:

1.不需要特征歸一化；

2.可并行化:單個決策樹可以并行訓練；

3.廣泛使用的；

4.減少過擬合；

隨機森林的缺點:

? 1.不容易解釋

? 2.不是最先進的方法

邏輯回歸是一個使用分類因變量預測結果的監督式統計模型。分類變量的值為名稱或標簽，例如:贏/輸、健康/生病或成功/失敗。該模型也可用于兩類以上的因變量，這種情況稱多項邏輯回歸。

邏輯回歸是基于歷史信息構建給定數據集的分類規則，這些數據集被劃分為不同的類別。模型公式為:

相關術語定義如下：

c=1,...,C是因變量Y的所有可能類別；

P(Y=c)是因變量為類別c的概率；

\beta_{{i}},i=1,...,I是回歸系數，當進行轉換時，表示每個變量在解釋概率方面的重要性；

X_{{i}},i=1,...,I是自變量。

我們將使用之前博文中的鳶尾花數據集來說明邏輯回歸是如何工作的。這些數據由150種鳶尾花組成，按照植物種類(這個數據集中有三種不同的種類)、萼片和花瓣長度、萼片和花瓣寬度等特征進行分類，我們僅使用萼片和花瓣來描述每朵鳶尾花。我們還將建立一個分類規則來判斷數據集中引入的新植物的種類。圖1展示了一朵鳶尾的萼片和花瓣的尺寸。

首先，我們必須將數據集分成兩個子集:訓練和測試。訓練集占整個數據集的60%，用于使模型與數據相匹配，測試集占其余40%的數據，用于檢查模型是否與給定的數據正確匹配。

利用上述公式，我們將數據擬合到邏輯回歸模型中。在這種情況下，因變量為植物種類，類別數等于3，自變量(x_{{i}}，i=1，...4\right)是萼片和花瓣的長度和寬度。圖2顯示了數據的一個子集。

表1給出了三種植物中每個自變量系數的估計。顯而易見，花瓣的長度和寬度是特征描述過程中最重要的變量。因此，在每個物種的特征重要性圖中強調了這兩個變量(圖3)。

接下來，我們創建了一個混淆矩陣（誤差矩陣）來檢驗模型的性能。這個矩陣把測試數據集中已知的鳶尾花植物類別與擬合模型預測的鳶尾花植物類別進行比較，我們的目標是兩者相同。在表2中，我們看到模型的性能相對較好，只有兩種花色植物被錯誤分類。

基于這些結果，我們能夠對數據集中的各種鳶尾植物進行正確的分類。然而，正如前面提到的，我們現在必須制定一個分類規則。接著是通過新鳶尾屬植物的自變量值乘以表1中的系數估計來計算新鳶尾植物屬于給定類別的概率，新鳶尾的結果如下表3所示:

然后，我們使用前面的公式計算了鳶尾植物為各個類別的概率。結果證實上述鳶尾植物很可能屬于維吉尼亞鳶尾。

總結

邏輯回歸的優點：

1.可解釋性；

2.模型簡單；

3.可擴展性；

邏輯回歸的缺點：

? 1.假設特征之間的相對獨立性；

原文鏈接?

本文為云棲社區原創內容，未經允許不得轉載。

總結

以上是生活随笔為你收集整理的机器学习算法概述：随机森林逻辑回归的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何在阿里云•对象存储OSS托管用户域名
下一篇：基于OGG Datahub插件将Orac