當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

xgboost算法_xgboost算法原理篇

發布時間：2024/3/26 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 xgboost算法_xgboost算法原理篇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1, 概述部分

這篇文章，主要來介紹一下xgboost的理論部分，可能會不夠詳細，由于xgboost算法相比較前三篇文章中提到的算法更加復雜，這里主要講解一下損失函數正則化，切分點查找算法及其優化，葉子結點取值的確定，至于稀疏感知算法，并行化算法設計部分的內容，目前還沒搞太明白，先不講述，想詳細學習xgboost算法原理的同學建議讀原始論文：

xgboost也是一種提升策略，基學習器為（CART）回歸樹，對每個樣本的預測結果為每棵樹預測結果相加，與GBDT一樣仍為加法模型。

2, 原理講解

給定數據集，

個樣本維特征， ,模型的輸出為

表示我們所有建立的決策樹的集合，為第棵樹，表示第棵樹對樣本的預測結果。

我們的目標是要優化下面這個損失函數

為超參數；為決策樹的葉子節點數，為葉子結點取值向量。增加是為了防止葉子結點過多，導致模型過擬合；增加項是為了防止葉子節點取值極端化（防止某棵樹學習的太多，過擬合），為一個二階可導函數，用來評價預測值與真實值的差距。

boosting的學習策略是學習當前最優模型，在此算法中即學習當前最優的決策樹。

即求以下形式損失函數的最小值（前

輪的決策樹已找到最優的，找第棵最優決策樹）

其中第二步用到了泰勒二階展開，

, .

若樹的結構已經確定，則損失函數的值只與

有關，怎么給取值，使得損失函數能達到最小呢，哦，求導等于0，嘻嘻，求吧，

帶入得：

,找到使得此式最小的決策樹，此時葉子結點的值已經計算出。而最優的決策樹到底怎么找呢，它又不是一個數值，而是一個樹。記住這個求損失函數最小值的過程，它也是構造樹中重要的步驟。

在構建決策樹中，最主要的就是在每個節點找到最優分裂點，最優切分點的選擇方法與傳統的CART選取方法不同，主要思想簡述為，選取分裂后損失函數減小最多的那個切分點為最優切分點，即選擇使

最大的切分點，其中

為左分支的樣本集，為右分支上的數據集，為此節點上的數據集。由于節點一分為二，因此剩下一個。按照這種方法分裂下去，知道達到終止條件，得到的樹的損失函數為最小。

具體方法有兩種，第一種為精確貪心算法，思路為：將特征值排序后，遍歷每一個值，將每一個值做為切分點，計算

值（不一定每一個節點分裂時，都要計算，但是葉子結點處一定要計算），計算值，將每一個特征的每一個值的計算出來，找到最大的值對應的特征值作為最優切分點。

原論文中給的此算法偽代碼

由于精確列舉特征比較消耗時間，尤其是當樣本量大的時候。文中有提到一個近似算法，對每個特征尋找幾個候選切分點來進行最優切分點的選擇，候選切分點的確定問題我們一會再講。

近似算法偽代碼如下

切分點的選擇方法如下(其中一種)（不想打公式了，直接借圖）

代碼實現，我們直接調用XGBClassifier

import

訓練集準確率：1.0
測試集準確率：1.0

（好像有點問題？？？？）

關于調參問題，我再好好看看，學習一下，下篇文章整理一下。

參考的兩篇博客：CSDN-專業IT技術社區-登錄

CSDN-專業IT技術社區-登錄

總結

以上是生活随笔為你收集整理的xgboost算法_xgboost算法原理篇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习集成学习进阶Xgboost算法案
下一篇：版图设计概述