xgboost算法_xgboost算法原理篇
1, 概述部分
這篇文章,主要來介紹一下xgboost的理論部分,可能會不夠詳細,由于xgboost算法相比較前三篇文章中提到的算法更加復雜,這里主要講解一下損失函數正則化,切分點查找算法及其優化,葉子結點取值的確定,至于稀疏感知算法,并行化算法設計部分的內容,目前還沒搞太明白,先不講述,想詳細學習xgboost算法原理的同學建議讀原始論文:
xgboost也是一種提升策略,基學習器為(CART)回歸樹,對每個樣本的預測結果為每棵樹預測結果相加,與GBDT一樣仍為加法模型。
2, 原理講解
給定數據集,
個樣本 維特征, ,模型的輸出為 表示我們所有建立的決策樹的集合, 為第 棵樹, 表示第 棵樹對樣本 的預測結果。我們的目標是要優化下面這個損失函數
為超參數; 為決策樹的葉子節點數, 為葉子結點取值向量。增加 是為了防止葉子結點過多,導致模型過擬合;增加 項是為了防止葉子節點取值極端化(防止某棵樹學習的太多,過擬合), 為一個二階可導函數,用來評價預測值與真實值的差距。boosting的學習策略是學習當前最優模型,在此算法中即學習當前最優的決策樹。
即求以下形式損失函數的最小值(前
輪的決策樹已找到最優的,找第 棵最優決策樹)其中第二步用到了泰勒二階展開,
, .若樹的結構已經確定,則損失函數的值只與
有關,怎么給 取值,使得損失函數能達到最小呢,哦,求導等于0,嘻嘻,求吧,帶入得:
,找到使得此式最小的決策樹,此時葉子結點的值已經計算出。而最優的決策樹到底怎么找呢,它又不是一個數值,而是一個樹。記住這個求損失函數最小值的過程,它也是構造樹中重要的步驟。在構建決策樹中,最主要的就是在每個節點找到最優分裂點,最優切分點的選擇方法與傳統的CART選取方法不同,主要思想簡述為,選取分裂后損失函數減小最多的那個切分點為最優切分點,即選擇使
最大的切分點,其中
為左分支的樣本集, 為右分支上的數據集, 為此節點上的數據集。由于節點一分為二,因此剩下一個 。按照這種方法分裂下去,知道達到終止條件,得到的樹的損失函數為最小。具體方法有兩種,第一種為精確貪心算法,思路為:將特征值排序后,遍歷每一個值,將每一個值做為切分點,計算
值(不一定每一個節點分裂時,都要計算,但是葉子結點處一定要計算),計算 值,將每一個特征的每一個值的 計算出來,找到最大的值對應的特征值作為最優切分點。原論文中給的此算法偽代碼由于精確列舉特征比較消耗時間,尤其是當樣本量大的時候。文中有提到一個近似算法,對每個特征尋找幾個候選切分點來進行最優切分點的選擇,候選切分點的確定問題我們一會再講。
近似算法偽代碼如下
切分點的選擇方法如下(其中一種)(不想打公式了,直接借圖)
代碼實現,我們直接調用XGBClassifier
import訓練集準確率:1.0
測試集準確率:1.0
(好像有點問題????)
關于調參問題,我再好好看看,學習一下,下篇文章整理一下。
參考的兩篇博客:CSDN-專業IT技術社區-登錄
CSDN-專業IT技術社區-登錄
總結
以上是生活随笔為你收集整理的xgboost算法_xgboost算法原理篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习集成学习进阶Xgboost算法案
- 下一篇: 版图设计概述