日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

xgboost算法_xgboost算法原理篇

發布時間:2024/3/26 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 xgboost算法_xgboost算法原理篇 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1, 概述部分

這篇文章,主要來介紹一下xgboost的理論部分,可能會不夠詳細,由于xgboost算法相比較前三篇文章中提到的算法更加復雜,這里主要講解一下損失函數正則化,切分點查找算法及其優化,葉子結點取值的確定,至于稀疏感知算法,并行化算法設計部分的內容,目前還沒搞太明白,先不講述,想詳細學習xgboost算法原理的同學建議讀原始論文:

xgboost也是一種提升策略,基學習器為(CART)回歸樹,對每個樣本的預測結果為每棵樹預測結果相加,與GBDT一樣仍為加法模型。

2, 原理講解

給定數據集,

個樣本 維特征, ,模型的輸出為

表示我們所有建立的決策樹的集合, 為第 棵樹, 表示第 棵樹對樣本 的預測結果。

我們的目標是要優化下面這個損失函數

為超參數; 為決策樹的葉子節點數, 為葉子結點取值向量。增加 是為了防止葉子結點過多,導致模型過擬合;增加 項是為了防止葉子節點取值極端化(防止某棵樹學習的太多,過擬合), 為一個二階可導函數,用來評價預測值與真實值的差距。

boosting的學習策略是學習當前最優模型,在此算法中即學習當前最優的決策樹。

即求以下形式損失函數的最小值(前

輪的決策樹已找到最優的,找第 棵最優決策樹)

其中第二步用到了泰勒二階展開,

, .

若樹的結構已經確定,則損失函數的值只與

有關,怎么給 取值,使得損失函數能達到最小呢,哦,求導等于0,嘻嘻,求吧,

帶入得:

,找到使得此式最小的決策樹,此時葉子結點的值已經計算出。而最優的決策樹到底怎么找呢,它又不是一個數值,而是一個樹。記住這個求損失函數最小值的過程,它也是構造樹中重要的步驟。

在構建決策樹中,最主要的就是在每個節點找到最優分裂點,最優切分點的選擇方法與傳統的CART選取方法不同,主要思想簡述為,選取分裂后損失函數減小最多的那個切分點為最優切分點,即選擇使

最大的切分點,其中

為左分支的樣本集, 為右分支上的數據集, 為此節點上的數據集。由于節點一分為二,因此剩下一個 。按照這種方法分裂下去,知道達到終止條件,得到的樹的損失函數為最小。

具體方法有兩種,第一種為精確貪心算法,思路為:將特征值排序后,遍歷每一個值,將每一個值做為切分點,計算

值(不一定每一個節點分裂時,都要計算,但是葉子結點處一定要計算),計算 值,將每一個特征的每一個值的 計算出來,找到最大的值對應的特征值作為最優切分點。

原論文中給的此算法偽代碼

由于精確列舉特征比較消耗時間,尤其是當樣本量大的時候。文中有提到一個近似算法,對每個特征尋找幾個候選切分點來進行最優切分點的選擇,候選切分點的確定問題我們一會再講。

近似算法偽代碼如下

切分點的選擇方法如下(其中一種)(不想打公式了,直接借圖)

代碼實現,我們直接調用XGBClassifier

import

訓練集準確率:1.0
測試集準確率:1.0

(好像有點問題????)

關于調參問題,我再好好看看,學習一下,下篇文章整理一下。

參考的兩篇博客:CSDN-專業IT技術社區-登錄

CSDN-專業IT技術社區-登錄

總結

以上是生活随笔為你收集整理的xgboost算法_xgboost算法原理篇的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。