日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据分析利器:XGBoost算法最佳解析

發(fā)布時(shí)間:2024/2/28 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析利器:XGBoost算法最佳解析 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:symonxiong,騰訊 CDG 應(yīng)用研究員

XGBoost是一種經(jīng)典的集成式提升算法框架,具有訓(xùn)練效率高、預(yù)測(cè)效果好、可控參數(shù)多、使用方便等特性,是大數(shù)據(jù)分析領(lǐng)域的一柄利器。在實(shí)際業(yè)務(wù)中,XGBoost經(jīng)常被運(yùn)用于用戶(hù)行為預(yù)判、用戶(hù)標(biāo)簽預(yù)測(cè)、用戶(hù)信用評(píng)分等項(xiàng)目中。XGBoost算法框架涉及到比較多數(shù)學(xué)公式和優(yōu)化技巧,比較難懂,容易出現(xiàn)一知半解的情況。由于XGBoost在數(shù)據(jù)分析領(lǐng)域?qū)嵲谑翘?jīng)典、太常用,最近帶著敬畏之心,對(duì)陳天奇博士的Paper和XGBoost官網(wǎng)重新學(xué)習(xí)了一下,基于此,本文對(duì)XGBoost算法的來(lái)龍去脈進(jìn)行小結(jié)。

本文重點(diǎn)解析XGBoost算法框架的原理,希望通過(guò)本文能夠洞悉XGBoost核心算法的來(lái)龍去脈。對(duì)于XGBoost算法,最先想到的是Boosting算法。Boosting提升算法是一種有效且被廣泛使用的模型訓(xùn)練算法,XGBoost也是基于Boosting來(lái)實(shí)現(xiàn)。Boosting算法思想是對(duì)弱分類(lèi)器基礎(chǔ)上不斷改進(jìn)提升,并將這些分類(lèi)器集成在一起,形成一個(gè)強(qiáng)分類(lèi)器。簡(jiǎn)而言之,XGBoost算法可以說(shuō)是一種集成式提升算法,是將許多基礎(chǔ)模型集成在一起,形成一個(gè)很強(qiáng)的模型。這里的基礎(chǔ)模型可以是分類(lèi)與回歸決策樹(shù)CART(Classification and Regression Trees),也可以是線(xiàn)性模型。如果基礎(chǔ)模型是CART樹(shù)(如圖1所示),比如第1顆決策樹(shù)tree1預(yù)測(cè)左下角男孩的值為+2,對(duì)于第1顆決策樹(shù)遺留下來(lái)的剩余部分,使用第2顆決策樹(shù)預(yù)測(cè)值為+0.9,則對(duì)男孩的總預(yù)測(cè)值為2+0.9=2.9。

圖1.基于二叉樹(shù)的XGBoost模型

XGBoost算法框架可以分為四個(gè)階段來(lái)理解(如圖2所示)。第一個(gè)階段,如何構(gòu)造目標(biāo)函數(shù)? ?在進(jìn)行優(yōu)化求解時(shí),首先需要構(gòu)造目標(biāo)函數(shù),有了目標(biāo)函數(shù)才能進(jìn)行優(yōu)化求解。這種思路和LR模型(Logistic Regression)是一致。在LR模型中,首先,對(duì)于回歸問(wèn)題構(gòu)造平方項(xiàng)損失,對(duì)于分類(lèi)問(wèn)題構(gòu)造最大似然損失作為目標(biāo)函數(shù),然后基于構(gòu)造好的目標(biāo)函數(shù),才會(huì)考慮采用梯度下降算法進(jìn)行優(yōu)化求解,比如隨機(jī)梯度下降、Mini-Batch批量梯度下降、梯度下降等。在這個(gè)階段,我們可以得到XGBoost的基本目標(biāo)函數(shù)結(jié)構(gòu)。

第二個(gè)階段,目標(biāo)函數(shù)優(yōu)化求解困難,如何對(duì)目標(biāo)函數(shù)近似轉(zhuǎn)換? 在第一個(gè)階段得到的基本目標(biāo)函數(shù)較為復(fù)雜,不是凸函數(shù),沒(méi)法使用連續(xù)性變量對(duì)目標(biāo)函數(shù)直接優(yōu)化求極值。因此,使用泰勒級(jí)數(shù)對(duì)目標(biāo)函數(shù)進(jìn)行展開(kāi),對(duì)目標(biāo)函數(shù)規(guī)整、重組后,將目標(biāo)函數(shù)轉(zhuǎn)換為關(guān)于預(yù)測(cè)殘差的多項(xiàng)式函數(shù)

第三個(gè)階段,如何將樹(shù)的結(jié)構(gòu)引入到目標(biāo)函數(shù)中? 第二個(gè)階段得到的多項(xiàng)式目標(biāo)函數(shù)是一個(gè)復(fù)合函數(shù)。被預(yù)測(cè)的殘差和模型復(fù)雜度還是未知的函數(shù),需要對(duì)這兩個(gè)函數(shù)進(jìn)行參數(shù)化表示,即將決策樹(shù)的結(jié)構(gòu)信息通過(guò)數(shù)學(xué)符號(hào)表示出來(lái)。在第三個(gè)階段,在樹(shù)的形狀確定情況下,可以?xún)?yōu)化求解出局部最優(yōu)解。

第四個(gè)階段,如何確定樹(shù)的形狀,要不要使用貪心算法? 如何在模型空間里面尋找最優(yōu)的決策樹(shù)形狀,這是一個(gè)NP-Hard問(wèn)題,我們很難對(duì)可能存在的樹(shù)結(jié)構(gòu)全部羅列出來(lái),尤其在特征個(gè)數(shù)很多情況下。因此,在這里需要使用貪心算法來(lái)求得局部最優(yōu)解。

圖2.XGBoost算法構(gòu)建邏輯

1.如何構(gòu)造目標(biāo)函數(shù)?

當(dāng)使用多棵樹(shù)來(lái)預(yù)測(cè)時(shí),假設(shè)已經(jīng)訓(xùn)練了棵樹(shù),則對(duì)于第個(gè)樣本的(最終)預(yù)測(cè)值為:

在公式1中, 表示對(duì) 個(gè)樣本的預(yù)測(cè)值,屬于集合范圍內(nèi), 表示通過(guò)第棵樹(shù)對(duì)第個(gè)樣本進(jìn)行預(yù)測(cè),比如第1棵樹(shù)預(yù)測(cè)值為,第2棵樹(shù)預(yù)測(cè)值為 ,依次類(lèi)推,將這些樹(shù)的預(yù)測(cè)值累加到一起,則得到樣本的最終預(yù)測(cè)值。因此,如果要得到樣本的最終預(yù)測(cè)值,需要訓(xùn)練得到棵樹(shù)。

如果要訓(xùn)練得到棵樹(shù),首先需要構(gòu)造訓(xùn)練的目標(biāo)函數(shù)(如公式2所示)。在構(gòu)建模型時(shí),不僅需要考慮到模型的預(yù)測(cè)準(zhǔn)確性,還需要考慮到模型的復(fù)雜程度,既準(zhǔn)確又簡(jiǎn)單的模型在實(shí)際應(yīng)用中的效果才是最好的。因此,目標(biāo)函數(shù)由兩部分構(gòu)成,第一部分表示損失函數(shù),比如平方損失、交叉熵?fù)p失、折頁(yè)損失函數(shù)等。第一部分表示個(gè)樣本總的損失函數(shù)值。因?yàn)樵谶@里通過(guò)樣本預(yù)測(cè)值和樣本真實(shí)值的比較,可以計(jì)算出針對(duì)樣本的模型預(yù)測(cè)損失值。這里可以暫時(shí)先不用考慮損失函數(shù)的具體形式,因?yàn)檫@里的損失函數(shù),可以統(tǒng)一表示回歸與分類(lèi)問(wèn)題的損失函數(shù)形式。

公式2的第二部分表示正則項(xiàng),是用來(lái)控制模型的復(fù)雜度,模型越復(fù)雜,懲罰力度越大,從而提升模型的泛化能力,因?yàn)樵綇?fù)雜的模型越容易過(guò)擬合。XGBoost的正則化思路跟模型中加/正則化思路一致,不同的地方在于正則化項(xiàng)具體物理含義不同。在這里表示第棵樹(shù)的復(fù)雜度,接下來(lái)的問(wèn)題是如何對(duì)樹(shù)的復(fù)雜度進(jìn)行參數(shù)化表示,這樣后面才能進(jìn)行參數(shù)優(yōu)化。

在損失函數(shù)中,是有很多個(gè)模型(決策樹(shù))共同參與,通過(guò)疊加式的訓(xùn)練得到。如圖2所示,訓(xùn)練完第一顆樹(shù)后,對(duì)于第一棵樹(shù)沒(méi)有訓(xùn)練好的地方,使用第二顆樹(shù)訓(xùn)練,依次類(lèi)推,訓(xùn)練第個(gè)棵樹(shù),最后訓(xùn)練第顆樹(shù)。當(dāng)在訓(xùn)練第棵樹(shù)時(shí),前面的第1棵樹(shù)到第顆樹(shù)是已知的,未知的是第棵樹(shù),即基于前面構(gòu)建的決策樹(shù)已知情況下,構(gòu)建第棵樹(shù)

圖3.XGBoost疊加式訓(xùn)練

對(duì)于樣本,首先初始化假定第0棵樹(shù)為,預(yù)測(cè)值為,然后在第0棵樹(shù)基礎(chǔ)上訓(xùn)練第1棵樹(shù),得到預(yù)測(cè)值,在第1棵樹(shù)基礎(chǔ)上訓(xùn)練第2顆樹(shù),又可以得到預(yù)測(cè)值,依次類(lèi)推,當(dāng)訓(xùn)練第棵樹(shù)的時(shí)候,前面棵樹(shù)的總預(yù)測(cè)值為,遞推訓(xùn)練具體過(guò)程如下所示:

根據(jù)XGBoost的遞推訓(xùn)練過(guò)程,每棵決策樹(shù)訓(xùn)練時(shí)會(huì)得到樣本對(duì)應(yīng)的預(yù)測(cè)值,根據(jù)樣本預(yù)測(cè)值和真實(shí)值比較,可以計(jì)算得到模型預(yù)測(cè)損失值。又因?yàn)橛?xùn)練所得的每棵決策樹(shù)都有對(duì)應(yīng)的結(jié)構(gòu)信息,因此可以得到每棵決策樹(shù)的復(fù)雜度。根據(jù)這些信息,可以對(duì)目標(biāo)函數(shù)公式2進(jìn)行簡(jiǎn)化,得到公式3。

在公式3中,表示訓(xùn)練樣本個(gè)數(shù),為顆決策樹(shù)累加的預(yù)測(cè)值,為顆決策樹(shù)總的復(fù)雜度,在訓(xùn)練第顆決策樹(shù)時(shí),這兩個(gè)東西是已知的,即在對(duì)目標(biāo)函數(shù)進(jìn)行求最小值優(yōu)化時(shí)候,和為已知。因此,將常數(shù)項(xiàng)拿掉,得到公式4作為XGBoost的目標(biāo)函數(shù)。

2.目標(biāo)函數(shù)優(yōu)化困難,如何對(duì)函數(shù)近似轉(zhuǎn)換?

在公式4中,已經(jīng)得到了需要優(yōu)化的目標(biāo)函數(shù),這個(gè)目標(biāo)函數(shù)已經(jīng)是簡(jiǎn)化后的函數(shù)。對(duì)于公式4,沒(méi)法進(jìn)行進(jìn)一步優(yōu)化。為了解決目標(biāo)函數(shù)無(wú)法進(jìn)行進(jìn)一步優(yōu)化,XGBoost原文是使用泰勒級(jí)數(shù)展開(kāi)式技術(shù)對(duì)目標(biāo)函數(shù)進(jìn)行近似轉(zhuǎn)換,即使用函數(shù)的1階、2階、3階...階導(dǎo)數(shù)和對(duì)應(yīng)的函數(shù)值,將目標(biāo)函數(shù)進(jìn)行多項(xiàng)式展開(kāi),多項(xiàng)式階數(shù)越多,對(duì)目標(biāo)函數(shù)的近似程度越高。這樣做的好處是便于后面優(yōu)化求解

令,,帶入到目標(biāo)函數(shù)公式4,得到基于二階泰勒展開(kāi)式的函數(shù)(如公式5所示),其中,。

在訓(xùn)練第顆樹(shù)時(shí),目標(biāo)函數(shù)(公式5)中,,、是已知的。因此,可以將已知常數(shù)項(xiàng)去掉,得到進(jìn)一步簡(jiǎn)化后的目標(biāo)函數(shù)(公式6)。、分別表示第顆決策樹(shù)的損失函數(shù)的1階、2階導(dǎo)數(shù)。前面顆決策樹(shù)預(yù)測(cè)后,通過(guò)、將前面第顆決策樹(shù)的預(yù)測(cè)損失信息傳遞給第顆決策樹(shù)。在公式6中,第顆樹(shù)的預(yù)測(cè)函數(shù)、樹(shù)復(fù)雜度函數(shù)對(duì)于我們來(lái)說(shuō),仍然都是未知的,因此需要將其參數(shù)化,通過(guò)參數(shù)形式表示出來(lái),才能進(jìn)行下一步的優(yōu)化求解。

3.如何將樹(shù)結(jié)構(gòu)引入到目標(biāo)函數(shù)中?

接下來(lái)的問(wèn)題是如何對(duì)函數(shù)、進(jìn)行參數(shù)化表示。首先,對(duì)于葉子權(quán)重函數(shù),如圖4所示決策樹(shù),有1號(hào)、2號(hào)、3號(hào)葉子節(jié)點(diǎn),這三個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的取值分別為15,12,20,在1號(hào)葉子節(jié)點(diǎn)上,有{1,3}兩個(gè)樣本,在2號(hào)葉子節(jié)點(diǎn)上,有{4}一個(gè)樣本,在3號(hào)葉子節(jié)點(diǎn)上,有{2,5}兩個(gè)樣本。在這里,使用來(lái)表示決策樹(shù)的葉子權(quán)重值,三個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的葉子權(quán)重值為、、。對(duì)于樣本落在決策樹(shù)葉子節(jié)點(diǎn)的位置信息,使用表示,表示樣本1落在第1個(gè)葉子節(jié)點(diǎn)上,表示樣本1落在第3個(gè)葉子節(jié)點(diǎn)上,表示樣本4落在第2個(gè)葉子節(jié)點(diǎn)上。

圖4.XGBoost決策樹(shù)結(jié)構(gòu)

對(duì)于第顆樹(shù)的葉子權(quán)重函數(shù),根據(jù)葉子權(quán)重值和樣本所在葉子的位置信息,即可確定函數(shù)。因此,我們引入決策樹(shù)葉子權(quán)重值和樣本所在葉子的位置信息兩個(gè)變量,將其參數(shù)化表示成。然而,是一個(gè)函數(shù),作為的下標(biāo)是不利于優(yōu)化求解。因此,這里需要將轉(zhuǎn)化為形式。是根據(jù)樣本落在葉子節(jié)點(diǎn)的位置信息直接遍歷計(jì)算損失函數(shù)。是從葉子節(jié)點(diǎn)的角度,對(duì)每個(gè)葉子節(jié)點(diǎn)中的樣本進(jìn)行遍歷計(jì)算損失函數(shù),其中,表示樹(shù)的葉子節(jié)點(diǎn)。假設(shè),即表示有哪些樣本落在第j個(gè)葉子節(jié)點(diǎn)上,比如表示樣本{1,3}落在葉子節(jié)點(diǎn)1上,表示樣本{4}落在葉子節(jié)點(diǎn)2上,表示樣本{2,5}落在葉子節(jié)點(diǎn)3上(如上文圖4所示)。在這里強(qiáng)調(diào)一下,將轉(zhuǎn)換為形式,是可以從數(shù)學(xué)公式推到得到(比如下式)。根據(jù)樣本所在葉子節(jié)點(diǎn)位置,計(jì)算所有樣本的一階損失得到第一行等式,其中,表示樣本的一階損失,表示樣本對(duì)應(yīng)的葉子節(jié)點(diǎn),表示葉子節(jié)點(diǎn)對(duì)應(yīng)的葉子權(quán)重值。

對(duì)于模型復(fù)雜度,表示第顆樹(shù)的復(fù)雜度。在決策樹(shù)里面,如果要降低樹(shù)的復(fù)雜度,在訓(xùn)練決策樹(shù)時(shí),可以通過(guò)葉子節(jié)點(diǎn)中樣本個(gè)數(shù)、樹(shù)的深度等控制決策樹(shù)的復(fù)雜度。在XGBoost中,是通過(guò)葉子節(jié)點(diǎn)個(gè)數(shù)、樹(shù)的深度、葉子節(jié)點(diǎn)值來(lái)控制模型復(fù)雜度。XGBoost中的決策樹(shù)是分類(lèi)與回歸決策樹(shù)CART(Classification and Regression Trees)。由于CART是二叉樹(shù),控制葉子節(jié)點(diǎn)個(gè)數(shù)等同于控制了樹(shù)的深度。因此,可以使用葉子節(jié)點(diǎn)個(gè)數(shù)來(lái)評(píng)估樹(shù)的復(fù)雜度,即葉子節(jié)點(diǎn)個(gè)數(shù)越多(樹(shù)的深度越深),決策樹(shù)結(jié)構(gòu)越復(fù)雜。對(duì)于葉子節(jié)點(diǎn)值,由于葉子節(jié)點(diǎn)值越大,相當(dāng)于樣本預(yù)測(cè)值分布在較少的幾顆決策樹(shù)的葉子節(jié)點(diǎn)上,這樣容易出現(xiàn)過(guò)擬合。如果葉子節(jié)點(diǎn)值越小,相當(dāng)于預(yù)測(cè)值分布在較多的決策樹(shù)葉子節(jié)點(diǎn)上,每顆決策樹(shù)參與預(yù)測(cè)其中的一小部分,過(guò)擬合的風(fēng)險(xiǎn)被分散。因此,葉子節(jié)點(diǎn)值越大,模型越容易過(guò)擬合,等同于決策樹(shù)的復(fù)雜度越高。綜合起來(lái),如公式7所示,使用葉子節(jié)點(diǎn)個(gè)數(shù)、葉子節(jié)點(diǎn)值評(píng)估第顆決策樹(shù)的復(fù)雜度,其中、為超參數(shù)。如果希望葉子個(gè)數(shù)盡量少,則將值盡量調(diào)大,如果希望葉子權(quán)重值盡量小,則將盡量調(diào)大。

將和公式7帶入目標(biāo)函數(shù)(公式6)中,可以得到參數(shù)化的目標(biāo)函數(shù)(公式8)。在公式8中,在訓(xùn)練第顆決策樹(shù)時(shí),和這兩部分是已知,為超參數(shù)。令,,對(duì)公式8進(jìn)行調(diào)整,此時(shí)得到目標(biāo)函數(shù)是關(guān)于的一元二次拋物線(xiàn),是目標(biāo)函數(shù)最終的參數(shù)化表示形式。拋物線(xiàn)是有極值,對(duì)拋物線(xiàn)求極值可以直接套用拋物線(xiàn)極值公式,求解很方便。

基于公式8,對(duì)目標(biāo)函數(shù)關(guān)于求導(dǎo),可以求得樹(shù)的葉子節(jié)點(diǎn)最優(yōu)的權(quán)重值,如公式9所示。

將等式9帶入到公式8中,計(jì)算得到樹(shù)的目標(biāo)損失值(如等式10),該等式表示決策樹(shù)損失分?jǐn)?shù),分?jǐn)?shù)越小,說(shuō)明樹(shù)的預(yù)測(cè)準(zhǔn)確度越高、復(fù)雜度越低。

4.如何確定樹(shù)的形狀?

這里需要注意到一點(diǎn),樹(shù)的葉子節(jié)點(diǎn)最優(yōu)解和損失函數(shù)極小值是在樹(shù)的形狀給定后的優(yōu)化求解。因此,如果要求得葉子節(jié)點(diǎn)最優(yōu)解和損失函數(shù)極小值,首先需要確定樹(shù)的形狀。如何尋找樹(shù)的形狀?最直接的方式是枚舉所有可能的形狀,然后計(jì)算每種形狀的損失函數(shù),從中選擇損失函數(shù)最小的形狀作為模型訓(xùn)練使用。這樣在樹(shù)的形狀確定后,就可以對(duì)葉子節(jié)點(diǎn)值和損失函數(shù)值進(jìn)行優(yōu)化求解。這種方式在實(shí)際應(yīng)用中一般不會(huì)采用,因?yàn)楫?dāng)樣本的特征集很大時(shí),樹(shù)的形狀個(gè)數(shù)是呈指數(shù)級(jí)增加,計(jì)算這些形狀樹(shù)對(duì)應(yīng)損失函數(shù)需要消耗大量的計(jì)算資源。

為了尋找樹(shù)的形狀,我們一般使用貪心算法來(lái)簡(jiǎn)化計(jì)算,降低計(jì)算的復(fù)雜度。貪心算法是在局部尋找最優(yōu)解,在每一步迭代時(shí),選擇能使當(dāng)前局部最優(yōu)的方向。XGBoost尋找樹(shù)的形狀的思路和傳統(tǒng)決策樹(shù)模型建立樹(shù)的思路一致。比如傳統(tǒng)決策樹(shù)在進(jìn)行節(jié)點(diǎn)分割時(shí),基于信息熵,選擇信息熵下降最大的特征進(jìn)行分割;對(duì)于XGBoost樹(shù)模型,基于損失函數(shù),選擇能讓損失函數(shù)下降最多的特征進(jìn)行分割。如圖5所示,虛線(xiàn)框是已經(jīng)構(gòu)造好的樹(shù)形狀,如果需要在藍(lán)色節(jié)點(diǎn)做進(jìn)一步分裂,此時(shí)需要按照某種標(biāo)準(zhǔn),選擇最好的特征進(jìn)行分割。在這里,XGBoost使用損失函數(shù)下降最大的特征作為節(jié)點(diǎn)分裂。

圖5.XGBoost樹(shù)節(jié)點(diǎn)最佳分割點(diǎn)

根據(jù)公式10,可以計(jì)算到藍(lán)色節(jié)點(diǎn)在分裂前和分裂后的的損失函數(shù)值:。兩式相減,則得到特征如果作為分裂節(jié)點(diǎn)時(shí),所能帶來(lái)的損失函數(shù)下降值大小。因此,依據(jù)如下等式,選擇能使最大的特征作為分裂節(jié)點(diǎn)。

5.其它常見(jiàn)問(wèn)題

關(guān)于XGBoost的常見(jiàn)經(jīng)典問(wèn)題,這類(lèi)問(wèn)題對(duì)于深入理解XGBoost模型很重要,因此,本文對(duì)此也進(jìn)行了梳理小結(jié)。

(1) XGBoost為什么需要對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi)?

根據(jù)XGBoost官網(wǎng)(如圖6所示),目標(biāo)損失函數(shù)之間存在較大的差別,比如平方損失函數(shù)、邏輯損失函數(shù)等。對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi),就是為了統(tǒng)一目標(biāo)函數(shù)的形式,針對(duì)回歸和分類(lèi)問(wèn)題,使得平方損失或邏輯損失函數(shù)優(yōu)化求解,可以共用同一套算法框架及工程代碼。另外,對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi),可以使得XGBoost支持自定義損失函數(shù),只需要新的損失函數(shù)二階可導(dǎo)即可,從而提升算法框架的擴(kuò)展性

圖6.XGBoost目標(biāo)函數(shù)泰勒展開(kāi)式官方解釋

相對(duì)于GBDT的一階泰勒展開(kāi),XGBoost采用二階泰勒展開(kāi),可以更精準(zhǔn)的逼近真實(shí)的損失函數(shù),提升算法框架的精準(zhǔn)性。另外,一階導(dǎo)數(shù)描述梯度的變化方向,二階導(dǎo)數(shù)可以描述梯度變化方向是如何變化的,利用二階導(dǎo)數(shù)信息更容易找到極值點(diǎn)。因此,基于二階導(dǎo)數(shù)信息能夠讓梯度收斂的更快,類(lèi)似于牛頓法比SGD收斂更快。

(2) XGBoost如何進(jìn)行采樣?

XGBoost算法框架,參考隨機(jī)森林的Bagging方法,支持樣本采樣和特征采樣。由于XGBoost里沒(méi)有交代是有放回采樣,認(rèn)為這里的樣本采樣和特征采樣都是無(wú)放回采樣。每次訓(xùn)練時(shí),對(duì)數(shù)據(jù)集采樣,可以增加樹(shù)的多樣性,降低模型過(guò)擬合的風(fēng)險(xiǎn)。另外,對(duì)數(shù)據(jù)集采樣還能減少計(jì)算,加快模型的訓(xùn)練速度。在降低過(guò)擬合風(fēng)險(xiǎn)中,對(duì)特征采樣比對(duì)樣本采樣的效果更顯著。

樣本采樣(如圖7所示),默認(rèn)是不進(jìn)行樣本采樣。樣本的采樣的方式有兩種,一種是認(rèn)為每個(gè)樣本平等水平,對(duì)樣本集進(jìn)行相同概率采樣;另外一種認(rèn)為每個(gè)樣本是不平等,每個(gè)樣本對(duì)應(yīng)的一階、二階導(dǎo)數(shù)信息表示優(yōu)先級(jí),導(dǎo)數(shù)信息越大的樣本越有可能被采到。

圖7.XGBoost樣本采樣

特征采樣(如圖8所示),默認(rèn)對(duì)特征不進(jìn)行采樣。對(duì)特征的采樣方式有三種,第一種是在建立每棵樹(shù)時(shí)進(jìn)行特征采樣;第二種特征采樣范圍是在第一種的基礎(chǔ)上,對(duì)于樹(shù)的每一層級(jí)(樹(shù)的深度)進(jìn)行特征采樣;第三種特征采樣范圍是在第二種的基礎(chǔ)上,對(duì)于每個(gè)樹(shù)節(jié)點(diǎn)進(jìn)行特征采樣。這三種特征采樣方式有串行效果。比如,當(dāng)?shù)谝弧⒍⑷N的特征采樣比例均是0.5時(shí),如果特征總量為64個(gè),經(jīng)過(guò)這三種采樣的綜合效果,最終采樣得到的特征個(gè)數(shù)為8個(gè)。

圖7.XGBoost樣本采樣

(3)XGBoost為什么訓(xùn)練會(huì)比較快?

XGBoost訓(xùn)練速度快,這個(gè)主要是工程實(shí)現(xiàn)優(yōu)化的結(jié)果,具體的優(yōu)化措施如下幾點(diǎn):第一、支持并行化訓(xùn)練。XGBoost的并行,并不是說(shuō)每棵樹(shù)可以并行訓(xùn)練,XGBoost本質(zhì)上仍然采用Boosting思想,每棵樹(shù)訓(xùn)練前需要等前面的樹(shù)訓(xùn)練完成后才能開(kāi)始訓(xùn)練。XGBoost的并行,指的是特征維度的并行。在訓(xùn)練之前,每個(gè)特征按特征值大小對(duì)樣本進(jìn)行預(yù)排序,并存儲(chǔ)為Block結(jié)構(gòu)(如圖8所示),在后面查找特征分割點(diǎn)時(shí)可以重復(fù)使用,而且特征已經(jīng)被存儲(chǔ)為一個(gè)個(gè)Block結(jié)構(gòu),那么在尋找每個(gè)特征的最佳分割點(diǎn)時(shí),可以利用多線(xiàn)程對(duì)每個(gè)Block并行計(jì)算。

圖8.樣本排序

第二、采用近似算法技術(shù),得到候選分位點(diǎn)。在構(gòu)造決策樹(shù)分裂節(jié)點(diǎn)時(shí),當(dāng)采用精確貪心算法窮舉計(jì)算每個(gè)特征下的所有特征值增益,如果特征個(gè)數(shù)多、特征取值大,會(huì)造成較大的計(jì)算量。當(dāng)樣本數(shù)據(jù)量大時(shí),特征值無(wú)法完全加載到內(nèi)存中,計(jì)算效率低。對(duì)于分布式數(shù)據(jù)集,同樣會(huì)面臨無(wú)法將特征值全部加載到本地內(nèi)存的問(wèn)題。因此,基于這兩個(gè)現(xiàn)實(shí)問(wèn)題,采用近似直方圖算法,將每個(gè)特征取值劃分為常數(shù)個(gè)分位點(diǎn),作為候選分割點(diǎn),從中選擇相對(duì)最優(yōu)的分割點(diǎn)作為決策樹(shù)分裂節(jié)點(diǎn)。

第三、緩存感知訪問(wèn)技術(shù)。對(duì)于有大量數(shù)據(jù)或者說(shuō)分布式系統(tǒng)來(lái)說(shuō),不可能將所有的數(shù)據(jù)都放進(jìn)內(nèi)存里面。因此,需要將其放在外存上或者將數(shù)據(jù)分布式存儲(chǔ)。但是會(huì)有一個(gè)問(wèn)題,這樣做每次都要從外存上讀取數(shù)據(jù)到內(nèi)存,這將會(huì)是十分耗時(shí)的操作。在XGBoost中,采用預(yù)讀取的方式,將下一塊將要讀取的數(shù)據(jù)預(yù)先放進(jìn)內(nèi)存里面。這個(gè)過(guò)程是多開(kāi)了一個(gè)線(xiàn)程,該線(xiàn)程與訓(xùn)練的線(xiàn)程獨(dú)立并負(fù)責(zé)數(shù)據(jù)讀取。此外,還要考慮Block的大小問(wèn)題。如果設(shè)置最大的Block來(lái)存儲(chǔ)所有樣本在特征上的值和梯度,Cache未必能一次性處理如此多的梯度做統(tǒng)計(jì)。如果設(shè)置過(guò)小的Block-size,這樣不能充分利用多線(xiàn)程的優(yōu)勢(shì)。這樣會(huì)出現(xiàn)訓(xùn)練線(xiàn)程已經(jīng)訓(xùn)練完數(shù)據(jù),但是預(yù)讀取線(xiàn)程還沒(méi)把數(shù)據(jù)放入內(nèi)存或者cache中。經(jīng)過(guò)測(cè)試,Block-size設(shè)置為2^16個(gè)特征值是效果最好。

第四、Blocks核外計(jì)算優(yōu)化技術(shù)。為了高效使用系統(tǒng)資源,對(duì)于機(jī)器資源,除了CPU和內(nèi)存外,磁盤(pán)空間也可以利用起來(lái)處理數(shù)據(jù)。為了實(shí)現(xiàn)這個(gè)功能,XGBoost在模型訓(xùn)練時(shí),會(huì)將數(shù)據(jù)分成多個(gè)塊并將每個(gè)塊存儲(chǔ)在磁盤(pán)上。在計(jì)算過(guò)程中,使用獨(dú)立的線(xiàn)程將Block預(yù)提取到主內(nèi)存緩沖區(qū),這樣數(shù)據(jù)計(jì)算和磁盤(pán)讀取可以同步進(jìn)行,但由于IO非常耗時(shí),所以還采用了兩種技術(shù)來(lái)改進(jìn)這種核外計(jì)算。

  • Block Compression:塊壓縮,并且加載到主內(nèi)存時(shí)由獨(dú)立的線(xiàn)程進(jìn)行解壓縮。

  • Block Sharding:塊分片,即將數(shù)據(jù)分片到多個(gè)磁盤(pán),為每個(gè)磁盤(pán)分配一個(gè)線(xiàn)程,將數(shù)據(jù)提取到內(nèi)存緩沖區(qū),然后每次訓(xùn)練線(xiàn)程的時(shí)候交替地從每個(gè)緩沖區(qū)讀取數(shù)據(jù),有助于在多個(gè)磁盤(pán)可用時(shí),增加讀取的吞吐量。

除了這些技術(shù),XGBoost的特征采樣技術(shù)也可以提升計(jì)算效率。如果設(shè)定特征采樣比例colsample_by* < 1.0,則在選擇最佳特征分割點(diǎn)作為分裂節(jié)點(diǎn)時(shí),特征候選集變小,挑選最佳特征分割點(diǎn)時(shí)計(jì)算量降低。

(4)XGBoost如何處理缺失值問(wèn)題?

XGBoost的一個(gè)優(yōu)點(diǎn)是允許特征存在缺失值。對(duì)缺失值的處理方式如圖9所示: 在特征上尋找最佳分割點(diǎn)時(shí),不會(huì)對(duì)該列特征missing的樣本進(jìn)行遍歷,而只對(duì)該特征值為non-missing的樣本上對(duì)應(yīng)的特征值進(jìn)行遍歷。對(duì)于稀疏離散特征,通過(guò)這個(gè)技巧可以大大減少尋找特征最佳分割點(diǎn)的時(shí)間開(kāi)銷(xiāo)。

在邏輯實(shí)現(xiàn)上,為了保證完備性,會(huì)將該特征值missing的樣本分別分配到左葉子節(jié)點(diǎn)和右葉子節(jié)點(diǎn),兩種情形都計(jì)算一遍后,選擇分裂后增益最大的那個(gè)方向(左分支或是右分支),作為預(yù)測(cè)時(shí)特征值缺失樣本的默認(rèn)分支方向。 如果在訓(xùn)練中沒(méi)有缺失值而在預(yù)測(cè)中出現(xiàn)缺失,那么會(huì)自動(dòng)將缺失值的劃分方向放到右子節(jié)點(diǎn)。

圖9.XGBoost缺失值處

(5)XGBoost和GBDT的區(qū)別是什么?

XGBoost和GBDT都是基于Boosting思想實(shí)現(xiàn)。XGBoost可以認(rèn)為是在GBDT基礎(chǔ)上的擴(kuò)展。兩者的主要不同如下:基分類(lèi)器:GBDT是以分類(lèi)與回歸決策樹(shù)CART作為基分類(lèi)器,XGBoost的基分類(lèi)器不僅支持CART決策樹(shù),還支持線(xiàn)性分類(lèi)器,此時(shí)XGBoost相當(dāng)于帶L1和L2正則化項(xiàng)的Logistic回歸(分類(lèi)問(wèn)題)或者線(xiàn)性回歸(回歸問(wèn)題)。導(dǎo)數(shù)信息:GBDT在優(yōu)化求解時(shí),只是用到一階導(dǎo)數(shù)信息,XGBoost對(duì)代價(jià)函數(shù)做了二階泰勒展開(kāi),同時(shí)用到一階和二階導(dǎo)數(shù)信息。另外,XGBoost工具支持自定義代價(jià)函數(shù),只要函數(shù)可以一階和二階求導(dǎo)即可。正則項(xiàng):XGBoost在代價(jià)函數(shù)里加入正則項(xiàng),用于控制模型的復(fù)雜度。正則項(xiàng)里包含了樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù)、每個(gè)葉子節(jié)點(diǎn)上輸出的預(yù)測(cè)值的模的平方和。正則項(xiàng)有利于降低模型的方差variance,使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單,防止過(guò)擬合。GBDT的代價(jià)函數(shù)中是沒(méi)有正則項(xiàng)。缺失值處理:對(duì)于特征的取值有缺失的樣本,XGBoost可以自動(dòng)學(xué)習(xí)出它的分裂方向。 另外,XGBoost還做了其它工程優(yōu)化,包括特征值Block化、并行化計(jì)算特征增益、近似直方圖算法、特征采樣技術(shù)

(6)如何使用XGBoost進(jìn)行模型訓(xùn)練?

在使用XGBoost前,可以根據(jù)官網(wǎng)說(shuō)明文檔進(jìn)行安裝(下面有鏈接,這里不贅述)。本文采用的數(shù)據(jù)集是Kaggle平臺(tái)房?jī)r(jià)預(yù)測(cè)開(kāi)源數(shù)據(jù)集(地址如參考文章8所示)。值得說(shuō)明的一點(diǎn),在進(jìn)行模型訓(xùn)練前,一般需要做數(shù)據(jù)清洗、特征工程、樣本劃分、模型參數(shù)調(diào)優(yōu)這些過(guò)程。針對(duì)這些過(guò)程,本文在這里不展開(kāi)細(xì)講。在進(jìn)行模型訓(xùn)練前,本文已經(jīng)完成數(shù)據(jù)清洗、特征工程、模型參數(shù)調(diào)優(yōu)過(guò)程,并得到最終用于模型訓(xùn)練的樣本集和最優(yōu)模型參數(shù)。如下代碼,是使用XGBoost進(jìn)行模型訓(xùn)練過(guò)程。

####?導(dǎo)入數(shù)據(jù)分析基礎(chǔ)包?##### import?pandas?as?pd? import?matplotlib? import?numpy?as?np? import?scipy?as?sp? import?IPython from?IPython?import?display? import?sklearn? import?random import?time####?導(dǎo)入訓(xùn)練樣本?##### #?樣本集特征 X_train=pd.read_csv('./final_train.csv',sep='\t',index=None) #?樣本集標(biāo)簽 y_train=pd.read_csv('./final_y_train.csv',sep='\t',index=None)###?導(dǎo)入算法模型和評(píng)分標(biāo)準(zhǔn)?#### from?sklearn?import?svm,?tree,?linear_model,?neighbors,?naive_bayes,?ensemble,?discriminant_analysis,?gaussian_process from?xgboost?import?XGBClassifier #Common?Model?Helpers from?sklearn.preprocessing?import?OneHotEncoder,?LabelEncoder from?sklearn?import?feature_selection from?sklearn?import?model_selection from?sklearn?import?metrics #Visualization import?matplotlib?as?mpl import?matplotlib.pyplot?as?plt import?matplotlib.pylab?as?pylab import?seaborn?as?sns from?pandas.plotting?import?scatter_matrix #Configure?Visualization?Defaults #%matplotlib?inline?=?show?plots?in?Jupyter?Notebook?browser %matplotlib?inline mpl.style.use('ggplot') sns.set_style('white') pylab.rcParams['figure.figsize']?=?12,8from?sklearn.tree?import?DecisionTreeRegressor from?sklearn.linear_model?import?LinearRegression,?ElasticNet from?sklearn.ensemble?import?RandomForestRegressor from?sklearn.metrics?import?fbeta_score,?make_scorer,?r2_score?,mean_squared_error from?sklearn.linear_model?import?Lasso from?sklearn.svm?import?SVR from?xgboost?import?XGBRegressor from?sklearn.model_selection?import?KFold,?cross_val_score,?train_test_split #?計(jì)算平方誤差 def?rmsle(y,?y_pred):return?np.sqrt(mean_squared_error(y,?y_pred))#?模型:Xgboost from?sklearn.model_selection?import?GridSearchCV best_reg_xgb?=?XGBRegressor(learning_rate=?0.01,?n_estimators?=?5000,??????????????????max_depth=?4,?min_child_weight?=?1.5,?gamma?=?0,?subsample?=?0.7,?colsample_bytree?=?0.6,?seed?=?27) best_reg_xgb.fit(X_train,?y_train) pred_y_XGB?=?best_reg_xgb.predict(X_train)#? print?(rmsle(pred_y_XGB,?y_train))

6.小結(jié)

本文從目標(biāo)函數(shù)構(gòu)建、目標(biāo)函數(shù)優(yōu)化、樹(shù)結(jié)構(gòu)信息表示、樹(shù)形狀確定等四部分,對(duì)XGBoost算法框架進(jìn)行解析。最后,針對(duì)XGBoost的常見(jiàn)問(wèn)題進(jìn)行小結(jié)。通過(guò)本文,洞悉XGBoost框架的底層算法原理。在用戶(hù)行為預(yù)判、用戶(hù)標(biāo)簽預(yù)測(cè)、用戶(hù)信用評(píng)分等數(shù)據(jù)分析業(yè)務(wù)中,經(jīng)常會(huì)使用到XGBoost算法框架。如果對(duì)XGBoost算法原理理解透徹,在實(shí)際業(yè)務(wù)中的模型訓(xùn)練過(guò)程中,有利于較好地理解模型參數(shù),對(duì)模型調(diào)參過(guò)程幫助較大。

對(duì)于文章中表述不妥的地方,歡迎私信于我。

參考文章

(1).陳天奇XGBoost算法原著:https://dl.acm.org/doi/pdf/10.1145/2939672.2939785

(2).20道XGBoost面試題:https://cloud.tencent.com/developer/article/1500914

(3).XGBoost框架Parameters含義:https://xgboost.readthedocs.io/en/latest/parameter.html

(4).XGBoost提升樹(shù)官方介紹:https://xgboost.readthedocs.io/en/latest/tutorials/model.html

(5).XGBoost官方論壇:https://discuss.xgboost.ai/

(6).GBDT提升樹(shù)官方介紹:https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting

(7).XGBoost安裝官網(wǎng)說(shuō)明:https://xgboost.readthedocs.io/en/latest/build.html

(8).Kaggle開(kāi)源數(shù)據(jù):https://www.kaggle.com/c/house-prices-advanced-regression-techniques

總結(jié)

以上是生活随笔為你收集整理的数据分析利器:XGBoost算法最佳解析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。