日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

利用GBDT模型构造新特征具体方法

發(fā)布時(shí)間:2023/12/18 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用GBDT模型构造新特征具体方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

利用GBDT模型構(gòu)造新特征具體方法

數(shù)據(jù)挖掘入門與實(shí)戰(zhàn) ?公眾號(hào): datadw

?

?

實(shí)際問(wèn)題中,可直接用于機(jī)器學(xué)**模型的特征往往并不多。能否從“混亂”的原始log中挖掘到有用的特征,將會(huì)決定機(jī)器學(xué)**模型效果的好壞。引用下面一句流行的話:

?

特征決定了所有算法效果的上限,而不同的算法只是離這個(gè)上限的距離不同而已。

?

本文中我將介紹Facebook最近發(fā)表的利用GBDT模型構(gòu)造新特征的方法。

?

(Xinran He et al. Practical Lessons from Predicting Clicks on Ads at Facebook, 2014)

論文的思想很簡(jiǎn)單,就是先用已有特征訓(xùn)練GBDT模型,然后利用GBDT模型學(xué)**到的樹來(lái)構(gòu)造新特征,最后把這些新特征加入原有特征一起訓(xùn)練模型。構(gòu)造的新特征向量是取值0/1的,向量的每個(gè)元素對(duì)應(yīng)于GBDT模型中樹的葉子結(jié)點(diǎn)。當(dāng)一個(gè)樣本點(diǎn)通過(guò)某棵樹最終落在這棵樹的一個(gè)葉子結(jié)點(diǎn)上,那么在新特征向量中這個(gè)葉子結(jié)點(diǎn)對(duì)應(yīng)的元素值為1,而這棵樹的其他葉子結(jié)點(diǎn)對(duì)應(yīng)的元素值為0。新特征向量的長(zhǎng)度等于GBDT模型里所有樹包含的葉子結(jié)點(diǎn)數(shù)之和。

?

舉例說(shuō)明。下面的圖中的兩棵樹是GBDT學(xué)**到的,第一棵樹有3個(gè)葉子結(jié)點(diǎn),而第二棵樹有2個(gè)葉子節(jié)點(diǎn)。對(duì)于一個(gè)輸入樣本點(diǎn)x,如果它在第一棵樹最后落在其中的第二個(gè)葉子結(jié)點(diǎn),而在第二棵樹里最后落在其中的第一個(gè)葉子結(jié)點(diǎn)。那么通過(guò)GBDT獲得的新特征向量為[0, 1, 0, 1, 0],其中向量中的前三位對(duì)應(yīng)第一棵樹的3個(gè)葉子結(jié)點(diǎn),后兩位對(duì)應(yīng)第二棵樹的2個(gè)葉子結(jié)點(diǎn)。

?

?

那么,GBDT中需要多少棵樹能達(dá)到效果最好呢?具體數(shù)字顯然是依賴于你的應(yīng)用以及你擁有的數(shù)據(jù)量。一般數(shù)據(jù)量較少時(shí),樹太多會(huì)導(dǎo)致過(guò)擬合。在作者的應(yīng)用中,大概500棵左右效果就基本不改進(jìn)了。另外,作者在建GBDT時(shí)也會(huì)對(duì)每棵樹的葉子結(jié)點(diǎn)數(shù)做約束——不多于12個(gè)葉子結(jié)點(diǎn)。

?

下面是這種方法在我們世紀(jì)佳緣的一個(gè)概率預(yù)測(cè)問(wèn)題上的實(shí)際效果。我們只使用了30棵樹。第一個(gè)圖是只使用原始特征的結(jié)果,第二個(gè)圖是原始特征加GBDT新特征的結(jié)果。圖中橫坐標(biāo)表示預(yù)測(cè)概率值,縱坐標(biāo)表示真實(shí)概率值。所以預(yù)測(cè)的點(diǎn)越靠近y=xy=x這條參考線越好。顯然,使用了GBDT構(gòu)造的新特征后,模型的預(yù)測(cè)效果好不少。

?

?

?

已經(jīng)有人利用這種方法贏得了Kaggle一個(gè)CTR預(yù)估比賽的冠軍,這種方法的具體實(shí)現(xiàn)代碼可見 ??https://github.com/guestwalk/kaggle-2014-criteo

轉(zhuǎn)載于:https://www.cnblogs.com/DjangoBlog/p/6201593.html

總結(jié)

以上是生活随笔為你收集整理的利用GBDT模型构造新特征具体方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。