日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

推荐系统——GBDT+LR

發(fā)布時間:2023/12/10 windows 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐系统——GBDT+LR 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

[[邏輯回歸模型]]

邏輯回歸是在[[線性回歸]]的基礎(chǔ)上添加了一個Sigmoid函數(shù)(非線形)映射,從而可以使邏輯回歸成為一個優(yōu)秀的分類算法
邏輯回歸假設(shè)數(shù)據(jù)服從[[伯努利分布]],通過[[極大化似然函數(shù)]]的方法,運用[[梯度下降]]來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。
相比于[[協(xié)同過濾]]和[[矩陣分解]]利用用戶的物品“相似度”進(jìn)行推薦,LR將問題看成一個分類問題,通過預(yù)測正樣本的概率對物品進(jìn)行排序,因此邏輯回歸模型將推薦問題轉(zhuǎn)化成了一個點擊率預(yù)估問題。

邏輯回歸做推薦的步驟

  • 將用戶年齡、性別、物品屬性、物品描述、當(dāng)前時間、當(dāng)前地點等特征轉(zhuǎn)成數(shù)值向量
  • 確定邏輯回歸的優(yōu)化目標(biāo),比如把點擊率預(yù)測轉(zhuǎn)換成二分類問題,這樣就可以得到分類問題常用的損失作為目標(biāo),訓(xùn)練模型
  • 在預(yù)測的時候,將特征向量輸入模型產(chǎn)生預(yù)測,得到用戶“點擊”物品的概率
  • 利用點擊概率對候選物品排序,得到推薦列表
  • 對于LR模型而言,主要關(guān)鍵為求出每個特征的權(quán)重參數(shù)www,一般是使用梯度下降的方式

    優(yōu)點:

  • LR模型形式簡單,可解釋性好,從特征的權(quán)重可以看到不同的特征可以看到不同的特征對最后結(jié)果的影響
  • 訓(xùn)練時便于并行化,在預(yù)測時只需要對特征進(jìn)行線性加權(quán),所以性能比較好,適合處理海量id類特征,且使用id類特征有一個很重要的好處,即防止信息損失(相對于范化的CTR特征),對于頭部資源會有更細(xì)致的描述
  • 資源占用少尤其內(nèi)存,在實際的工程應(yīng)用中只需要存儲權(quán)重比較大的特征及特征對應(yīng)的權(quán)重
  • 方便對輸出結(jié)果調(diào)整。LR可以方便的得到最后的分類結(jié)果,因為輸出的是每個樣本的概率分?jǐn)?shù),我們可以很容易的對這個概率分?jǐn)?shù)進(jìn)行閾值的劃分。
  • 缺點:

  • 無法進(jìn)行特征交叉得到更多信息
  • 準(zhǔn)確率并不是很高
  • 處理非線性數(shù)據(jù)比較麻煩,LR在不引入其他方法的情況下,只能處理線性可分的數(shù)據(jù),如果想處理非線性,首先需要對連續(xù)特征的處理進(jìn)行離散化
  • LR需要進(jìn)行人工特征組合
  • 所以如何自動發(fā)現(xiàn)有效的特征、特征組合,彌補(bǔ)人工經(jīng)驗不足,縮短LR特征實驗周期,可以交由[[GBDT]]來做,它可以自動發(fā)現(xiàn)特征并進(jìn)行有效組合

    [[GBDT]]模型

    GBDT名為梯度提升樹,是傳統(tǒng)機(jī)器學(xué)習(xí)中對真實分布擬合最好的幾種算法之一
    GBDT通過采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過程產(chǎn)生的誤差來達(dá)到將數(shù)據(jù)分類或者回歸的算法。
    GBDT每輪產(chǎn)生一個弱分類器,每個分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。GBDT對弱分類器的要求只要求足夠簡單,并且地方低方差高偏差(欠擬合)。由此,每個分類回歸樹的深度不會很深,最終的總分類器是將每輪訓(xùn)練得到的弱分類器加權(quán)求和得到。
    GBDT來解決二分類和回歸問題的本質(zhì)一樣,都是通過不斷構(gòu)建[[決策樹]],使預(yù)測結(jié)果一步步接近目標(biāo)值。
    GBDT在回歸問題上一般使用平方損失,而在二分類問題中,GBDT和邏輯回歸一樣,使用交叉熵

    構(gòu)建分類GBDT的過程:

  • 初始化GBDT
    分類GBDT的初始狀態(tài)只有一個葉子節(jié)點,該節(jié)點為所有樣本的初始預(yù)測值:F0(x)=argmin?γ∑i=1nL(y,γ)F_0(x) = arg \min_{\gamma} \sum_{i=1}^n L(y, \gamma)F0?(x)=argγmin?i=1n?L(y,γ)
    其中,FFF代表GBDT模型,F0F_0F0?是模型的初識狀態(tài),該式子的意思是找一個γ\gammaγ,使所有的樣本的LossLossLoss最小,而γ\gammaγ表示節(jié)點的輸出,即葉子節(jié)點,是一個log(ηi)log(\eta_i)log(ηi?)形式的回歸值,在初始狀態(tài),γ=F0\gamma = F_0γ=F0?

    具體例子可以參考學(xué)習(xí)資料中例子P59

    GBDT的優(yōu)缺點:
    對于GBDT而言,生成樹的過程實際上就是自動進(jìn)行多維度的特征組合的過程,從根節(jié)點到葉子節(jié)點上的整個路徑(多個特征值判斷),才能最終決定一棵樹的預(yù)測值,另外,對于連續(xù)型特征的處理,GBDT可以拆分出一個臨界閾值。
    而GBDT對于海量的id類特征,GBDT由于樹的深度和樹的數(shù)量限制(防止過擬合),不能有效存儲;另外海量特征也會存在性能瓶頸,當(dāng)GBDT的one hot特征大于100k維時,需要做分布式訓(xùn)練才能保證不爆內(nèi)存,因此,GBDT通常配合少量的反饋CTR特征來表達(dá),在帶來一定范化能力的同時會有信息損失,對于頭部資源無法有效表達(dá)。
    因此提出GBDT+LR

    GBDT+LR

    GBDT+LR:先利用GBDT進(jìn)行特征篩選和組合進(jìn)而生成新的離散特征向量,再把該特征向量當(dāng)作LR模型的輸入,來產(chǎn)生的最后的預(yù)測結(jié)果。

  • 創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

    總結(jié)

    以上是生活随笔為你收集整理的推荐系统——GBDT+LR的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。