日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用 XGBoost 做 Learning To Rank

發布時間:2025/3/8 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用 XGBoost 做 Learning To Rank 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說到learning to rank,大家應該都比較熟悉,但是說到用XGB做learning to rank,很少有人實現過.舉個例子,比方說賽馬,我們可以基于馬的個頭,體重,歷史戰績等信息,建立XGB模型,進行二分類,最后選擇贏的概率最高的馬.這樣做并沒有問題,但是考慮到馬是否能跑贏,和對手緊密相關,不管我選的馬能力如何,只要他能跑贏同場比賽其他馬即可,這就是排序.

Learning To Rank

學習排序其實也是有監督學習的一部分,和多分類和回歸模型相比,我們并不是要預估一條樣本的概率,而是預估很多個樣本點的順序.排序經常被用于搜索引擎,還有一些購物建議.在搜索框里搜任何一條query,top 3展示的一定是最相關的,越往后翻頁相關度越低.

回到XGBoost,有3個目標函數,Point Wise,Pairwise和Listwise,這3種方法都可以用來排序,每個方法都有其優缺點.對于pointwise而言,每次僅僅考慮一個樣本,預估的是每一條和query的相關性,基于此進行排序.Pairwise是每次取一對樣本,預估這一對樣本的先后順序,不斷重復預估一對對樣本,從而得到某條query下完整的排序.Listwise同時考慮多個樣本,找到最優順序.

Point Wise雖然簡單,但是存在不少問題.比如說賽馬場景,馬的輸贏取決于對手.再比如搜索場景,我們確實可以預估每個query到每個document的點擊率做為排序依據,但是點擊率要考慮rank,例如排的越靠前的document點擊率上占據優勢,這些point-wise模型很難考慮進去.基于此,我們需要做learning to rank的模型.

建模

首先要明確的是訓練數據,訓練數據必須包含一列query id,該id下指明哪些樣本要放到一起進行排序.同時特別需要注意的是,在訓練集和測試集進行拆分時,需要按query id進行分割,如果直接隨機拆分,同一個query id下的數據就會被分開,這樣會導致模型出問題.我們可以用如下代碼進行拆分.

from sklearn.model_selection import GroupShuffleSplit gss = GroupShuffleSplit(test_size=.40, n_splits=1, random_state = 7).split(df, groups=df['query_id']) X_train_inds, X_test_inds = next(gss)train_data= df.iloc[X_train_inds] X_train = train_data.loc[:, ~train_data.columns.isin(['id','rank'])] y_train = train_data.loc[:, train_data.columns.isin(['rank'])]# 模型需要輸入按query_id排序后的樣本 # 并且需要給定每個query_id下樣本的數量 groups = train_data.groupby('id').size().to_frame('size')['size'].to_numpy()test_data= df.iloc[X_test_inds]#We need to keep the id for later predictions X_test = test_data.loc[:, ~test_data.columns.isin(['rank'])] y_test = test_data.loc[:, test_data.columns.isin(['rank'])]

我們的數據格式應該如下所示,如果數據長這樣,那么我們上述代碼中的groups就是[3, 4]:

然后我們就可以建模了,可以用XGBRanker訓練排序模型,在這個場景下,我們無法自定義objective,也無法自定義mertic了.

import xgboost as xgbmodel = xgb.XGBRanker( tree_method='gpu_hist',booster='gbtree',objective='rank:pairwise',random_state=42, learning_rate=0.1,colsample_bytree=0.9, eta=0.05, max_depth=6, n_estimators=110, subsample=0.75 )model.fit(X_train, y_train, group=groups, verbose=True)

訓練完后我們就可以進行預估,因為預估方法并不會輸入groups,所以我們需要做一些特殊處理:

def predict(model, df):return model.predict(df.loc[:, ~df.columns.isin(['id'])])predictions = (data.groupby('id').apply(lambda x: predict(model, x)))

這里選擇了"rank:pairwise"作為loss,看官方文檔還有其他rank loss可供嘗試:

pair wise 方法相比pointwise有優勢,可以學習到一些順序。但是pairwise也有缺點:

1.只能給出排序,并不能給出有多好,好多少.比如在搜索場景下,可能一條與query相關的doc都沒,pointwise可以通過卡閾值得到這個信息,但是rank方式就不能區分.

2.當一個query下有很多doc,會產生大量的pairs。

3.對噪聲的label 非常敏感。

感興趣的趕緊嘗試起來吧!

用XGB learning to rank

總結

以上是生活随笔為你收集整理的用 XGBoost 做 Learning To Rank的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 中文字幕有码在线 | 天天看a| 香蕉视频免费 | 热久久av | 中文字幕91在线 | 青青草国产在线播放 | 毛片在线免费视频 | 亚洲大色网 | 成人在线国产视频 | 日本猛少妇色xxxxx猛叫 | 国产精品一区久久 | 色欧美88888久久久久久影院 | 黄在线网站 | 色哟哟免费视频 | 午夜中文字幕 | 少妇久久久久久久 | 天天做夜夜爽 | 亚洲综合一区在线 | 日韩黄色免费视频 | 精品国产一区二区三区四区 | 亚洲国产成人精品女人 | 国产精品久久久久久久久久妞妞 | 一级片少妇 | 全国最大色 | 日本黄色免费观看 | 欧美香蕉网| 久久久久99精品成人片我成大片 | 中文资源在线观看 | 久久久精品综合 | 第一色网站 | 日韩电影中文字幕 | 日本免费一区二区三区四区 | 日韩精品伦理 | 在线观看免费看片 | 福利在线看 | 亚洲成人1区 | 日本护士取精xxxxxhd | 成为性瘾网黄的yy对象后 | 国产精品久久久久久久久久久久久久久久久 | 国产又粗又猛又爽又黄的视频一 | 成年人网站免费 | 国产精品久久久久久白浆 | 18性xxxxx性猛交 | 中文字幕在线播放日韩 | 色www国产亚洲阿娇 自拍一区在线 | 欧美影视一区二区 | 中国浓毛少妇毛茸茸 | 亚洲国产精品成人无久久精品 | 色婷久久 | 亚洲黄色免费 | 男人添女人下部高潮全视频 | 国产又黄又粗又猛又爽视频 | 久久亚洲精少妇毛片午夜无码 | 人妻丰满熟妇av无码区不卡 | 亚洲精品爱爱 | 亚洲天堂黄色 | 天天射天天射天天射 | 国产亚洲精品美女久久久 | 丁香花电影高清在线阅读免费 | 艹久久| 久久成人免费网站 | 三级网站在线 | 亚洲逼 | xxxxxx黄色 | 亚洲第一精品在线观看 | 伊人视屏 | 久久久久久久91 | 一区二区三区四区不卡 | 欧美成人三级在线观看 | 亚洲大片在线观看 | 91精品国产乱码久久久久久久久 | 国产精品日韩精品欧美精品 | 一本一道久久综合狠狠老精东影业 | 精品日韩中文字幕 | 国产精品自拍一区 | 色视频免费 | 国产h在线观看 | 黄色激情小说视频 | 欧美一区二区久久久 | 亚洲一区二区激情 | 奇米av在线 | 亚洲av永久无码精品国产精品 | 超碰caopor| 国产一区二区久久久 | 免费av成人 | 成人国产a| 精品久久久久一区二区国产 | 日日爽夜夜 | 欧美成人高清 | 一区二区三区少妇 | 打开免费观看视频在线播放 | 免费污污视频在线观看 | 青青草国产在线视频 | 超碰在线影院 | 青青草青娱乐 | 医生强烈淫药h调教小说视频 | 亚洲第三区 | 欧美国产高潮xxxx1819 | 亚洲理论视频 |