日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文解读】CIKM20-MiNet:阿里|跨域点击率预估混合兴趣模型

發(fā)布時間:2025/3/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文解读】CIKM20-MiNet:阿里|跨域点击率预估混合兴趣模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?本文介紹了阿里提出的一種利用跨域信息的CTR預(yù)估模型,基于UC頭條的應(yīng)用場景,將新聞feed流作為源域,廣告作為目標域。跨域點擊率預(yù)估的最大優(yōu)勢在于通過使用跨域數(shù)據(jù),目標域中的數(shù)據(jù)稀疏和冷啟動問題都能得到緩解,這也是為什么能提高推薦性能的原因。

本文要介紹的論文是《MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction》
論文下載地址為:https://arxiv.org/abs/2008.02974,公眾號后臺回復【minet】可下載

1.前言

1.1 跨域推薦(cross-domain recommendation)的概念

在讀這篇論文之前,其實我對跨域推薦是毫無概念的,而偏偏這篇論文又把related work放到了最后,導致剛開始看的時候一直是迷迷糊糊,所以先詳細的把跨域推薦的概念做個記錄。

為了讀懂論文,首先要引入”跨域推薦“的概念。什么是”域“呢?簡單的來說,可以把它看做是通過某種方式聚集在一起的集合。比如可以把新聞app中的某一個板塊當做一個域,也可以是b站的鬼畜區(qū),舞蹈區(qū)等等。當然我們也可以擴大域的概念,把短視頻整體當成一個域,把pgc當成一個域。這些定義應(yīng)該都是可以的,域的概念其實可大可小。

那什么叫”跨域“呢?可能常見的推薦場景都是單域推薦比較多,也就是”游戲“只推薦”游戲“類的東西,它基于的數(shù)據(jù)也都是游戲用戶本身的東西。但什么是”跨域推薦“呢?比如,我要給“鬼畜區(qū)”推薦東西,但是使用的數(shù)據(jù)不只是鬼畜區(qū)自己的,它還包括了”舞蹈區(qū)“,”數(shù)碼區(qū)“,”游戲區(qū)“等其他域產(chǎn)生的數(shù)據(jù)。

對于此,我們要定義兩個”域“的概念:”源域“和”目標域“,我們要優(yōu)化、提升的目標叫做”目標域“,比如我們要優(yōu)化”鬼畜區(qū)“的ctr,那么“鬼畜區(qū)”就是“目標域”。而”源域“相當于是輔助的部分,我們會把“舞蹈區(qū)”,“數(shù)碼區(qū)”等看做是“源域”。

總結(jié)一下:

  • ”域“指的是通過某種方式聚集在一起的集合。”域“的定義可大可小。

  • 只要是兩個不一樣的集合之間互相使用數(shù)據(jù)都可以稱之為”跨域“

1.2 跨域推薦的細節(jié)

跨域推薦實際是有一種前提的,就是基于重疊(overlap)。為什么會有跨域?那是因為有一部分的特征也好、用戶也好、物品也好,能夠有一些重疊,通過重疊的部分找到兩個域之間的一些關(guān)聯(lián)。

從下圖我們可以看到,橫坐標代表了物品的整個空間,縱坐標代表了用戶的整個空間:

  • 第一張圖(左上圖),用戶與物品之間沒有都沒有交集

  • 第二張圖(右上圖),兩個域的用戶有部分交集,但是物品沒有交集。這種情況可以理解成鬼畜用戶和舞蹈用戶會有部分交集,這部分用戶他們既訪問了鬼畜區(qū)的視頻又去舞蹈區(qū)看了小姐姐。

  • 第三張圖(左下圖),是兩個域的用戶沒有交集,但是物品有部分重合。一種可能的情況:youtube和b站的用戶在法定情況下是不一樣的,但是b站的部分內(nèi)容又是從youtube上搬運過來的,這就滿足了第三種情況。

  • 第四張圖(右下圖),這個場景的重合度就比較高了,不論是用戶還是物品都有一定程度上的重疊,這在b站上也是很常見的,比如自制區(qū)的視頻同時也是數(shù)碼區(qū)的視頻。

1.3 跨域推薦的優(yōu)劣

那么到底為什么要用跨域推薦呢?它的優(yōu)劣有哪些呢?

優(yōu)勢:

  • 首先,它可以用來解決一部分冷啟動的問題,從上圖可以看到,目標域的新用戶很可能是源域的舊用戶,那么將源域的信息拿過來輔助提升推薦的效果,能一定程度上解決冷啟動

  • 第二點就是提升目標域的推薦效果,這個也是跨域推薦的主要目的。

  • 第三個優(yōu)勢是多樣性。因為跨域推薦同時參考了多個域的特征,自然而然會對推薦結(jié)果的多樣性進行一定的優(yōu)化。最終,它還會反作用于源域,能夠?qū)崿F(xiàn)源域的推薦與目標的域推薦效果的共同提升。

劣勢:

跨域推薦還需要考慮一定的權(quán)衡,因為跨域必然會導致數(shù)據(jù)的稀疏,處理不當可能會有反作用。我們從前一幅圖可以看到:用戶空間與物品空間為例,一旦涉及到跨域上下兩個方塊必然會引入空白,空白的稠密度相當于0,所以跨域推薦必然會導致數(shù)據(jù)更加稀疏。所以我們要處理這種數(shù)據(jù)稀疏,避免產(chǎn)生反作用。

2.背景

目前的CTR模型主要都是解決單域推薦的問題,比如做廣告的ctr預(yù)估,就只使用廣告的user behacior history來訓練模型。然而,廣告通常是和一些自然內(nèi)容一起展示出來的,比如視頻,音樂,資訊等,盡管廣告的內(nèi)容和自然內(nèi)容差異較大,但是用戶在自然內(nèi)容上的瀏覽行為也可能會對廣告點擊率預(yù)估提供有用的信息,比如一個用戶瀏覽了一些娛樂方面的資訊,那他點擊游戲廣告的概率就會更高。因此,這就提供了一個使用跨域推薦的機會。

本文基于UC頭條的應(yīng)用場景,將新聞feed流作為源域,廣告作為目標域。跨域點擊率預(yù)估的最大優(yōu)勢在于通過使用跨域數(shù)據(jù),目標域中的數(shù)據(jù)稀疏和冷啟動問題都能得到緩解,這也是為什么能提高推薦性能的原因。

3.模型設(shè)計

為了更好的利用好跨域數(shù)據(jù),文中建模了三種不同的user interest:

  • 跨域長期興趣(Long-term interest across domains).用戶的profile feature能反映出他長期的、固有的興趣。通過跨域數(shù)據(jù)(用戶交互過得所有的新聞和廣告記錄)可以學習出一個包含更多語義信息和可信度更高的user embedding。簡單來說,就是通過用戶的基本信息建模用戶的內(nèi)在長期興趣

  • 源域短期興趣(Short-term interest from the source domain).對于每個待預(yù)估的廣告,都會有一個源域的短期用戶興趣與之關(guān)聯(lián)。盡管廣告和新聞的內(nèi)容可能是完全不同,但其中很可能會存在一個確定的相關(guān)性比,如看了娛樂新聞后的用戶可能會去點擊游戲廣告。基于這種相關(guān)性,我們能把源域的有用信息遷移到目標域來。簡單來說就是對用戶在源域的短期行為進行建模

  • 目標域短期興趣(Short-term interest from the target domain).這個不言而喻了,就不多闡述了,簡單來說就是對用戶在目標域的短期行為進行建模

盡管上面的三種user interest看起來可行性很高,但依然存在幾個問題:

  • 不是所有交互過的新聞都和目標廣告有關(guān)系

  • 同樣,也不是所有交互過的廣告都和目標廣告有關(guān)系

  • 模型必須能把信息從源域遷移到目標域

  • 對于每個目標廣告,三種用戶興趣的重要性是不一樣的

  • 用戶興趣向量的維度可能不一樣

為了解決這些問題,模型的結(jié)構(gòu)如下:

3.1 跨域長期興趣建模

這里主要是通過用戶的基本屬性信息來表示?戶內(nèi)在的?期興趣,?如20歲左右的男性?戶可能對體育賽事或者游戲類的資訊或者?告?較感興趣。這?主要做法是將?戶ID、?戶性別、?戶所在地域、?戶的?機設(shè)備等embedding向量進?拼接,輸出為pu。例如?戶ID為123,城市為北京,男性?戶,使?蘋果?機,得到的?期興趣表示為:

3.2 源域短期興趣建模

給定一個用戶,在每個待預(yù)估廣告展示之前,用戶通常都會與源域的新聞有交互記錄。用戶交互過得新聞的內(nèi)容與待預(yù)估廣告之間有關(guān)聯(lián)關(guān)系,則建模用戶在源域中的興趣是很有意義的。在對序列數(shù)據(jù)進行建模時,文中的item- level attention的方法如下:

其中,rsi是?戶點擊的第i個新聞的embedding,qt代表?標?告,pu代表?戶的?期興趣向量,M代表transfer矩陣,將source domain的向量空間映射到target domain的向量空間。Mrsi = rsi*M

3.3 目標域短期興趣建模

這?主要是對?戶瀏覽過的?告結(jié)果進?建模,抽取?戶在target domain中的興趣,建模?式同在源域相同,只不過不需要對向量進?映射:

到目前為止,都是一些基本的處理序列數(shù)據(jù)的操作,只不過有些細節(jié)需要注意,比如transfer矩陣,目的在于講源域的信息遷移到目標域,而且在實現(xiàn)時還需要注意簡化復雜度的問題,這些都在原文中有介紹。

3.4 Interest-Level Attention

剛剛提到了,在處理用戶的歷史行為序列時,用到的是叫item-level attention,主要用來解決之前提到的五個問題中的1和2,transfer矩陣用來解決的是問題3。

而interest-level attention要解決的就是問題4:對于每個目標廣告,三種用戶興趣的重要性是不一樣的。如果?標?告和?戶最近點擊的?告相似,那么?戶在?標域的短期興趣則會起到更重要的作?,如果?標?告和?戶點擊過的?然結(jié)果和?告都不相似,則?期興趣則會起到更重要的作?。

每個興趣的權(quán)重計算公式為:

最后將三個帶權(quán)重向量和待預(yù)估廣告拼接起來,輸入到一個全連接,得到最后的點擊率預(yù)估值:

3.5 輔助任務(wù)

模型還進?步加?了輔助任務(wù),來輔助?戶?期興趣的學習,輔助任務(wù)也是點擊率預(yù)估任務(wù),主要通過?戶的?期興趣來預(yù)測?戶對源域中?然結(jié)果的點擊概率,該部分示意圖如下:

模型的兩個任務(wù)均使用交叉熵損失函數(shù),通過加權(quán)的方式得到最終的損失:

4. 實驗細節(jié)

4.1 數(shù)據(jù)預(yù)處理

論文用了倆數(shù)據(jù)集。一個是uc頭條的數(shù)據(jù)集,數(shù)據(jù)來自新聞和廣告曝光和點擊日志的隨機采樣。用2019年中的連續(xù)6天作為訓練集,第七天作為驗證集,第八天作為測試集。在驗證集上找到最優(yōu)超參數(shù)后,會把訓練集和驗證集合并成最終的訓練集,然后使用最優(yōu)超參數(shù)進行訓練。

第二個數(shù)據(jù)集是亞馬遜的評分數(shù)據(jù)集,用了book數(shù)據(jù)集做源域,movie做目標域。在數(shù)據(jù)預(yù)處理時,只保留評分記錄大于5次的用戶,將4-5分認為是正樣本,其余分數(shù)認為是負樣本。為了不造成特征穿越,會按時間戳對樣本進行排序,將每個用戶的最后一次評分記錄放入測試集中,倒數(shù)第二次評分記錄放入驗證集中,其余的作為訓練集。

4.2 實驗結(jié)果

5. 總結(jié)

本?提出了Mixed Interest Network (MiNet)來進?跨域的點擊率預(yù)估,并取得了不錯的實驗效果。跨域預(yù)估的主要優(yōu)勢是能夠?qū)鋯訂栴}起到?定的幫助,如果?戶在?標域中的?為?較少的話,可以通過在源域中的?為來進?輔助的預(yù)估,提升冷啟動的效果。

作者建模了三種不同的用戶興趣,使用了兩層注意力,還用了輔助任務(wù)來幫助學習。

參考文獻

  • MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(https://arxiv.org/abs/2008.02974)?

  • 跨域推薦技術(shù)在58部落內(nèi)容社區(qū)的實踐((https://baijiahao.baidu.com/s?id=1672246490825129479&wfr=spider&for=pc))

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎(chǔ)下載機器學習的數(shù)學基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):

總結(jié)

以上是生活随笔為你收集整理的【论文解读】CIKM20-MiNet:阿里|跨域点击率预估混合兴趣模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。