推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估
MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(CIKM20)
點(diǎn)擊率預(yù)測(cè)是在線廣告系統(tǒng)中的一項(xiàng)重要任務(wù)。現(xiàn)有的工作主要針對(duì)單域CTR預(yù)測(cè)問題和模型方面,如特征交互、用戶行為歷史和上下文信息。然而,廣告通常以自然內(nèi)容顯示,這為cross domain的CTR預(yù)測(cè)提供了機(jī)會(huì)。本文解決了這個(gè)問題,并利用輔助數(shù)據(jù),從源領(lǐng)域,以提高CTR預(yù)測(cè)性能的目標(biāo)領(lǐng)域。
我們的研究是基于UC Toutiao(一個(gè)與UC瀏覽器應(yīng)用程序集成的新聞?dòng)嗛喎?wù),每天為數(shù)億用戶提供服務(wù)),其中源域是新聞,目標(biāo)域是廣告。為了有效地利用新聞數(shù)據(jù)預(yù)測(cè)廣告的點(diǎn)擊率,我們提出了混合興趣網(wǎng)絡(luò)(MiNet),它聯(lián)合建模了三個(gè)領(lǐng)域用戶興趣類型:
- 跨域的長(zhǎng)期興趣;
- 源域的短期興趣;
- 目標(biāo)域的短期興趣。
MiNet包含兩個(gè)層次的attention,其中item-level的attention可以自適應(yīng)地從點(diǎn)擊的新聞/廣告中提取有用信息,interest-level可以自適應(yīng)地融合不同的興趣表示。離線實(shí)驗(yàn)表明,MiNet的預(yù)測(cè)性能優(yōu)于幾種最新的CTR預(yù)測(cè)方法。我們?cè)赨C頭條部署了MiNet,A/B測(cè)試結(jié)果表明在線CTR也得到了實(shí)質(zhì)性的改善。
為了有效的利用cross-domain的數(shù)據(jù),本文考慮了三類用戶興趣:
- Long-term interst across domain: 每個(gè)用戶都有自己的個(gè)人資料功能,如用戶ID、年齡組、性別和城市。這些配置文件特性反映了用戶的長(zhǎng)期內(nèi)在興趣。基于跨域數(shù)據(jù)(即用戶與之交互的所有新聞和廣告),我們能夠了解到語義更豐富、統(tǒng)計(jì)上更可靠的用戶特征嵌入。
- Short-term interst from the source domain:對(duì)于要預(yù)測(cè)其CTR的每個(gè)目標(biāo)廣告,在源域中存在相應(yīng)的短期用戶行為(例如,用戶剛剛觀看的新聞)。雖然一條新聞的內(nèi)容可能與目標(biāo)廣告的內(nèi)容完全不同,但它們之間可能存在一定的相關(guān)性。例如,一個(gè)用戶在觀看了一些娛樂星聞之后有很大的概率點(diǎn)擊一個(gè)游戲廣告,基于這樣的關(guān)系,我們就可以從源域中的有用的信息遷移到目標(biāo)域中。
- Short-term interest in the target domain:對(duì)于每個(gè)目標(biāo)廣告,目標(biāo)域中也存在相應(yīng)的短期用戶行為。用戶最近點(diǎn)擊的廣告可能對(duì)用戶在短期內(nèi)點(diǎn)擊的廣告有很大的影響。
為了應(yīng)對(duì)這些挑戰(zhàn),我們提出了混合興趣網(wǎng)絡(luò)(MiNet),其結(jié)構(gòu)下所示。在MiNet中,
- 用戶的長(zhǎng)期興趣通過用戶特征嵌入Pu的串聯(lián)建模,Pu是基于跨領(lǐng)域數(shù)據(jù)的聯(lián)合學(xué)習(xí),實(shí)現(xiàn)了知識(shí)的傳遞;
- 來自源領(lǐng)域的短期興趣通過向量as來建模,as聚合了最近點(diǎn)擊的新聞信息;
- 目標(biāo)域中的短期興趣是通過向量at來建模的,它聚集了最近點(diǎn)擊的廣告的信息。
MiNet包含了了兩種不同的attention(item-level的和interest-level的),
- item-level的attention同時(shí)用于source-domain以及target-domain,我們希望通過此可以直接從source domain和target domain中點(diǎn)擊的新聞和廣告中抽取有用的信息;(解決上述的挑戰(zhàn)1和2)
- transfer的矩陣被引入用來從新聞到廣告的遷移;(解決上述的挑戰(zhàn)3)
- long-term的用戶興趣是基于cross-domain的數(shù)據(jù)學(xué)習(xí)的,也可以進(jìn)行知識(shí)遷移(解決上述的挑戰(zhàn)3);
- 引入interest-level的attention動(dòng)態(tài)調(diào)整三類用戶興趣的重要性, 關(guān)于不同的目標(biāo)廣告(解決上述的挑戰(zhàn)4);
- 線下和線上的實(shí)驗(yàn)結(jié)果表明了MiNet的有效性;
在線廣告點(diǎn)擊率預(yù)測(cè)的任務(wù)是建立一個(gè)預(yù)測(cè)模型來估計(jì)用戶點(diǎn)擊特定廣告的概率,每個(gè)實(shí)例可以用用戶信息(“用戶ID”、“城市”、“年齡”等)和廣告信息(“創(chuàng)意ID”、“活動(dòng)ID”、“標(biāo)題”等)以及個(gè)字段來描述。字段的實(shí)例化是一個(gè)特性。例如,“用戶ID”字段可以包含諸如“2135147”和“3467291”之類的特征。表1顯示了一些示例。
- 我們定義cross-domain CTR預(yù)測(cè)任務(wù)為從source domain中利用數(shù)據(jù)來提升目標(biāo)域的CTR預(yù)估。
在新聞提要廣告中(如圖1所示的UC Toutiao),源域是自然新聞提要,目標(biāo)域是廣告。在這個(gè)場(chǎng)景中,源域和目標(biāo)域共享同一組用戶,但是沒有重疊項(xiàng)。
給定一個(gè)用戶,對(duì)于在目標(biāo)域中預(yù)測(cè)其CTR的每個(gè)目標(biāo)廣告,用戶通常在源域中查看新聞片段。雖然一條新聞的內(nèi)容可能與目標(biāo)廣告的內(nèi)容完全不同,但它們之間可能存在一定的相關(guān)性。例如,用戶在觀看一些娛樂新聞后很有可能點(diǎn)擊游戲廣告。基于這些關(guān)系,我們可以將有用的知識(shí)從源領(lǐng)域轉(zhuǎn)移到目標(biāo)領(lǐng)域。
item-level的Attention
給定一個(gè)用戶,對(duì)于每個(gè)要預(yù)測(cè)其CTR的目標(biāo)廣告,該用戶在目標(biāo)域中也有最近的行為。用戶最近點(diǎn)擊的廣告可能對(duì)用戶在短期內(nèi)點(diǎn)擊的廣告有很大的影響。
1. Effectiveness
- MiNet不僅考慮了用戶的長(zhǎng)期興趣,還考慮了用戶對(duì)這兩個(gè)領(lǐng)域的短期興趣。通過適當(dāng)?shù)亟M合這些不同的興趣信號(hào),MiNet算法的性能明顯優(yōu)于其他方法.
2. Ablation Study: Level of Attention
- 無論是item-level attention還是interest-level attention都能提高AUC,兩種注意水平的使用都能提高AUC。此外,“興趣-Attention(sigmoid)”的表現(xiàn)比“興趣-Attention(exp)”差得多。這是因?yàn)椴磺‘?dāng)?shù)募せ詈瘮?shù)不能有效地解決維度偏差問題。這些結(jié)果證明了所提出的層次注意機(jī)制的有效性。
3. Ablation Study: Effect of Modeling Different Types of User Interest
- 當(dāng)在MiNet中綜合考慮所有這些因素時(shí),我們得到了最高的AUC,表明不同類型的興趣可以互補(bǔ),聯(lián)合建模可以得到最佳和更健壯的性能。
4. Online Deployment
- 在線A/B測(cè)試表明,與DSTN相比,MiNet使在線CTR提高了4.12%。
本文研究了在線廣告的跨域CTR預(yù)測(cè)問題。我們提出了一種新的方法,稱為混合興趣網(wǎng)絡(luò)(MiNet),它模擬了三種類型的用戶興趣:
- 跨域的長(zhǎng)期興趣;
- 源域的短期興趣;
- 目標(biāo)域的短期興趣。
MiNet包含兩個(gè)level的注意,其中item-level attention可以動(dòng)態(tài)地從最近點(diǎn)擊的新聞/廣告中提取有用信息,interest-level attention可以自適應(yīng)地調(diào)整不同用戶興趣信號(hào)的重要性。離線實(shí)驗(yàn)驗(yàn)證了三種用戶興趣模型的有效性和分層注意的使用。在線A/B測(cè)試結(jié)果也驗(yàn)證了該模型在實(shí)際網(wǎng)絡(luò)廣告CTR預(yù)測(cè)任務(wù)中的有效性。
傳送門:
跨域CTR預(yù)估,帶你一飛沖天!總結(jié)
以上是生活随笔為你收集整理的推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐搜索炼丹笔记:SIM 用户行为序列点
- 下一篇: NLP炼丹笔记:Switch Trans