SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG
星標/置頂小屋,帶你解鎖
最萌最前沿的NLP、搜索與推薦技術
文 |?江城
編 |? 夕小瑤
今天分享一篇淘寶發表在 SIGIR2020?上的關于知識圖譜應用于大規模推薦的論文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》,成功應用于線上淘寶APP且有明顯效果提升,推薦一讀。
論文鏈接:
https://arxiv.org/abs/2005.12002
公眾號「夕小瑤的賣萌屋」后臺回復關鍵詞【0715】下載論文PDF
摘要
近年來,知識圖譜KG由于其豐富的連接信息在推薦上的應用越來越引起大家的興趣。現有的方法要么在KG上去探索user-item對獨立的子路徑;要么是在整個KG上使用GNN來產生user或者item的表示。雖說都有一定的效果,但是前者沒有充分捕獲user-item在KG上的結構信息;后者在產生embedding表示的過程中則忽略了user和item相互的影響。本文提出了一種新框架ATBRG,用來有效捕捉目標user-item對在KG上的結構關系。具體來說,為了在KG上關聯給定目標item和用戶行為,本文提出了graph connect和graph prune方法來構建自適應的target-behavior關系圖。為了充分提取結構信息,本文詳細介紹了ATBRG的模型結構,主要是relation-aware抽取層和表示激活層。ATBRG成功應用到淘寶APP場景并且獲得5.1%的CTR提升。
背景
粗略來說,當前基于KG的推薦方法可以分為兩類:基于Path和基于GNN的方法?;赑ath的方法通過探索目標user-item對在KG上的多個meta-path來預測用戶偏好。這是一種典型需要domain knowledge的方法,而且忽略了KG中豐富的結構信息,因此不能充分刻畫給定user和item的內在關系。如下圖左所示,這種方法由于針對各自的path單獨建模,忽略了Blouse和Dress之間的強聯系。
與此同時,基于GNN的方法針對KG中的高階連接顯示建模。然而有如下的限制:
它們主要使用GNN來聚合目標user和item各自在KG中的鄰居來豐富學習各自的表示,因此不能捕捉他們之間的相互影響。如下圖中所示,當前基于GNN的方法聚合KG中鄰居時由于不考慮用戶興趣,容易在學習目標item的embedding時引入無效的信息,例如Cup;
在工業界場景下KG是超大規模的,也就是說一個實體可能會連接到數以百萬的item。在獲取鄰居時使用random sampling有可能丟失異常關鍵的信息,如下圖中所示的Shirt;
它們忽略了用戶行為在KG上的豐富聯系;
為了解決上述的局限性,更好地提取KG中原始的信息以便更有效地進行推薦,必須滿足如下的幾個關鍵方面:
目標item-用戶行為:一個有效的基于KG的推薦應該能夠針對每一個user-item對產生語義上的子圖,捕捉它們的相互作用;
自適應性:區別于在整個KG上進行random sampling,與自適應創建語義子圖一樣,需要自適應地針對用戶行為與目標item在KG上保存有效信息;
聯系性:模型設計時需要考慮在KG上用戶行為和目標item之間的聯系;
本文結合上述的思想,主要貢獻如下:
為了有效刻畫給定目標user和item的結構聯系,本文提出graph connect和graph prune策略來構建自適應的target-behavior關系子圖更好地建模用戶行為和目標item在KG上的聯系;
本文提出了一個創新性框架ATBRG,基于提取的關系子圖來使用GNN學習用戶行為和目標item的表示;
在Yelp和Tabao工業集數據集上進行了實驗,同時成功應用到淘寶APP的場景上,驗證了ATBRG的明顯提升;
模型框架
ATBRG框架如下圖所示,主要包含兩部分:圖構建部分和模型部分。
圖構建部分
為了建模給定user-item在KG上的聯系,之前方法要么是通過random walk,要么是依賴目標item在KG上的鄰居來提取不同的path。前者忽略了KG中的結構性信息;后者則是忽略了用戶行為和目標item的相互作用,因此無論哪種方式都只是得到了推薦上的局部最優效果。
直觀來說,用戶是否點擊目標item與用戶的歷史行為有非常強的關系,本文提出構建自適應的針對用戶行為和目標item的關系圖,圖構建的具體步驟如下Agorithm 1所示。具體來說,給定一個目標user-item對<u, i>,
首先針對用戶行為B_ui和目標item i在KG上窮舉搜索多層實體鄰居;
然后將連接實體和item的路徑恢復成圖G_ui,這樣通過多個重合的實體將用戶行為和目標item連接起來了;
然后針對G_ui中的實體,如果沒有連接不同的item的話則進行剪枝;
最后,便得到了針對用戶u和目標item i的關系圖G_ui,可以描述<u, i>在KG上的結構聯系。
模型結構
從KG中得到自適應的target-behavior關系圖后,本文研究了應該如何為目標user-item對產生embedding表示。如上圖右所示,ATBRG的模型架構主要由如下的四層組成:
Embedding層,將高維稀疏特征轉換為低維稠密表示;
Relation-aware抽取層,通過聚合在自適應關系圖上的結構關系信息為用戶行為和目標item產生knowledge-aware的Embedding表示;
表示激活層,針對目標item激活相對關系性的用戶行為表示;
特征交互層,結合更多其他特征;
Relation-aware抽取層是為了有效、全面地提取關系子圖中的結構聯系性信息。在電商場景中,用戶可能點擊或者購買同樣的item i,顯然不同的行為象征著用戶對于item i不同的偏好。基于上述討論以及受[2]啟發,本文構建relation-aware的抽取層來學習實體之間不同的關系在KG中的豐富的結構性信息。具體來說,對于每一個目標item(用戶行為中item_b或者目標item i),本文將其視為中心節點,并且使用relation-aware聚合器聚合其在關系子圖G_ui中的鄰居信息。
表示激活層就是使用attention學習用戶歷史行為在目標item上的激活權重。直觀來說,用戶的不同行為對于最終的預測打分會有不同的貢獻。舉例來說,如果目標item是shirt C,那么行為shirt A會比行為show B更有信息量一些。
實驗結果
效果對比
本文在Taobao和Yelp兩個工業級基準數據集上進行了實驗。在Taobao數據集上,除了用戶歷史行為,本文為其構建了item knowledge(譬如分類、父類以及風格等)。在Yelp數據集上,KG則主要是本地商業信息(譬如位置和分類)。
本文將ATBRG和三種類型的表示學習型baseline進行了對比?;谔卣鞯姆椒?#xff0c;譬如YoutubeNet和DeepFM;基于用戶行為的方法,譬如DIN和DIEN等;基于KG的方法,譬如RippleNet和KGAT等。詳細實驗結果對比數據如下表所示,從實驗數據我們可以得到如下分析結論:
基于特征的方法在兩個數據集上的表現較差,也就是說手工的特征工程已經不足以建模user和item之間的復雜聯系;
基于用戶行為的方法證實了引入歷史行為對于學習用戶偏好是非常重要的;
總的來說,基于KG的方法效果要好于基于用戶歷史行為的方法,也從側面證實了引入KG可以捕捉user和item的內在交互。
ATBRG超參調整
本文在這部分進行了多種實驗,仔細調研了ATBRG的模型架構調整和關鍵參數設定的影響。
首先是分別去除relation-aware機制和表示激活層的實驗效果對比,說明KG中的不同關系應該被區分出來,而且用戶行為在KG中的語義關系也應該同時被考慮進來。
其次是鄰居深度的效果影響。鄰居深度從0提升到2過程中效果更好,但是從2到3過程中效果反而變得更差。一種可能的解釋是KG中太長的聯系可能包含了一定的噪聲,譬如Shirt - Women Clothing - Clothing - Men Clothing - Shoe。
然后是Aggregator類型的影響。如下圖所示,分別對比了concat、sum,self-attention以及nonlinear transformation的效果??偟膩碚f,復雜的aggregator相對有更好的效果表現。
線上A/B實驗
如下圖是ATBRG應用在淘寶APP的系統架構圖。相對于線上DIN的基線,ATBRG相對提升了6.8%的點擊數量以及5.1%的CTR提升,同時在線預測時間增長了8ms。
喜歡本文的小伙伴,強烈建議加入賣萌屋的推薦系統垂類討論群,不僅可以認識眾多志同道合的優秀小伙伴,而且還有若干賣萌屋美麗小姐姐(劃掉)、頂會審稿人、大廠研究員、知乎大V等你來撩哦。
如果提示已滿或過期,或希望加入領域大群(自然語言處理、搜索技術、推薦系統、算法崗求職等)或其他垂類討論群,請在后臺回復關鍵詞【入群】獲取入口哦。
記得掃描下方二維碼關注并星標置頂,我才能來到你面前哦。
參考文獻
[1] ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation
[2] Exploiting edge features for graph neural networks
總結
以上是生活随笔為你收集整理的SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本预处理跑得慢?抱抱脸团队又放福利,1
- 下一篇: 预训练模型的前世今生(有福利!)