日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索推荐炼丹笔记:Transformer在搜索推荐中的应用

發(fā)布時(shí)間:2025/3/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索推荐炼丹笔记:Transformer在搜索推荐中的应用 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:九羽,公眾號:煉丹筆記

BERT等Transformer模型在自然語言處理領(lǐng)域大放異彩之后,將Transformer應(yīng)用在各個(gè)領(lǐng)域變成了一種潮流,包括之前文章中介紹的Image Transformer和本文要介紹的,在搜索推薦領(lǐng)域排序算法階段,利用高階特征組合的AutoInt、對用戶行為序列建模的BST、Transformer在工業(yè)界中的應(yīng)用和Transformer在數(shù)據(jù)算法競賽(2020年騰訊廣告算法大賽)中驚人表現(xiàn)等。

CTR預(yù)估領(lǐng)域面臨著諸多挑戰(zhàn),輸入特征的稀疏高維問題,高階特征的計(jì)算復(fù)雜度問題等本文將數(shù)值特征和類別特征映射到同一個(gè)低維空間,利用帶殘差連接的多頭注意力機(jī)制顯式的進(jìn)行交叉特征獲取,提出了一種能夠自學(xué)習(xí)特征高階交叉的方法。

Interacting Layer是本篇論文中最核心的創(chuàng)新點(diǎn),借鑒了NLP問題中的Multi-head Self-Attention方法,利用Key-Value Attention,每個(gè)Attention Head對應(yīng)三個(gè)轉(zhuǎn)換矩陣,Query、Key、Value。

本文利用內(nèi)積的方式計(jì)算每個(gè)特征與其他特征的相似度,然后通過計(jì)算softmax歸一化注意力分布后,加權(quán)得到新特征。以上步驟為一層Attention,作者簡單的拼接多個(gè)Attention head的輸出,引入標(biāo)準(zhǔn)的殘差連接作為最終輸出,構(gòu)造更高階的組合特征。

在之前的文章中,我們多次聊到了阿里團(tuán)隊(duì)在用戶行為序列上的工作。由于用戶行為序列(User Behavior Sequence)所蘊(yùn)含的豐富信息,同時(shí)隨著 Transformer 在 自然語言處理相關(guān)任務(wù)中的表現(xiàn)超過RNN模型,利用Transformer替代RNN捕捉 序列信息中深層含義變得水到渠成。

Behavior Sequence Transformer 模型從模型網(wǎng)絡(luò)結(jié)構(gòu)圖中我們可以發(fā)現(xiàn),非常符合CTR預(yù)估模型中Embeding&MLP的典型結(jié)構(gòu),而其創(chuàng)新點(diǎn)在于如何使用Transformer Layer 對用戶行為序列進(jìn)行建模。

“Other Features”部分將用戶、物品、上下文和交叉信息加入模型。

Transformer層引入位置相關(guān)的Position embedding,將帶時(shí)序、位置信息的多頭注意力機(jī)制Multi-Head Self-Attention用在用戶歷史點(diǎn)擊Item序列上。

  • Self-attention layer
  • Point-wise Feed-Forward Networks
  • Stacking the self-attention bloc

以上3個(gè)模塊通過捕捉行為序列中Item之間的關(guān)系來完成深層次的學(xué)習(xí)。

Transformer 在美團(tuán)搜索排序上的實(shí)踐主要分三個(gè)部分:特征工程,行為序列建模,重排序。特征工程部分借鑒 AutoInt的方法,使用Transformer Layer進(jìn)行特征的高階組合。模型結(jié)構(gòu)參考 AutoInt結(jié)構(gòu),但在實(shí)踐中根據(jù)美團(tuán)搜索的數(shù)據(jù)特點(diǎn),對模型結(jié)構(gòu)做了一些調(diào)整。行為序列建模在Transformer 行為序列建模基礎(chǔ)上進(jìn)行了模型優(yōu)化。

  • 保留將稠密特征和離散特征的 Embedding 送入到 MLP 網(wǎng)絡(luò),以隱式的方式學(xué)習(xí)其非線性表達(dá)。
  • Transformer Layer 部分,不是送入所有特征的 Embedding,而是基于人工經(jīng)驗(yàn)選擇了部分特征的 Embedding。
  • 考慮到 MLP 具有很強(qiáng)的隱式交叉能力,將所有特征的 Embedding 表示 concat 一起輸入到 MLP。
  • 特征向量生成部分和重排序模型是一個(gè)整體,聯(lián)合端到端訓(xùn)練。
  • 訓(xùn)練和預(yù)測階段固定選擇 TopK 進(jìn)行重排,遇到某些請求曝光 item 集不夠 TopK 的情況下,在末尾補(bǔ)零向量進(jìn)行對齊。

在2020年騰訊廣告算法大賽中,冠軍團(tuán)隊(duì)利用Transformer模型贏得了最后的勝利,讓人眼前一亮。

本屆算法大賽的題目來源于一個(gè)重要且有趣的問題。眾所周知,像用戶年齡和性別這樣的人口統(tǒng)計(jì)學(xué)特征是各類推薦系統(tǒng)的重要輸入特征,其中自然也包括了廣告平臺。這背后的假設(shè)是,用戶對廣告的偏好會隨著其年齡和性別的不同而有所區(qū)別。許多行業(yè)的實(shí)踐者已經(jīng)多次驗(yàn)證了這一假設(shè)。然而,大多數(shù)驗(yàn)證所采用的方式都是以人口統(tǒng)計(jì)學(xué)屬性作為輸入來產(chǎn)生推薦結(jié)果,然后離線或者在線地對比用與不用這些輸入的情況下的推薦性能。

本屆大賽的題目嘗試從另一個(gè)方向來驗(yàn)證這個(gè)假設(shè),即以用戶在廣告系統(tǒng)中的交互行為作為輸入來預(yù)測用戶的人口統(tǒng)計(jì)學(xué)屬性。賽題的“逆向思考”本身具有其研究價(jià)值和趣味性,此外也有實(shí)用價(jià)值和挑戰(zhàn)性。

鑒于以上問題,冠軍們對Masked Language Modeling(MLM)進(jìn)行改進(jìn),原始的MLM是直接mask掉整個(gè)廣告包括屬性,但只mask廣告的一部分(廣告id或者屬性)。

具體地,隨機(jī)mask掉20%的token,mask后的位置使用0向量來代替,或者采樣一個(gè)屬性id來替換。使用改進(jìn)的MLM預(yù)測這些廣告的時(shí)候,不僅可以使用最近點(diǎn)擊的廣告,也可以用它的屬性去預(yù)測,使得不同屬性的embedding能夠在語義空間上對齊。同時(shí),也采用了一個(gè)很關(guān)鍵的策略,把詞表縮小到10萬(提取top10w,其余為unk),這樣使得bert能跑起來。對于原始的MLM,我們也嘗試過,雖然有提高但提高不是很大。

最后預(yù)測這些id的時(shí)候,不僅可以使用之前之后點(diǎn)擊的廣告,也可以用它的屬性去預(yù)測。

參考文獻(xiàn)

  • 1、Behavior Sequence Transformer for E-commerce Recommendation in Alibaba. arxiv.org/pdf/1905.0687
  • 2、S 3 -Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization. arxiv.org/pdf/2008.0787
  • 3、zhuanlan.zhihu.com/p/13
  • 4、zhuanlan.zhihu.com/p/16
  • 5、AutoInt:Automatic Feature Interaction Learning via Self-Attentive Neural Networks
  • 6、2020年AI領(lǐng)域有哪些讓人驚艷的研究?
  • 7、CTR預(yù)估系列入門手冊

更多干貨,請關(guān)注微信公公眾號:煉丹筆記

總結(jié)

以上是生活随笔為你收集整理的搜索推荐炼丹笔记:Transformer在搜索推荐中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。