当下推荐系统的分析和关于长尾效应的解决猜想
記錄一次線下技術分享心得,和自己工作上的一點體會,有不對的地方還請各位前輩指出。
當下推薦生態的發展歷史:
? ? 從規則到協同過濾再到模型和現在比較流行的基于機器學習的推薦
? ? 比較常用的協同過濾算法的優缺點是很明顯的:泛化能力弱 ,樣本結果好
實時look alike 算法在微信看一看中的應用:中間采用Ralm算法?
paper:Real-time Attention Based Look-alike Model for Recommender System
https://arxiv.org/abs/1906.05022
一、未被緩解的馬太效應
? ? 1、推薦系統的設計初衷:個性化推薦需要解決信息過載
? ? ? ? 原始數據在抽象過程中都會出現信息損失,怎樣才能做到信息損失最小,這是需要結合業務需求,做適當的取舍,
? ? 2、傳統模型的遺留問題:
? ? ? ? 特征部分依賴,推薦結果趨熱(這個問題工作中也遇到過,數據中存在大比例數據,無論怎么隨機,怎么劃分訓練集和測試集,總會出現小比例數據學習不到的現象,而大比例數據學習充分)這是推薦中總會出現的馬太效應。如何解決馬太效應?(加入時間衰減?加入數據比例權重偏重?)
? ? 3、優質長尾內容投放困難
? ? ? ? 小眾興趣難以滿足、影響系統生態。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? uesr特征(年齡、性別)
原始樣本(uin,item,label)->? ? ? ? ? ? ..................? ? ? ? ? ? ? ? ? ? ? ? ? ? 擬合樣本
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? item語義特征(topic、tag)? ? ? ? ? ? ? ? ^
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?I??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? item行為特征(CTR,PV)-----------------? ? 主導方向
? ? ? ? ? ? ? ? ? ? -------------------------------------->? 存在信息損失
Look-alike模型
在廣告領域的經典方案:
基于行為擴展受眾用戶、KNN\DNN 需要針對item單獨訓練
Related Works:Similarity-based? ? ?Regression-based
(相似度 ? ?聚類。 性能好,向量相似度、回歸方式,建模種子用戶作為模型正樣本做二分類。 作為廣告是很合適的,特點時效性不太好,,廣告系統中種子用戶作為樣本輸入)以上廣告領域
我們的場景:對內用時效性要求高、候選集更新頻率高 傳統的一些推薦算法不適用。
核心需求:
? ? 1、時效性:新item分發無需重新訓練模型,實時完成種子用戶拓展
? ? 2、高效:在保持CTR前提下加強長尾內容分發,學習更具準確性和多樣性的用戶表達
? ? 3、快速:精簡預測計算,滿足線上的耗時性能要求
RALM算法:
? ? User-user Model:用種子用戶特征代替item行為特征
? ? Seeds Representation :高效且自適應的種子用戶表達方式
? ? Real-time Look-alike:實時目標用戶-種子用戶群相似度預測。
?
? ??
?
?
解釋:lookalike中:種子用戶。用戶相似度 找出目標用戶。
field域的行為,域的權重有大有小。 強關聯弱關聯弱也是重要的。 ?
歷史數據的強弱決定強弱關系 concat layer 大學習重 小學習不重?
attention 解決訓練不均衡。
之前我們用單域描述種子用戶,現在則是在各自域的訓練空間(Attention Merge Layer)中訓練學習再通過權重組合。
User Representation Learning:學習用戶多域行為高階畫像(并不單純的為用戶一維畫像描述)
Look-alike Learning:學習目標用戶與候選item種子用戶相似度完成種子擴展
Attention HybridCF Model:1、多樣性與無偏用戶興趣,2、強關聯\弱關聯特征域?
3、Attention Merge Layer:
? ? ? ? ? ?
如何表達種子用戶?
1、種子群體每個用戶對群體興趣存在不同的貢獻度,即群體的共性信息
2、種子群體中存在一小部分用戶與當前目標用戶興趣相似,即群體的個性信息
? ? ? ? ? 種子群體相對目標用戶的表達=個性信息(local info)+共性信息(globa info)
Local&Globa Embedding
1、Local attention 捕捉種子用戶 local info:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2、Global attrntion 捕捉種子用戶global info:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
在線預測計算次數=h*h*k*2,耗時>1000ms
如何解決耗時問題?
?
1、K-means聚類后聚合種子用戶,聚類計算可單獨離線完成
2、訓練中迭代更新族簇中心
3、計算次數減少至k/K耗時降低1000ms---->20ms
不同族簇中心數k帶來的指標影響
(K取值在20~100之間)
模型訓練
Negative sampling多分類:
?
?
系統架構
?
離線訓練部分:
? ? ? ?1、User Pepresentation Learning 2、Look-alike Learning? 3、 Cache 全量用戶Eu
在線異步處理:
? ? ? ? 1、更新種子用戶,預計算Eglobal,2、計算K-means類簇中心,定時更新,節約線上計算
在線服務:
? ? ? ? 1、拉取Eu拉取候選集Embed,2、計算Elocal 的哦到相似度,3、提供曝光依據
?
其他一些思考:
特征:用戶高階特征的必要性和優勢,(高階特征,此外還有統計特征,但是統計特征信息損失比較大)
模型調優:防止模型過擬合、Stacking model(高階特征用戶 沒有用item。防止過擬合)
冷啟動曝光:初始投放策略曝光閾值調整,
計算錯誤成本,小流量啟動,逐步增大流量。
冷啟動 語義特征。百級別種子 相似度曝光試探曝光。比例選取,初始曝光策略,優質長尾池,運營池,曝光池,
廣告實驗,
?
?
?
總結
以上是生活随笔為你收集整理的当下推荐系统的分析和关于长尾效应的解决猜想的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【看看这长尾效应】长尾效应综述
- 下一篇: 完美适配Windows 11,搜狗输入法