日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

《推荐系统实践》要点思维导图

發布時間:2025/4/16 windows 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《推荐系统实践》要点思维导图 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

推薦系統實踐

1 好的推薦系統

1.1 基本任務:聯系用戶和物品

與分類目錄、搜索引擎一樣解決信息過載問題。

解決無明確目的的物品需求,并能發掘物品長尾。

1.2 推薦應用

應用于電子商務、視頻網站、音樂電臺、社交網絡、個性化閱讀、LBS、個性化郵件、定向廣告投放。

前端頁面、后臺日志和推薦算法三功能。

1.3 系統評測

1)實驗方法:離線實驗、用戶調查、在線實驗。

2)評測指標:

用戶滿意度(問卷)。
預測準確度(評分預測RMSE和MAE、TopN推薦準確率和召回率)。
覆蓋率(信息熵和基尼系數)。
多樣性、新穎性、驚喜度、信任度、實時性、健壯性、商業目標。

3)評測維度:用戶、物品、時間。

2 利用用戶行為數據

2.1用戶行為數據:正、負反饋

無上下文信息的隱性反饋數據

無上下文信息的顯性反饋數據

有上下文信息的隱性反饋數據

有上下文信息的顯性反饋數據

2.2 用戶行為分析

1)用戶活躍度和物品流行度的分布:長尾分布

2)用戶活躍度和物品流行度的關系:協同過濾推薦算法

基于領域的方法:UserCF和ItemCF
隱語義模型LFM
基于圖的隨機游走算法

2.3 算法及評測

訓練集和測試集、召回率、準確率、覆蓋率、流行度

UserCF:用戶相似度矩陣和用戶對物品的興趣度

ItemCF:物品相似度矩陣和用戶對物品的興趣度

LFM:P、Q矩陣SVD求解以及用戶對物品的興趣度

基于圖的模型(graph-based model):度量頂點間相關性的算法,基于隨機游走的PersonalRank算法

3 推薦系統冷啟動問題

3.1 冷啟動問題

1)用戶冷啟動:解決新用戶個性化推薦

2)物品冷啟動:解決新物品推薦給感興趣用戶

3)系統冷啟動:解決新系統向用戶推薦物品

4)非個性化推薦:熱門排行榜

3.2 利用用戶注冊信息

1)人口統計學信息:年齡、性別、職業、住址等

2)用戶興趣描述

3)用戶站外行為數據:豆瓣、微博等社交網站的行為數據和社交數據

3.3 選擇合適的物品啟動用戶的興趣

1)熱門

2)代表性和區分性

3)多樣性

3.4 利用物品的內容信息

向量空間模型Vector Space Model,文本-分詞-實體檢測-關鍵詞排名-關鍵詞向量

LDA話題模型

ECML/PKDD 2011年物品冷啟動比賽

3.5 發揮專家的作用:專家樣本標注

音樂基因項目,標注400多個特征

電影基因項目,mood\plot\genres\time\period\praise\style\look\flag

4 利用用戶標簽數據

4.1 UGC標簽系統的代表應用

Delicious:網頁打標簽

CiteULike:協同過濾collaborative-filtering和評測evaluate

Last.fm:標簽云tag cloud

豆瓣:評論和社交網站,用戶打標簽

Hulu:視頻網站,熱門標簽

4.2 標簽系統中的推薦問題:標注時推薦和標簽行為推薦

標注行為:蘊涵用戶興趣信息

標簽流行度也符合長尾分布

標簽內容:物品種類、用戶觀點等

4.3 基于標簽的推薦系統

標簽行為:三元組(u,i,b)

SimpleTagBased算法

統計每個用戶常用的標簽
統計每個標簽標記最多的物品
先推薦常用再推薦相關標簽熱門物品

TagBasedTFIDF算法

借鑒TFIDF思想

TagBasedTFIDF++算法

適當懲罰熱門標簽和熱門物品

數據稀疏性:計算標簽相似度

標簽清理

4.4 基于圖的推薦算法

用戶、物品、標簽頂點,權重邊

4.5 基于標簽的推薦解釋

豆瓣:標簽云

用戶對物品的興趣

用戶對標簽的興趣tag preference
IterPopularTags算法
UserPopularTags算法
標簽與物品的相關度tag relevance

用戶推薦標簽

ECML/PKDD2008推薦比賽的算法

張量分解tensor factorization
基于LDA的算法
基于圖的算法

5 利用上下文信息

Sourcetone音樂推薦系統

5.1 時間上下文信息

用戶興趣會變化、物品有生命周期、季節效應

系統時間特性分析,三元組(u,i,t)

推薦系統的實時性

推薦算法的時間多樣性

時間上下文推薦算法

1)最近最熱門RecentPopularity:物品i最近流行度
2)時間上下文的ItemCF
3)時間上下文的UserCF
時間段圖模型SGM:路徑融合算法
USGM:物品時間節點權重為0
ISGM:用戶時間節點權重為0

5.2 地點上下文信息:LBS

Hotpot服務

基于位置的推薦算法LARS:具有空間屬性的物品

興趣本地化
活動本地化

6 利用社交網絡數據

6.1 獲取社交網絡數據的途徑

電子郵件:郵箱地址

用戶注冊信息

用戶的位置數據

論壇和討論組

即時聊天工具

社交網站:社會圖譜和興趣圖譜

6.2 社交網絡數據簡介

雙向確認的社交網絡數據:Facebook和人人網,用戶關系要雙方確認

單向關注的社交網絡數據:Twitte和微博

基于社區的社交網絡數據:論壇

社交網絡用戶的入度和出度分布滿足長尾分布

6.3 基于社交網絡的推薦:ACM2010年推薦系統大會

基于領域的社會化推薦算法:用戶之間社會熟悉度和對物品興趣相似度

基于圖的社會化推薦算法

大數據級別下內存不足問題:Twitter架構解決方案

社會化推薦系統的評測:Rashmi Sinha和Kirsten Swearingen對比協同推薦的論文

信息流推薦

Facebook和Twitter:用戶信息墻
EdgeRank算法:綜合信息流會話的時間、長度和用戶興趣相似度

6.4 給用戶推薦好友:鏈接預測,Jon Kleinberg的文章

基于內容的匹配

基于共同興趣的好友推薦

基于社交網絡圖的好友推薦:Slashdot社交網絡數據集

好友推薦算法對比

InterestBased:興趣相似
SocailBased:社交網絡
SONA:IBM內部推薦算法

6.5 擴展要點

6度原理:任意兩個人都可以通過不超過6個人的路徑相互認識,即社交網絡圖的直徑為6

六度原理的證明,均勻隨機圖,參考Random Graph書

社交網絡研究的兩個著名問題

如何度量人的重要性,即社交網絡頂點的中心度(centrality)
如何度量社交網絡中人與人之間的關系,即鏈接預測

Epinion數據集

Ma Hao矩陣分解的社會化推薦算法解決評分預測問題
矩陣分解模型中加入正則化項
具有社交關系的用戶的隱語義向量具有較高相似度

ACM2010年社會推薦比賽

社交網絡作為上下文

7 推薦系統實例

7.1 外圍架構

UI系統:網頁展示并與用戶交互

日志系統:記錄用戶的UI行為

數據收集和存儲

7.2 基于特征的推薦系統架構

特征種類

人口統計學特征
用戶行為特征
用戶話題特征

推薦系統架構圖

每個推薦引擎負責一類特征或一類任務,代表一種推薦策略

7.3 推薦引擎的架構

生成用戶的特征向量

用戶行為的種類
用戶行為產生的時間
用戶行為的次數
物品的熱門程度

特征-物品相關推薦

過濾模塊

用戶已經產生過行為的物品
候選物品以外的物品
質量很差的物品

排名模塊

新穎性排名
推薦用戶不知道的、長尾中的物品
多樣性
時間多樣性
用戶反饋

MyMedia開源推薦系統架構

項目網站:http://www.mymediaproject.org/default.aspx

8 評分預測問題:三元組(u,i,r)

評分預測算法,Netflix Prize大賽

平均值

全局平均值
用戶評分平均值
物品評分平均值
用戶分類對物品分類的平均值
用戶和物品的平均分
用戶活躍度和物品流行度

基于領域的方法:結合用戶興趣相似的用戶對物品的評分

余弦相似度
皮爾遜系數
Sarwar修正余弦相似度

隱語義模型和矩陣分解模型

降維補全矩評分矩陣
傳統SVD分解
Simon Funk的SVD分解
加入偏置項后的LFM
考慮領域影響的LFM

加入時間信息

基于領域的模型融合時間信息
基于矩陣分解的模型融合時間信息

模型融合

模型級聯聯合

模型加權聯合


總結

以上是生活随笔為你收集整理的《推荐系统实践》要点思维导图的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。