推荐系统--用户行为和实验设计
主要介紹推薦系統用戶行為數據、實驗設計,是接下來算法實驗的基礎。
用戶行為
用戶行為數據
用戶行為分為?顯性?和?隱性?兩種。
- 顯性反饋行為(explicit feedback)
用戶評分、喜歡/不喜歡 - 隱性反饋行為(implicit feedback)
頁面瀏覽行為、消費行為
兩者比較
如何表示用戶:
- user id
產生行為的用戶 - item id
產生行為的對象 - behavior type
行為的種類(如購買還是瀏覽) - context
產生行為的上下文,包括時間和地點 - behavior weight
行為的權重(用戶評分、觀看時長等) - behavior content
行為的內容(評論文本、標簽等)
數據集的一般分類:
- 無上下文信息的隱性反饋數據集
包含 user id, item id
如 Book-Crossing - 無上下文信息的顯性反饋數據集
包含 user id, item id, 物品評分 - 有上下文信息的隱性反饋數據集
包含 user id, item id, 用戶對物品產生行為的 timestamp
如 Lastfm - 有上下文信息的顯性反饋數據集
包含 user id, item id, 物品評分, 用戶對物品產生行為的 timestamp
如 Netflix Prize
用戶行為分析
物品流行度?和?用戶活躍度?都近似于?長尾分布。下圖表示用戶活躍度和物品流行度的關系(MovieLens 數據集)。
一般認為,新用戶傾向于瀏覽熱門物品,因為對網站不熟悉,只能點擊首頁的熱門物品,而老用戶會逐漸開始瀏覽冷門物品。
僅僅基于用戶行為數據設計的推薦算法一般稱為協同過濾算法,有很多種方法,這里介紹?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph),這其中,最有名、在業界得到最廣泛應用的算法是基于鄰域的方法。接下來的博客會一一討論這些算法。
實驗設計
數據集
采用 GroupLens 提供的 MovieLens 數據集,選中等大小的數據集,包含 6000 多用戶對 4000 多部電影的 100 萬條評分。
實驗目的
研究隱反饋數據集中的 Top N 推薦問題,因此忽略數據集中的評分記錄。預測的是用戶會不會對某部電影評分,而不是預測用戶在準備對某部電影評分對前提下會給電影評多少分。
實驗過程
離線實驗。
- 將用戶行為數據集均勻的隨機分成 M 份(這里取 8)
挑一份作為測試集,剩下 M-1 份作為訓練集 - 在訓練集上建立用戶興趣模型,在測試集上評測,統計評測指標
- M 次實驗,每次使用不同的測試集
M 次試驗的評測指標取平均值
防止過擬合
如果數據集夠大,模型夠簡單,為了快速通過離線實驗初步選擇算法,也可以只進行一次實驗
| 12345678910 | def SplitData(data, M, k, seed):test = []train = []random.seed(seed)for user, item in data:if random.randint(0,M) == k:test.append([user,item])else:train.append([user,item])return train, test |
評測指標
- 準確率
- 召回率
- 覆蓋率
- 新穎度
| 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455 | def Precision(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += Nreturn hit / (all * 1.0)def Recall(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += len(tu)return hit / (all * 1.0)def Coverage(train, test, N):recommend_items = set()all_items = set()for user in train.keys():for item in train[user].keys():all_items.add(item)rank = GetRecommendation(user, N)for item, pui in rank:recommend_items.add(item)return len(recommend_items) / (len(all_items) * 1.0)def Popularity(train, test, N):item_popularity = dict()for user, items in train.items():for item in items.keys():if item not in item_popularity:item_popularity[item] = 0item_popularity[item] += 1ret = 0n=0for user in train.keys():rank = GetRecommendation(user, N)for item, pui in rank:ret += math.log(1 + item_popularity[item])n += 1ret /= n * 1.0return ret |
該實驗設計用于接下來?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph)?的博客中。
原文地址: http://www.shuang0420.com/2017/02/08/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E7%94%A8%E6%88%B7%E8%A1%8C%E4%B8%BA%E5%92%8C%E5%AE%9E%E9%AA%8C%E8%AE%BE%E8%AE%A1/
總結
以上是生活随笔為你收集整理的推荐系统--用户行为和实验设计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorFlow 实战 MINST
- 下一篇: java信息管理系统总结_java实现科