當前位置：首頁 > 运维知识 > windows >内容正文

windows

用戶行為

用戶行為數據

用戶行為分為?顯性?和?隱性?兩種。

顯性反饋行為(explicit feedback)
用戶評分、喜歡/不喜歡
隱性反饋行為(implicit feedback)
頁面瀏覽行為、消費行為

兩者比較

如何表示用戶：

user id
產生行為的用戶
item id
產生行為的對象
behavior type
行為的種類(如購買還是瀏覽)
context
產生行為的上下文，包括時間和地點
behavior weight
行為的權重(用戶評分、觀看時長等)
behavior content
行為的內容(評論文本、標簽等)

數據集的一般分類：

無上下文信息的隱性反饋數據集
包含 user id, item id
如 Book-Crossing
無上下文信息的顯性反饋數據集
包含 user id, item id, 物品評分
有上下文信息的隱性反饋數據集
包含 user id, item id, 用戶對物品產生行為的 timestamp
如 Lastfm
有上下文信息的顯性反饋數據集
包含 user id, item id, 物品評分, 用戶對物品產生行為的 timestamp
如 Netflix Prize

用戶行為分析

物品流行度?和?用戶活躍度?都近似于?長尾分布。下圖表示用戶活躍度和物品流行度的關系(MovieLens 數據集)。

一般認為，新用戶傾向于瀏覽熱門物品，因為對網站不熟悉，只能點擊首頁的熱門物品，而老用戶會逐漸開始瀏覽冷門物品。

僅僅基于用戶行為數據設計的推薦算法一般稱為協同過濾算法，有很多種方法，這里介紹?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph)，這其中，最有名、在業界得到最廣泛應用的算法是基于鄰域的方法。接下來的博客會一一討論這些算法。

實驗設計

數據集

采用 GroupLens 提供的 MovieLens 數據集，選中等大小的數據集，包含 6000 多用戶對 4000 多部電影的 100 萬條評分。

實驗目的

研究隱反饋數據集中的 Top N 推薦問題，因此忽略數據集中的評分記錄。預測的是用戶會不會對某部電影評分，而不是預測用戶在準備對某部電影評分對前提下會給電影評多少分。

實驗過程

離線實驗。

將用戶行為數據集均勻的隨機分成 M 份(這里取 8)
挑一份作為測試集，剩下 M-1 份作為訓練集
在訓練集上建立用戶興趣模型，在測試集上評測，統計評測指標
M 次實驗，每次使用不同的測試集
M 次試驗的評測指標取平均值
防止過擬合
如果數據集夠大，模型夠簡單，為了快速通過離線實驗初步選擇算法，也可以只進行一次實驗

12345678910

def SplitData(data, M, k, seed):test = []train = []random.seed(seed)for user, item in data:if random.randint(0,M) == k:test.append([user,item])else:train.append([user,item])return train, test

評測指標

準確率
召回率
覆蓋率
新穎度

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455

def Precision(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += Nreturn hit / (all * 1.0)def Recall(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += len(tu)return hit / (all * 1.0)def Coverage(train, test, N):recommend_items = set()all_items = set()for user in train.keys():for item in train[user].keys():all_items.add(item)rank = GetRecommendation(user, N)for item, pui in rank:recommend_items.add(item)return len(recommend_items) / (len(all_items) * 1.0)def Popularity(train, test, N):item_popularity = dict()for user, items in train.items():for item in items.keys():if item not in item_popularity:item_popularity[item] = 0item_popularity[item] += 1ret = 0n=0for user in train.keys():rank = GetRecommendation(user, N)for item, pui in rank:ret += math.log(1 + item_popularity[item])n += 1ret /= n * 1.0return ret

該實驗設計用于接下來?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph)?的博客中。

原文地址： http://www.shuang0420.com/2017/02/08/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E7%94%A8%E6%88%B7%E8%A1%8C%E4%B8%BA%E5%92%8C%E5%AE%9E%E9%AA%8C%E8%AE%BE%E8%AE%A1/

總結

以上是生活随笔為你收集整理的推荐系统--用户行为和实验设计的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： TensorFlow 实战 MINST
下一篇： java信息管理系统总结_java实现科