日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

推荐系统--用户行为和实验设计

發布時間:2025/3/15 windows 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐系统--用户行为和实验设计 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

主要介紹推薦系統用戶行為數據、實驗設計,是接下來算法實驗的基礎。

用戶行為

用戶行為數據

用戶行為分為?顯性?和?隱性?兩種。

  • 顯性反饋行為(explicit feedback)
    用戶評分、喜歡/不喜歡
  • 隱性反饋行為(implicit feedback)
    頁面瀏覽行為、消費行為

兩者比較

如何表示用戶:

  • user id
    產生行為的用戶
  • item id
    產生行為的對象
  • behavior type
    行為的種類(如購買還是瀏覽)
  • context
    產生行為的上下文,包括時間和地點
  • behavior weight
    行為的權重(用戶評分、觀看時長等)
  • behavior content
    行為的內容(評論文本、標簽等)

數據集的一般分類:

  • 無上下文信息的隱性反饋數據集
    包含 user id, item id
    如 Book-Crossing
  • 無上下文信息的顯性反饋數據集
    包含 user id, item id, 物品評分
  • 有上下文信息的隱性反饋數據集
    包含 user id, item id, 用戶對物品產生行為的 timestamp
    如 Lastfm
  • 有上下文信息的顯性反饋數據集
    包含 user id, item id, 物品評分, 用戶對物品產生行為的 timestamp
    如 Netflix Prize

用戶行為分析

物品流行度?和?用戶活躍度?都近似于?長尾分布。下圖表示用戶活躍度和物品流行度的關系(MovieLens 數據集)。

一般認為,新用戶傾向于瀏覽熱門物品,因為對網站不熟悉,只能點擊首頁的熱門物品,而老用戶會逐漸開始瀏覽冷門物品。

僅僅基于用戶行為數據設計的推薦算法一般稱為協同過濾算法,有很多種方法,這里介紹?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph),這其中,最有名、在業界得到最廣泛應用的算法是基于鄰域的方法。接下來的博客會一一討論這些算法。

實驗設計

數據集

采用 GroupLens 提供的 MovieLens 數據集,選中等大小的數據集,包含 6000 多用戶對 4000 多部電影的 100 萬條評分。

實驗目的

研究隱反饋數據集中的 Top N 推薦問題,因此忽略數據集中的評分記錄。預測的是用戶會不會對某部電影評分,而不是預測用戶在準備對某部電影評分對前提下會給電影評多少分。

實驗過程

離線實驗。

  • 將用戶行為數據集均勻的隨機分成 M 份(這里取 8)
    挑一份作為測試集,剩下 M-1 份作為訓練集
  • 在訓練集上建立用戶興趣模型,在測試集上評測,統計評測指標
  • M 次實驗,每次使用不同的測試集
    M 次試驗的評測指標取平均值
    防止過擬合
    如果數據集夠大,模型夠簡單,為了快速通過離線實驗初步選擇算法,也可以只進行一次實驗
12345678910 def SplitData(data, M, k, seed):test = []train = []random.seed(seed)for user, item in data:if random.randint(0,M) == k:test.append([user,item])else:train.append([user,item])return train, test

評測指標

  • 準確率
  • 召回率
  • 覆蓋率
  • 新穎度
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455 def Precision(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += Nreturn hit / (all * 1.0)def Recall(train, test, N):hit = 0all = 0for user in train.keys():tu = test[user]rank = GetRecommendation(user, N)for item, pui in rank:if item in tu:hit += 1all += len(tu)return hit / (all * 1.0)def Coverage(train, test, N):recommend_items = set()all_items = set()for user in train.keys():for item in train[user].keys():all_items.add(item)rank = GetRecommendation(user, N)for item, pui in rank:recommend_items.add(item)return len(recommend_items) / (len(all_items) * 1.0)def Popularity(train, test, N):item_popularity = dict()for user, items in train.items():for item in items.keys():if item not in item_popularity:item_popularity[item] = 0item_popularity[item] += 1ret = 0n=0for user in train.keys():rank = GetRecommendation(user, N)for item, pui in rank:ret += math.log(1 + item_popularity[item])n += 1ret /= n * 1.0return ret

該實驗設計用于接下來?基于鄰域的方法(neighborhood-based),?隱語義模型(latent factor model),?基于圖的隨機游走算法(random walk on graph)?的博客中。



原文地址: http://www.shuang0420.com/2017/02/08/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E7%94%A8%E6%88%B7%E8%A1%8C%E4%B8%BA%E5%92%8C%E5%AE%9E%E9%AA%8C%E8%AE%BE%E8%AE%A1/

總結

以上是生活随笔為你收集整理的推荐系统--用户行为和实验设计的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。