行为画像
用戶畫像在推薦系統中扮演著重要的角色,這篇文章主要是閱讀《用戶網絡行為畫像》一書的讀書摘要,該書較老,感覺更加適合產品經理或者不懂推薦的人看,如果讀者本身就是一個推薦從業者的話,只需要看書的前半部分,對用戶畫像有個本質的理解即可,后半部分可忽略。
用戶描述分為三種情況
-
用戶畫像(User Portrait),更傾向于對同一類用戶進行不同維度的刻畫
-
用戶角色(User Persona),更傾向于業務系統中不同用戶的角色區分
-
用戶屬性(User Profile),更傾向于對用戶屬性層面的刻畫和描述
一般將用戶畫像和用戶角色合稱為用戶畫像,而用戶屬性則是用戶畫像的子集。
用戶畫像分為:靜態屬性部分和 動態屬性部分。因為用戶畫像包含動態變化部分,所以要設計合理有效的動態更新機制,從而精確的刻畫用戶。
用戶畫像的時效性和空間性
-
用戶畫像對于時效性非常敏感,某一時刻的用戶畫像對該時刻的推薦結果最為有效,距離時間越遠,推薦結果的精確性越低,參考價值越差。
-
用戶畫像在不同的應用領域有不同的側重點,比如營銷領域的用戶畫像側重于用戶的消費習慣,而在視頻推薦領域,用戶畫像則主要側重于用戶的觀影喜好。
用戶畫像建模
-
用戶畫像建模往往就是用戶信息的標簽化
-
用戶畫像通常包含
-
定量畫像:主要包括用戶基礎變量,興趣偏好等可量化的數據特征
-
定性畫像:主要包括用戶的基本特征,行為刻畫,興趣建模和表征向量
-
用戶畫像的表現形式眾多, 常見的有:
-
關鍵詞法,即一組代表用戶屬性的特征詞
-
評分矩陣法,以二維矩陣的行為表示用戶,列表示特征項目,行列的交叉點為某用戶對某特征項目的評分
-
向量空間表示法,給出一組關鍵詞及對應的比重
-
本體表示法,以本體模型存儲用戶的屬性和關系
用戶畫像的存儲
-
關系型數據庫(便于理解、通用的SQL語言使得操作庫比較方便,維護成本低,如果達到了TB數量級,如果能夠正確設計索引,并根據數據的時效性做進一步的分級緩存,減小緩存粒度,改進緩存機制也可以做到非常快)
-
NoSQL數據庫。鍵值(Key-value)存儲數據集,比如Redis、Accumulo、BerkleyDB、LevelDB、Dynamo等;列存儲數據庫,主要應用分布式的海量數據存儲,比如Sybase IQ、Hbase、BigTable等;文檔型數據庫(主要存儲文檔、半結構化的文檔數據、以及特定格式的數據),比如CouchDB、MongoDB;圖形數據庫,比如Neo4J、InfoGrid、Infinite Graph
-
數據倉庫,是一個面向主題的、集成的、隨時間變化的數據集合,用以更好的支持企業或組織的決策分析處理。比較適合用戶畫像的存儲、管理和分析
用戶畫像的查詢
-
用戶畫像的用途決定了是以查詢為主,因此強調需要有極高的并發查詢性能,且同時對聚合性能要求很高。
-
避免查詢重復,利用緩存技術
用戶畫像的更新
-
觸發更新
-
定期更新
設計用戶畫像時,注意要有一個唯一的id表示用戶,如果有多個,注意數據間的同步。
-
主流推薦算法分類
-
CF
-
基于內容
-
基于知識
-
混合推薦
-
-
推薦系統的評測方法
-
離線評測;評分準確度-MAE(平均絕對誤差),評分準確度-MSE、NMAE、RMSE,評分準確度-預測評分關聯度(Pearnson積距、Spearman相關方法、Kendall's Tau),排序準確度、平均準確度、NDCG(Normalized Discounted Cumulative Gain),分類準確度(準確率、召回率、F值、AUC曲線),覆蓋率、多樣性、新穎性
-
用戶調查
-
在線評測;ABTest/點擊率/轉化率
-
-
常見的評測指標
-
點擊率&轉化率
-
用戶滿意度
-
預測準確度
-
覆蓋率
-
多樣性
-
新穎性
-
適應性
-
擴展性
-
-
SVD算法
-
SVD的基本原理是將給定的矩陣分解成3個矩陣的乘積形式,即
-
分解出的矩陣和被分別稱為左、右奇異矩陣,其本質是酉矩陣,即與他們各自的共軛轉置矩陣相乘后會得到單位矩陣
-
矩陣?為對角矩陣,其對角線上的值即為矩陣的奇異值
-
混合推薦方法
-
整體式混合設計
-
特征組合(從多種推薦數據源中獲取特征,將這些特征組合起來放入單一的推薦算法中)
-
特征補充(將一種推薦算法輸出的特征信息作為另一種推薦算法的輸入特征信息)
-
-
并行式混合設計
-
加權式(對多種推薦算法的計算結果進行加權平均處理,產生出單一的推薦結果)
-
混雜式(同時呈現出多種推薦算法的推薦結果)
-
切換式(在不同的推薦算法中進行切換以適應當前的推薦情境)
-
-
流水線式混合設計
-
層疊式(一種推薦算法對另一種推薦算法的推薦結果進行提煉)
-
級聯式(一種推薦算法學習到的模型作為另一種推薦算法的輸入)
-
A/BTest(線上普遍使用),其宗旨為
-
同時運行兩個或者兩個以上方案
-
兩個方案只有一個變量不變,其他條件均相同
-
有明確的評價指標用于評價兩套方案的優劣
-
實驗過程中,同一個用戶從始至終都應該只接觸一個方案
總結
- 上一篇: 201421440018王坤的作业一
- 下一篇: 掌握这些PDF转Word方法,从此你就是