深度学习 用户画像_一文告诉你什么是用户画像
什么是用戶畫像
用戶畫像,英文又叫 User Profile,我們經常看到在 PPT 中展現出高大上的用戶畫像,展現的方式是采用標簽云的方式繪制一個人的形狀,或者在一個人物形象旁邊列出若干人口統計學屬性,以此來表達“用戶畫像”這個概念。
上面這種方式看上去非常炫酷,但實際上這么做的目的只是為了對外展現,用戶畫像最應該是給機器看,而不是給人看。如果要給機器看,那每個用戶的畫像應該就是一個向量。
用戶向量化后的結果,就是 User Profile,俗稱“用戶畫像”。所以,用戶畫像不是推薦系統的目的,而是在構建推薦系統的過程中產生的一個關鍵環節的副產品。
通常大型推薦系統一般都分為召回和排序兩個階段,因為全量物品通常數量非常大,無法為一個用戶(User)逐一計算每一個物品(Item)的評分,這時候就需要一個召回階段,其實就是預先篩選一部分物品(Item),從而降低計算量,用戶畫像除了用于最終匹配評分,還要用在召回。所以,構建用戶畫像就要以這兩個階段為目的。
用戶畫像關鍵因素
建立用戶畫像有兩個關鍵點,一個是維度,另一個是量化。這里舉個簡單的例子來說明下。比如有以下幾家旅店,旅店的屬性(標簽)如下:
名稱價格環境距離A100/晚中5km
B200/晚優2km
C150/晚差10km
D150/晚優1km
對價格、環境、距離分別映射一個評分。假定都分為三個級別,價格越低評分越高,環境越好評分越高,距離越近評分越高,那么映射后的結果如下:
名稱價格環境距離A322
B133
C211
D233
映射后生成旅店的特征矩陣(維度矩陣),每個旅店都對應一個向量,比如旅店A對應的向量就是 [1, 2, 2]。接下來需要對人也映射一個向量,映射方法就是看你多在意這幾個因素,比如我對價格不敏感(不缺錢),但是非常在意環境和距離,那我這個人對應的向量就是[1, 3, 3]。然后將物品的矩陣與人的向量相乘,得到這個人對每個物品的評分。
可以看到,最后會有一個評分列表,分別表示我對每個旅店的預估評分。了解了上面的例子后,再來看下用戶畫像中關鍵的兩個因素:維度和量化。
上面例子中選擇的維度分別是:價格、環境、距離。這幾個維度有以下幾個特點:維度名稱都是可解釋的
維度的數量是拍腦袋拍出來的
選擇什么維度也是拍腦袋拍出來的
在實際生產環境中,維度名稱并不一定需要由可解釋性,維度數量以及選擇什么維度也不應該都以主觀意愿來決定。
再來看下量化,實際生產環境中,用戶畫像每個維度的量化,應該交給機器,而且以目標為導向,以推薦效果好壞來反向優化出用戶畫像才有意義。像前面的例子中的先行主觀量化而不考慮推薦效果時非常不合理的。
所以用戶畫像的量化是和第三個關鍵元素“效果”息息相關的。前面已經說過,不要為了用戶畫像而用戶畫像,它只是推薦系統的一個副產品,所以要根據使用效果(排序好壞、召回覆蓋等指標)來指導用戶畫像的量化。
用戶畫像構建方法
按照對用戶向量化的手段來分,用戶畫像構建方法分成三類:
1. 查戶口
查戶口的意思就是說直接使用原始數據作為用戶畫像,比如注冊資料中包含的人口統計學信息,或者瀏覽歷史、購買歷史,除了數據清洗等工作外,數據本身沒有做任何抽象和處理。通常對于用戶冷啟動等場景非常有用。
2. 堆數據
堆數據的意思就是說從歷史數據中統計過出需要的結果,常見的興趣標簽就屬于這類:從歷史行為數據中去挖掘出標簽,然后在標簽維度上做數據統計,用統計結果作為量化結果。一般非常炫酷的用戶畫像都是通過這種方法制作的。
3. 黑盒子
黑盒子的意思是說使用機器學習方法,學習出人類無法直觀理解的稠密向量,也最不被非技術人員重視,但實際上在推薦系統中承擔的作用非常大。
比如使用潛語義模型構建用戶閱讀興趣,或者使用矩陣分解得到的隱因子,或者使用深度學習模型學習用戶的 Embedding 向量。這一類用戶畫像數據因為通常是不可解釋,不能直接被人看懂。
總結
用戶畫像應該是讓機器看的,所以就需要是一種結構化的數據,可以認為是用戶信息的向量化結果。用戶畫像的關鍵元素有維度和量化,量化時需要以推薦系統的效果為指導。通常構建用戶畫像的方法有三種:采用原始信息(查戶口)、使用統計結果(可被理解)、使用機器學習方法(無法被人理解,但是很重要)。
總結
以上是生活随笔為你收集整理的深度学习 用户画像_一文告诉你什么是用户画像的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 官方通报D2809脱线事故原因:列车高速
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习