當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习用户画像_一文告诉你什么是用户画像

發布時間：2023/12/10 pytorch 47 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习用户画像_一文告诉你什么是用户画像小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

什么是用戶畫像

用戶畫像，英文又叫 User Profile，我們經常看到在 PPT 中展現出高大上的用戶畫像，展現的方式是采用標簽云的方式繪制一個人的形狀，或者在一個人物形象旁邊列出若干人口統計學屬性，以此來表達“用戶畫像”這個概念。

上面這種方式看上去非常炫酷，但實際上這么做的目的只是為了對外展現，用戶畫像最應該是給機器看，而不是給人看。如果要給機器看，那每個用戶的畫像應該就是一個向量。

用戶向量化后的結果，就是 User Profile，俗稱“用戶畫像”。所以，用戶畫像不是推薦系統的目的，而是在構建推薦系統的過程中產生的一個關鍵環節的副產品。

通常大型推薦系統一般都分為召回和排序兩個階段，因為全量物品通常數量非常大，無法為一個用戶(User)逐一計算每一個物品(Item)的評分，這時候就需要一個召回階段，其實就是預先篩選一部分物品(Item)，從而降低計算量，用戶畫像除了用于最終匹配評分，還要用在召回。所以，構建用戶畫像就要以這兩個階段為目的。

用戶畫像關鍵因素

建立用戶畫像有兩個關鍵點，一個是維度，另一個是量化。這里舉個簡單的例子來說明下。比如有以下幾家旅店，旅店的屬性(標簽)如下:

名稱價格環境距離A100/晚中5km

B200/晚優2km

C150/晚差10km

D150/晚優1km

對價格、環境、距離分別映射一個評分。假定都分為三個級別，價格越低評分越高，環境越好評分越高，距離越近評分越高，那么映射后的結果如下：

名稱價格環境距離A322

B133

C211

D233

映射后生成旅店的特征矩陣(維度矩陣)，每個旅店都對應一個向量，比如旅店A對應的向量就是 [1, 2, 2]。接下來需要對人也映射一個向量，映射方法就是看你多在意這幾個因素，比如我對價格不敏感(不缺錢)，但是非常在意環境和距離，那我這個人對應的向量就是[1, 3, 3]。然后將物品的矩陣與人的向量相乘，得到這個人對每個物品的評分。

可以看到，最后會有一個評分列表，分別表示我對每個旅店的預估評分。了解了上面的例子后，再來看下用戶畫像中關鍵的兩個因素：維度和量化。

上面例子中選擇的維度分別是：價格、環境、距離。這幾個維度有以下幾個特點：維度名稱都是可解釋的

維度的數量是拍腦袋拍出來的

選擇什么維度也是拍腦袋拍出來的

在實際生產環境中，維度名稱并不一定需要由可解釋性，維度數量以及選擇什么維度也不應該都以主觀意愿來決定。

再來看下量化，實際生產環境中，用戶畫像每個維度的量化，應該交給機器，而且以目標為導向，以推薦效果好壞來反向優化出用戶畫像才有意義。像前面的例子中的先行主觀量化而不考慮推薦效果時非常不合理的。

所以用戶畫像的量化是和第三個關鍵元素“效果”息息相關的。前面已經說過，不要為了用戶畫像而用戶畫像，它只是推薦系統的一個副產品，所以要根據使用效果(排序好壞、召回覆蓋等指標)來指導用戶畫像的量化。

用戶畫像構建方法

按照對用戶向量化的手段來分，用戶畫像構建方法分成三類：

1. 查戶口

查戶口的意思就是說直接使用原始數據作為用戶畫像，比如注冊資料中包含的人口統計學信息，或者瀏覽歷史、購買歷史，除了數據清洗等工作外，數據本身沒有做任何抽象和處理。通常對于用戶冷啟動等場景非常有用。

2. 堆數據

堆數據的意思就是說從歷史數據中統計過出需要的結果，常見的興趣標簽就屬于這類：從歷史行為數據中去挖掘出標簽，然后在標簽維度上做數據統計，用統計結果作為量化結果。一般非常炫酷的用戶畫像都是通過這種方法制作的。

3. 黑盒子

黑盒子的意思是說使用機器學習方法，學習出人類無法直觀理解的稠密向量，也最不被非技術人員重視，但實際上在推薦系統中承擔的作用非常大。

比如使用潛語義模型構建用戶閱讀興趣，或者使用矩陣分解得到的隱因子，或者使用深度學習模型學習用戶的 Embedding 向量。這一類用戶畫像數據因為通常是不可解釋，不能直接被人看懂。

總結

用戶畫像應該是讓機器看的，所以就需要是一種結構化的數據，可以認為是用戶信息的向量化結果。用戶畫像的關鍵元素有維度和量化，量化時需要以推薦系統的效果為指導。通常構建用戶畫像的方法有三種：采用原始信息(查戶口)、使用統計結果(可被理解)、使用機器學習方法(無法被人理解，但是很重要)。

總結

以上是生活随笔為你收集整理的深度学习用户画像_一文告诉你什么是用户画像的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：官方通报D2809脱线事故原因：列车高速
下一篇：梳理百年深度学习发展史-七月在线机器学习

pytorch

深度学习 用户画像_一文告诉你什么是用户画像

總結

深度学习用户画像_一文告诉你什么是用户画像