用户画像:数据指标与表结构设计
本篇博客介紹一下畫(huà)像中需要開(kāi)發(fā)的數(shù)據(jù)指標(biāo)與開(kāi)發(fā)過(guò)程中表結(jié)構(gòu)的設(shè)計(jì)。
首先介紹畫(huà)像開(kāi)發(fā)的數(shù)據(jù)指標(biāo),畫(huà)像開(kāi)發(fā)過(guò)程中通用類(lèi)的指標(biāo)體系包括用戶(hù)屬性類(lèi)、用戶(hù)行為標(biāo)簽類(lèi)、用戶(hù)活躍時(shí)間段類(lèi)、用戶(hù)消費(fèi)能力類(lèi)、用戶(hù)偏好類(lèi)等
數(shù)據(jù)指標(biāo)體系
用戶(hù)屬性指標(biāo)
用戶(hù)屬性指標(biāo)根據(jù)業(yè)務(wù)數(shù)據(jù)來(lái)源,盡可能全面地描述用戶(hù)基礎(chǔ)屬性,這些基礎(chǔ)屬性值是短期內(nèi)不會(huì)有改變的。如年齡、性別、手機(jī)號(hào)歸屬地、身份證歸屬地等
用戶(hù)登錄活躍指標(biāo)
看用戶(hù)近期登錄時(shí)間段、登錄時(shí)長(zhǎng)、登錄頻次、常登陸地等指標(biāo)
用戶(hù)消費(fèi)能力指標(biāo)
看用戶(hù)的消費(fèi)金額、消費(fèi)頻次、最近消費(fèi)時(shí)間。進(jìn)一步結(jié)合用戶(hù)登錄活躍情況,可以對(duì)用戶(hù)做RFM分層。
用戶(hù)流失層級(jí)
根據(jù)用戶(hù)的活躍度及消費(fèi)情況,判斷用戶(hù)的流失意向。可及時(shí)對(duì)有流失趨向的用戶(hù)做營(yíng)銷(xiāo)召回
用戶(hù)年齡段劃分
在做營(yíng)銷(xiāo)活動(dòng)或站內(nèi)推送時(shí),可對(duì)不同年齡段做針對(duì)性運(yùn)營(yíng)
用戶(hù)行為標(biāo)簽
記錄用戶(hù)在平臺(tái)上每一次操作行為,及該次行為所帶來(lái)的標(biāo)簽。后續(xù)可根據(jù)用戶(hù)的行為標(biāo)簽計(jì)算用戶(hù)的偏好標(biāo)簽,做推薦和營(yíng)銷(xiāo)等活動(dòng)
表結(jié)構(gòu)設(shè)計(jì)
對(duì)于畫(huà)像數(shù)據(jù)的存儲(chǔ),除了用戶(hù)屬性這種基本上短期不會(huì)有變化的數(shù)據(jù),其他相關(guān)數(shù)據(jù)的更新頻率一般都比較高,為周更新或日更新
畫(huà)像數(shù)據(jù)更新較為頻繁,通常使用分區(qū)來(lái)將數(shù)據(jù)從物理上轉(zhuǎn)移到離用戶(hù)最近的地方。
一般對(duì)日期字段進(jìn)行分區(qū),當(dāng)然事實(shí)上分區(qū)是為了優(yōu)化查詢(xún)性能,否則使用數(shù)據(jù)的用戶(hù)也不需要關(guān)注這些字段是否分區(qū)。
例如說(shuō)創(chuàng)建一個(gè)用戶(hù)行為標(biāo)簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);分區(qū)表改變了Hive對(duì)數(shù)據(jù)的存儲(chǔ)方式,如果沒(méi)做分區(qū),創(chuàng)建的這個(gè)表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile創(chuàng)建日期分區(qū)后,Hive可以更好地反映分區(qū)結(jié)構(gòu)子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'在userprofile表下面,每個(gè)日期分區(qū)的數(shù)據(jù)可以存儲(chǔ)截止到當(dāng)日的全量歷史數(shù)據(jù),方便使用者查找。
總結(jié)
以上是生活随笔為你收集整理的用户画像:数据指标与表结构设计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 对渠道流量异常情况的分析
- 下一篇: spark:sortByKey实现二次排