MySQL语句判断新老客_数栖云应用场景实践——老客召回(文字版教程)
本教程視頻地址:https://bbs.dtwave.com/trains/show/4
現今許多企業都存在數據分散,融合困難等問題,對于現有數據分析的不足,導致無法優化召回策略,提升召回效率。借助數棲平臺,企業數據開發人員能夠輕松打通原有業務系統數據,高效的完成數據處理以及標簽開發工作,幫助業務精準實現老客召回,提升召回效率。
在進行開發前,我們要先明確一下待開發標簽的定義。這里的老客戶召回目的主要是防止或者減少用戶的流失,并針對不同的客戶特征、行為習慣運營,提升用戶粘度。所以需要我們先將認為可能流失并且需要挽回的用戶勾選出來。不同的企業和業務對不同的用戶流失程度定義也不相同。
我們這里將用戶流失程度定義為風險,并假定有四個等級,無風險,輕度風險,中度風險以及重度風險。風險等級通過最近在線時間的時間間隔來進行判斷,計近30天,最近一次在線距離今天的天數,0 到 7 天視為無風險,8 到 14 天是為輕度風險,15 到 21 天是為中度風險,22 到 30 天視為重度風險。?在找到重度和中度風險的用戶后,我們可以根據他們瀏覽網頁習慣來探索流失原因。
此次演示我們主要將重度和中度風險的用戶進行提取,來講一下數據工作流開發。
一、數據工作流開發
1.新建項目
點擊數棲云離線開發界面,在項目列表中選擇新建項目,輸入項目名稱,引擎類型勾選 hadoop,描述可以自定義添加,點擊確定。
2.項目配置
剛剛創建成功的項目為待配置狀態,進入項目配置,項目配置分為基礎配置和環境配置,默認顯示環境配置頁面。
基礎配置為針對作業類型的配置,依照開發需求合理配置作業類型,能在一定程度上提高平臺的運行效果。
環境配置是對任務運行環境的配置,同一項目下可創建多個環境進行數據開發,每個環境擁有的獨立 hive 數據庫,yarn 的調度隊列,甚至不同的 hadoop 集群,可以為項目配置不同的環境級聯模式,例如單環境模式、開發生產模式。
這里以開發生產模式為例,點擊環境配置中的立即添加按鈕,環境名稱自定義,資源組選擇默認資源組,資源組選擇完成后,我們需要配置計算引擎、調度隊列及數據庫,點擊確定,添加成功。
最后,選擇數據源,點擊確定。整個項目配置完成。
3.項目開發
項目創建完成后,我們點擊進入開發按鈕,進入開發界面。數棲云默認提供兩套工作流模板供用戶使用,一套是基于數倉分層建設的默認工作流,另外的空白工作流支持用戶自定義,作為演示,我們使用默認工作流進行數據開發。
點擊默認工作流,默認工作流被分為原始數據層 ODS、數據倉庫層 DWD、數據標簽層 TDM、數據應用層 ADM以及數據維度層 DIM。
一般來講數據開發的工作主要分為四個步驟:數據建模設計、數據匯聚采集、數據處理加工以及數據應用輸出。數據建模設計指的是數據開發前的數據結構設計,數據開發模型設計、表設計以及數據開發流程圖的繪制。因為我們這里示范的是數棲平臺的開發實操,對于數據建模設計,這里不做過多深入講解。
以下為我們提前設計好的老客召回場景實體關系圖:
根據上圖所示,首先我們要把匯聚完成的數據從 ODS 層經過清洗梳理到 DWD 層,經過業務基礎標簽層開發一系列的指標后,再將它匯聚到 TDM 層進行更進一步的聚合統計,匯集到 ADM 層,也就是我們看到的最終數據,這就是本次場景的主要流程。
按照順序,我們先從數據的采集匯聚開始介紹。
數棲云數據采集匯聚任務主要分為兩類,一類是結構化數據同步任務,另外一類則是非結構化數據同步任務。結構化數據同步任務一般針對的是結構化的數據同步,支持,包括像 mysql、Oracle、hive 等等。前提是數據源管理中必須要有已經注冊好的數據源,就是說必須要在數據源管理中新建好,并授權給相應的項目,該項目才能使用該數據源進行數據同步。
這里作為示范,我們以 mysql 的數據源進行示范。為了便于開發溝通和識別,我們需要在 ODS、DWD、TDM、ADM 以及 DIM 下分別創建兩個子目錄:?DDL 目錄和 job 目錄,分別用來存放不同類型的任務。如下圖所示:
創建好后,我們需要在 ODS 層下的 DDL 目錄下新建一個?DDL 任務。點擊 DDL 子目錄新建一個離線作業,所屬工作流類型選擇默認工作流,作業類型選擇?DDL,點擊確定。接下來我們需要把準備好的 SQL 語句粘貼進來,保存后點擊運行。
運行成功,則表示 DDL 任務創建成功。
接下來我們還需要創建一個同步任務。點擊 job 子目錄,新建離線作業,所屬工作流類型選擇默認工作,作業類型選擇數據同步,點擊確定。
數據源表示需要從哪里采集數據的數據庫。我們本次開發場景數據源來源于業務系統的 mysql 數據庫,源頭表表示我們前面新建好的 mysql 數據源,目的表支持兩種方式的建表,提前構建好的目的表以及新建目的表。本次作為演示,我們選擇提前構建好的目的表。
選擇好數據源后,點擊下一步,這里分三種映射方式,作為演示,我們選擇按名稱進行字段映射。
點擊下一步后,繼續點擊完成,創建成功。
點擊運行,同步任務運行成功。
數據匯聚完成后,按照開發需求,我們要進入 DWD 層的開發。DWD 層又稱數據倉庫層,用來存放一些清洗完成的數據。數據清洗一般發生在 ODS 到 DWD 之間,DWD 層的數據是規整的,是可以直接拿來使用的數據。?本次場景下需要將用戶數據進行規范化的清洗,包括時間格式的校驗,用戶 ID 的合法性判斷,年齡合法值判斷等。
與上面的步驟相同,我們需要在 DWD 層的 DDL 子目錄下,先構建一個 DDL 任務,創建成功后,我們將 SQL 語句粘貼進去,運行成功則表示 DDL 任務創建成功。
表新建完成后,我們需要創建一個進行 ODS 層的數據清洗的離線任務,將一些臟數據進行過濾處理。點擊 job?子目錄,新建一個離線作業,所屬工作流選擇默認工作流,作業類型作為演示,這里選擇 hive,選擇完成后點擊確定。
我們將準備好的 SQL 代碼復制進來,點擊運行,運行成功則數據清洗完成。
DWD 數據清洗完成后,我們需要在?TDM 數據標簽層的 DDL 子目錄下要新建一個用戶基礎標簽表。
點擊數據標簽層,在 DDL 子目錄下新建新建一個離線作業,所屬工作流仍選擇默認工作流,作業類型選擇DDL,選擇完成后點擊確定。
將準備好的 SQL 語句復制進來,點擊運行,作業運行成功則任務創建完成。
TDM 層的表新建完成之后,我們需要創建一個離線任務,進行 DWD 層的數據聚合連接。因為我們的場景需求需要我們計算出每個用戶的流失風險程度,所以我們需要先計算出每個用戶最近的登錄時間以及時長。
我們點擊數據標簽層 TDM 下的 job 子目錄,新建一個離線任務,并給它命名。所屬工作流選擇默認工作流。作業類型選擇 hive,點擊確定。
創建成功后我們把準備好的 SQL 代碼復制進來,點擊運行,作業運行成功后則任務創建成功。
我們在用戶的基礎標簽開發完成之后,需要按照具體的場景需求,將基礎標簽進行更進一步的聚合統計。因此要在 ADM 數據應用層進行數據任務開發。ADM 層是貼合具體的業務場景的,在該層下,我們可以通過新建子集目錄來區分不同的數據應用場景和需求。
在這里我們要新建一個老客召回場景所需目錄。點擊新建目錄,創建名稱-老客召回,輸入完成后點擊確定。
在老客召回的子目錄下分別新建?DDL 和 job 子目錄。
創建完成后,我們還需要在 ADM 層下新建一個用戶標簽表,點擊用戶畫像子目錄下的 DDL 目錄,新建離線作業。所屬工作流類型選擇默認工作流,作業類型選擇 DDL,選擇完成后點擊確定。
把準備好的 SQL?粘貼進來,點擊保存。保存成功后點擊運行,作業任務運行成功則完成。
在數據應用層ADM用戶基礎標簽表創建完成之后,我們還需要創建一個離線任務。點擊用戶畫像下的 job 子目錄,新建離線作業,所屬工作流選擇默認工作流,作業類型作為演示選擇 hive,選擇完成后點擊確定,任務創建成功。
將準備好的 SQL 代碼復制進來,點擊保存,保存成功后點擊運行。
在 ADM 層的任務運行完成后,為了進行數據應用展示,我們還需要創建一個同步任務。?點擊老客召回,新建目錄,輸入名稱,完成后點擊確定。
接下來我們需要在該目錄下創建一個同步任務。點擊新建離線作業,所屬工作流選擇默認工作流,作業類型選擇數據同步,完成后點擊確定。
接下來,我們需要選擇源頭表信息及目的表信息,全部配置完成后,點擊下一步。
點擊下一步,字段映射中選擇按名稱映射,創建成功后我們點擊運行。作業運行成功數據開發完畢。
二、數據應用展示
具體的數據應根據實際的需求來靈活選擇,大家可以通過接入業務系統應用,也可以通過第三方可視化產品來展示。下面我們來看一下數據展示的效果。
總結
以上是生活随笔為你收集整理的MySQL语句判断新老客_数栖云应用场景实践——老客召回(文字版教程)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 路考计算机系统评判,科目三智能考试有效解
- 下一篇: linux cmake编译源码,linu