日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理

發布時間:2025/3/21 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、背景與目標

1.1、背景

1.、行業內競爭
民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產品生產過剩,產品同質化特征愈加明顯,于是航空公司從價格、服務間的競爭逐漸轉向對客戶的競爭。

2.、行業外競爭
隨著高鐵、動車等鐵路運輸的興建,航空公司受到巨大沖擊。

客戶營銷戰略倡導者Jay & Adam Curry從國外數百家公司進行了客戶營銷實施的經驗中提煉了如下經驗:

  • 公司收入的80%來自頂端的20%的客戶。
  • 20%的客戶其利潤率100%。
  • 90%以上的收入來自現有客戶。
  • 大部分的營銷預算經常被用在非現有客戶上。
  • 5%至30%的客戶在客戶金字塔中具有升級潛力。
  • 客戶金字塔中客戶升級2%,意味著銷售收入增加10%,利潤增加50%。

這些經驗也許并不完全準確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。


1.2、目標

航空公司數據特征說明

目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。

以2014-03-31為結束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內有乘機記錄的所有客戶的詳細數據形成歷史數據,44個特征,總共62988條記錄。數據特征及其說明如表所示。

結合目前航空公司的數據情況,可以實現以下目標:

  • 借助航空公司客戶數據,對客戶進行分類。
  • 對不同的客戶類別進行特征分析,比較不同類別客戶的客戶價值。
  • 對不同價值的客戶類別提供個性化服務,制定相應的營銷策略。

  • 二、數據預處理

    航空公司客戶原始數據存在少量的缺失值和異常值,需要清洗后才能用于分析。

    通過對數據觀察發現原始數據中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數大于0的記錄。

    • 票價為空值的數據可能是客戶不存在乘機記錄造成。

    處理方法:丟棄票價為空的記錄。

    • 其他的數據可能是客戶乘坐0折機票或者積分兌換造成。由于原始數據量大,這類數據所占比例較小,對于問題影響不大,因此對其進行丟棄處理。

    處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數大于0的記錄。

    2.1、任務步驟

    準備:創建air數據庫

    1、創建表air_data_base
    2、導入數據到air_data_base表

    3、丟棄票價為空的記錄,將結果存儲到sum_yr_1_not_null表

    4、丟棄平均折扣率為0.0的記錄,將結果存儲到avg_discount_not_0表

    5、丟棄票價為0、平均折扣率不為0、總飛行公里數大于0的記錄,將結果存儲到sum_0_seg_avg_not_0表


    三、特征構造

    原始數據中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發呢?

    3.1、常用客戶價值分類模型

    3.1.1、RFM模型介紹

    本項目的目標是客戶價值分析,即通過航空公司客戶數據識別不同價值的客戶,識別客戶價值應用最廣泛的模型是RFM模型。

    • R(Recency)指的是最近一次消費時間與截止時間的間隔。
    • F(Frequency)指顧客在某段時間內所消費的次數。
    • M(Monetary)指顧客在某段時間內所消費的金額

    3.1.2、RFM模型結果解讀

    RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。

    • X軸表示Recency,
    • Y軸表示Frequency,
    • Z軸表示Monetary,

    每個軸一般會分成5級表示程度,1為最小,5為最大。


    3.1.3、傳統RFM模型在航空行業的缺陷

    在RFM模型中,消費金額表示在一段時間內,客戶購買該企業產品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。


    3.1.4、航空客戶價值分析的LRFMC模型

    本項目選擇客戶在一定時間內累積的飛行里程M和客戶在一定時間內乘坐艙位所對應的折扣系數的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關系長度L,作為區分客戶的另一特征。
    本項目將客戶關系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數的平均值C作為航空公司識別客戶價值的關鍵特征(如表 3 2所示),記為LRFMC模型。


    3.2、任務步驟

    • 從數據清洗結果中選擇6個屬性: FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END,形成數據集,存儲到flfasl表中
    • 構造LRFMC 5個指標,并將結果存儲到lrfmc表中:

    1、會員入會時間距離觀測窗口結束的月數=觀測窗口的結束時間-入會時間 [單位:月]

    L = LOAD_TIME - FFP_DATE

    2、客戶最近一次乘坐公司飛機距觀測窗口結束的月數 = 最后一次乘機時間至觀察窗口末端時長[單位:月]

    R = LAST_TO_END

    3、客戶在觀測窗口內乘坐公司飛機的次數 = 觀測窗口的飛行次數 [單位:次]

    F = FLIGHT_COUNT

    4、客戶在觀測時間內在公司累計的飛行里程 = 觀測窗口總飛行公里數 [單位:公里]

    M = SEG_KM_SUM

    5、客戶在觀測時間內乘坐艙位所對應的折扣系數的平均值 = 平均折扣率 [單位:無]

    C = AVG_DISCOUNT

    建表:

    構建5個指標:

    結果查看:

    總結

    以上是生活随笔為你收集整理的学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。