用户流失预测
20220324
1.取數邏輯修改以及跨年取數問題的處理 2
2.特征構建和特征工程 4
3.模型訓練,測試,評估 3
4.數據寫入數據庫,代碼規范化、文檔修改、部署、調度 1
流失預測更新計劃
三個時間點 假設間隔為1個月
1 2 3
2月和3月之間判斷在3月當前的時候是否為流失也就是上一期
也同時是訓練數據的真實標簽部分,所以就計算出可能涉及跨年的1和2個日期點
根據離當前年1月1日的日期差是否小于間隔來判斷
20220323
1.滾動預測沒有必要,增加一天或者一周的數據可能會使結果波動很大,效果會很難看
2.異常時間比如119和過年時間的去除或者直接去掉所在月
3.流失是長時間流失比如一個月或者兩個月 而不是關注于周或天的波動
4.按客戶分類查看結果會發現問題比較大
5.打標標簽可以不叫做流失就叫做未來某段時間是否會流失就可以了
6.因為我們周末不上班,相當于周末客戶基本不采購 所以變化量會很大
更新迭代要做的事所需耗費的時間
1.研究的時間
2.取數方式的更改
3…新指標的計算
4.滾動預測的修改
5. 乘以1.3
20220318
一款社交應用,通過流失用戶的特征分析。發現了如下的幾個特點。
流失用戶中,40%的用戶沒有完善資料
新增用戶沒有導入通訊錄好友,流失概率比導入的高20%
新增用戶在第一周使用中,如果添加的好友低于3,則一個月后的流失概率超過一半
用戶流失前一個月,互動率遠低于APP平均值。
可以再考慮的指標
嘗試更改流失閾值看準確率情況 比如輸出概率超過80%才預測為流失
20220215
1.產品關注及時性 這個問題不存在
2. 可解釋性 看圖標解釋
20220126
特征改進
1.增強其他客戶行為特征
2.可能本身無法再提高,因為打標本身就不能保證完全正確
3.過去60天的特征和預測目標同時間長度段的特征
4.增加lag期數
5.增加指標方差
6.增加其他行為特征
7.增加去年同期的指標情況
20220119
同事可借鑒之處
沉默天數
訂單天數
訂單數量
這價格指標歷史窗口的求和,平均,方差,最大,最小 (這個最重要)
訂單金額 :原價金額,訂單優惠,毛利潤
訂單間隔: 商品數量 品名,一級,二級,三級
注冊天數
地址
類型
20220118
加入RFM特征
加入滯后一階目標變量的值
加入最后一次購買的月份(周期特征)
改進:擴展滯后多階(最近多次)
藥品具體種類數量改成,藥品類目數量
20220109
訓練集和測試的劃分標準
訓練集里面不要包含測試集的數據?
訓練集或者測試集不能包含未來的數據
測試集中的新數據要足夠豐富可信
流失預測 最好以流失間隔70天為訓練和測試的劃分?
20220108
訓練是用所有的用戶數據,預測的時候只需對有價值的客戶進行預測
RFM最好用歷史所有的數據?
http://www.woshipm.com/pmd/338242.html
別走!沒有想到你是這樣的用戶!——流失用戶預警
流失加上生命周期,是在那個生命周期的流失
20220105
1.流失的定義
1.1 對象范圍的確定
只對高或者高中價值客戶進行預警
RFM作為判定依據,取12個月 (消費頻率是客戶在固定時間內的購買次數(一般是1年))
(因為RFM與時間有關,因此很多同學在取數的時候會糾結時間怎么分。嚴格來說,越柴米油鹽,消費頻次本身越高的業務,取的時間應該越短。)
最典型的就是生鮮,人天天都要吃飯,7天不來可能就有問題。普通的快消品零售可能取30天,類似服裝百貨零售可能取90天。當然,更多的做法是按月取。)
用戶生命周期如何確定?
1.1 流失時間(周期)的統計比如可以取過去半年以來用戶的數據作為樣本,由于用戶是否流失結果已知,可以給用戶打上流失概率的標簽,觀察期也就是訓練樣本所取時間范圍,表現期對應從測試1.2 流失動作的確定量化的核心邏輯,是挖掘出不同時間范圍用戶,在此后一段時間的回購率分布。預期復購時間通過統計所有客戶兩次采購之間相關時間間隔的分布情況(極端情況要去除)來做決定 未完成區間的界定有一定靈活性,回購分析區間的時間要盡量覆蓋錨點前用戶的預期復購時間,不能太短,一般會在3個月以上。假設案例中的品牌消耗周期較長,有大促囤貨心智,所以回購分析區間長度是一年。
https://mp.weixin.qq.com/s/3_jXRqn8cgLg6lymX_ijcA
打標流失客戶的時候,定的時間盡量長,預測的時候并不會用到這個指標標準
1.3 流失客戶和RFM周期的時間如何統一?
流失客戶定義標準確定之后,實際上用的時候錨點設為程序運行的當天
流失客戶的時間段定了之后,其實RFM的時間段也是這個相當于一個用戶周期了
2.具體是什么原因導致的流失?并如何形成特征體現在模型中?
2.1 自愿和非自愿
3.預測階段的處理 這里采用自身的情況
3.1客戶分層。在實際處理過程中,客戶流失時間較長(三個月以上)的基本不會回歸,因此針對客戶流失天數對客戶進行分層,本例中分為三層90天以上、45-90天及45天以下,90天以上不做預測,分別對45-90與45-進行預測,準確率分別為91%與74%
3.2進一步分析。在45天以下的客戶里面,現有指標已無法對其進行細分,經與領導溝通,對其中部分客戶進行回訪調查不消費原因,相當一部分客戶的業務具有周期性,通常為30天或者半月,分析歷史連續不消費天數可印證這一點,另外一部分客戶數據量很少,難以區分。因此剔除數據量較少客戶(取歷史消費天數大于30天),最終預測準確率為86%
以上所有指標除客戶基本信息外均為反推客戶三個月前狀態(也就是確定的最長流失時間)
取這個時間之前的所有數據進行訓練,剩下的數據進行驗證
4.預測出了流失客戶,.后續的挽回客戶的策略(不歸我們管)
5. 需要劃分活躍和非活躍嗎,其實就是RFM的劃分
6.用戶瀏覽的數據有嗎? 沒有,登錄的數據是有的
7.什么時候上禪道?
問題再次重新整理
所以流失用戶是指持續未使用的用戶,所以監控的時候,我們也是看持續時間內沒有使用的用戶,所以這條曲線永遠是一個下降的曲線,因為在監控的持續時間內,只要有使用行為,會被記為留存用戶(除去活躍用戶和流失用戶就是留存用戶,比方說一個產品,用戶30天內每天使用就是活躍用戶,30天內沒有一天使用就是流失用戶,那30天內使用一次、兩次等次數的用戶就是留存用戶)
https://zhuanlan.zhihu.com/p/40828409#:~:text=%E4%B8%8D%E5%90%8C%E7%9A%84%E4%BA%A7%E5%93%81%E6%9C%89%E4%B8%8D%E5%90%8C,%E9%83%BD%E7%94%A8%E7%9B%B8%E5%90%8C%E7%9A%84%E9%80%BB%E8%BE%91%E3%80%82
1.流失預警的目標是通過特定算法分析出哪些客戶
具有較大的流失概率, 從而對這些客戶進行有目的、有
區別的挽留工作, 盡量減少客戶流失帶來的損失
其中自愿的、非財務原因的流失客戶往往是高
價值的、穩定的客戶。他們會正常的支付自己的服務費
用, 并對市場活動有所響應。所以這種客戶才是電信企
業真正想保持的客戶。而真正在分析客戶流失的狀況
時, 還必須區分公司客戶與個人客戶, 不同服務的貢獻
率, 或者是不同客戶消費水平流失標準的不同
實際上, 成熟的電信行業客戶
流失分析經常是根據相對指標判別客戶流失。
研究發現, 客戶的流失行為雖然是突發的, 但流失前
大部分客戶原本穩定的話務行為會出現一定程度上的
異動, 譬如出現交際圈縮小, 通話量激劇下降等,
常規思路一般按照客戶流失考核指標( 不出
賬則流失) 做目標變量, 但這已經處于客戶生命周期的
晚期, 挽留難度大。本研究嘗試將時間點提前, 從客戶價
值角度分析客戶的生命周期, 將目標變量定義在客戶價
值的急劇下降(Sharp_Decrease) 時期[ 1]。
客戶價值定義: 本文定義的客戶價值主要包含客戶
通話, 因為收入的產生基于客戶的消費行為( 目前主要
考慮是通話), 而且從之前的宏觀角度看, 這些行為更有
規律性, 具備數據挖掘分析的前提。
流失客戶: 是指本月有通話, 而在之后兩個月通話次數小于15 次,
并且在之后兩個月通話平均降幅大于60%的客戶。
通常指客戶轉移到競爭對手享
受服務。顯然第二種流失的客戶才是電信企業真正關心
的, 是對企業具有挽留價值的客戶。因此, 在選擇建模數
據時必須選擇第二種流失的客戶數據參與建模, 才能建
立出較精確的模型[ 3]。 重點
相關性分析特征
方差分析是利用樣本數據檢驗待選指標對目標總
體影響程度的一種方法。目標總體差異的產生來自兩個
方面, 一方面由總體組間方差造成, 即指標的不同水平
(值)對結果的影響;另一方面由總體組內方差造成, 即指
標的同一水平(值)內部隨機誤差對結果的影響。如果某
指標對目標總體結果沒有影響,則組內方差與組間方差
近似相等; 而如果指標對目標總體結果有顯著影響, 則
組間方差大于組內方差。當組間方差與組內方差的比值
達到一定程度, 或者說達到某個臨界點時, 就可做出待
選指標對結果影響顯著的判斷[ 6]。
方差分析
數據挖掘技術在電信客戶流失預警系統中的研究_2.pdf 框架重點
20220104
https://github.com/tonysjohn/e-Commerce_Customer_Churn
e-Commerce
Features Importance
nb_active_months 0.177715
nb_days_last_activity 0.121025
nb_visits 0.102029
nb_distinct_category1 0.058217
nb_days_last_purchase 0.05582
nb__distinct_products 0.05526
amount_purchase 0.054337
amount_purchase_total 0.046802
nb_products_seen 0.036346
nb_associated_months 0.035496
重點 nb=number
nb_visits : Number of user activity
nb_purchase : Number of user purchases
amount_purchase : Amount purchased
nb_products_seen : Number of products seen by user
nb__distinct_products : number of distinct products seen by user
nb_distinct_category0 : number of distinct categories seen by user
nb_distinct_category1 : number of distinct sub-categories seen by user
nb_distinct_category2 : number of distinct sub-categories seen by user
nb_distinct_product_purchased : number of distinct products purchased by user
nb_distinct_category_purchased : number of distinct categories purchased by user
Trend Activity features : These features are created from aggregating user activity for the most recent time period(say 1 months). These features capture the trend of user activity in the recent past. This involves data about the number of visits, number of purchases, total purchase amount etc.
The features are same as the Basic Activity Features but with a limited scope.
Global Activity features : These features are created from aggregating user activity for the entire association with the website. It captures the overall activity of the user from the start.
Find below the complete list of features:
nb_associated_months : Number of months between first activity and Evaluation date
nb_days_last_activity : Number of days from last activity
nb_days_last_purchase : Number of days from last puchase
nb_active_months : Number of months with active vists to site
nb_active_purchase_months : Number of months with purchases in site
nb_purchase_total : Number of purchases for entire user activity
amount_purchase_total : Total purchase amount for entire user activity
https://github.com/fgurkanli/A-Case-Study-on-Customer-Churn-Prediction/blob/main/fgurkanli_case_study.ipynb
特征重要度
https://github.com/nprihandina/ecommerce_churn_prediction
ecommerce_churn_prediction
重點
https://github.com/ChromaticFire/B2B_Platform_Customer_Churn_Model
大宗商品B2B電商平臺客戶流失模型-
Feature Name Importance
Number of orders 0.206
Standard deviation of the order dates 0.115
Number of session in the last quarter 0.114
Country 0.064
Number of items from new collection 0.055
Number of items kept 0.049
Net sales 0.039
Days between €rst and last session 0.039
Number of sessions 0.035
Customer tenure 0.033
Total number of items ordered 0.025
Days since last order 0.021
Days since last session 0.019
Standard deviation of the session dates 0.018
Orders in last quarter 0.016
Age 0.014
Average date of order 0.009
Total ordered value 0.008
Number of products viewed 0.007
Days since €rst order in last year 0.006
Average session date 0.006
Number of sessions in previous quarter 0.005
https://www.connectedpapers.com/main/ebb7913b5c5bf1ce3b8aef8d0a4d2f0a704ba7a2/Customer-Lifetime-Value-Prediction-Using-Embeddings/graph
Customer Lifetime Value Prediction Using Embeddings
https://github.com/xiaogp/customer_churn_prediction
customer_churn_prediction
https://github.com/fundoop/customerlosing_prediction
客戶流失預測
重點
1、特征的構建與選取。現有指標包括客戶基本信息(身份證號、注冊地址、車輛信息,身份證號可解析出出生日期、性別、省份)客戶總消費、消費天數、逾期金額、逾期次數、歷史最大及最小連續消費天數、歷史最大連續不消費天數、近一月消費額等。
2、模型搭建。接口序貫(Sequential)模型。第一層全連接層,激活函數選取relu;第二隱層全連接層,激活函數選取softsign;輸出層激活函數選取sigmoid。損失函數選取binary_crossentropy,激活函數選取adam,學習率為默認值。
3、模型運行與調優。初次運行驗證集準確率較低,通過調整激活函數及加入Dropout層,得到76%準確率
4、特征引申及篩選。引申指標包括當前不消費天數是否大于歷史最大連續不消費天數、近一月消費額與歷史最大30天內消費額的比例、客戶歷史最大連續逾期天數等。通過主成分分析法剔除關聯度較低的指標。提高準確率到96%。
5、客戶分層。在實際處理過程中,客戶流失時間較長(三個月以上)的基本不會回歸,因此針對客戶流失天數對客戶進行分層,本例中分為三層90天以上、45-90天及45天以下,90天以上不做預測,分別對45-90與45-進行預測,準確率分別為91%與74%
6、進一步分析。在45天以下的客戶里面,現有指標已無法對其進行細分,經與領導溝通,對其中部分客戶進行回訪調查不消費原因,相當一部分客戶的業務具有周期性,通常為30天或者半月,分析歷史連續不消費天數可印證這一點,另外一部分客戶數據量很少,難以區分。因此剔除數據量較少客戶(取歷史消費天數大于30天),最終預測準確率為86%以上所有指標除客戶基本信息外均為反推客戶三個月前狀態
https://github.com/ZhichenSong/-/blob/master/%E5%AE%A2%E6%88%B7%E6%B5%81%E5%A4%B1%E5%88%86%E6%9E%90_V3.ipynb
酒店預訂
重點
特征 備注 特征 備注
shop_duration 購物時間跨度
recent 6個月R值
monetary 6個月M值
max_amount 6個月最大一次購物金額
items_count 總購買商品數
valid_points_sum 有效積分數
CHANNEL_NUM_ID 注冊渠道
member_day 會員年限
VIP_TYPE_NUM_ID 會員卡等級frequence 6個月F值
avg_amount 客單價 i
tem_count_turn 單次購買商品數
avg_piece_amount 單品購買價格
monetary3 3個月M值
max_amount3 3個月最大一次購物金額items_count3 3個月購買總商品數
frequence3 3個月F值
shops_count 跨門店購買數
promote_percent 促銷購買比例
wxapp_diff 微信小程序購買R值
store_diff 門店購買R值
shop_channel 購物渠道
week_percent 周末購物比例infant_group 母嬰客群
water_product_group 水產客群 meat_group 肉禽客群
beauty_group 美妝客群 health_group 保健客群
fruits_group 水果客群 vegetables_group 蔬菜客群
pets_group 家有寵物 snacks_group 零食客群
smoke_group 煙民 milk_group 奶制品客群
instant_group 方便食品客群 grain_group 糧油食品客群
https://github.com/xiaogp/customer_churn_prediction/blob/master/README.md
零售電商客戶流失模型,
打標和預測是分開的,利用規則打標
但是預測是相對于還沒滿足打標流失條件時候進行的預測和提前預警
建模的意義 重點
存活率
https://mp.weixin.qq.com/s/XthPYKp-HpdHNz0HgKO_sw
運營|流失用戶召回策略,再不看來不及了
https://mp.weixin.qq.com/s/nfmQWNjM4jueci0Z5xF0TA
淺談互聯網金融產品“預流失用戶”的定義
基于數據挖掘技術的客戶流失預警模型 論文
我們將流失客戶的具體定義為:上月有通話和出帳記錄,但經過預測,下個月將不會產生通話或出帳記錄的客戶
重點
http://www.woshipm.com/data-analysis/1054899.html
查全率
客戶流失預測模型,如何進行效果評估
https://zhuanlan.zhihu.com/p/145572623
講講用戶的流失預警
需要處理的問題
1.是否符合當前需求,目標是什么 在未達到流失標準之前進行預測
2.需要知道具體是什么原因導致的流失嗎?
3. 需要作為特征體現在模型中嗎?
4.流失用戶的定義,
時間周期如何定,正樣本如何打標
電商未下單的時間長度
5.特征,指標
一般來說,我們需要考慮的特征可能有以下幾個類別:
用戶的基本屬性:性別,年齡,收入水平,區域等,不同類型的用戶可能流失也有所區別
具體到合縱:客戶類型,
5.1.是所有產品都不買了嗎,
5.2.還是只是部分(流失定義應該是購買的藥品種類數減少的幅度)重點
5.3.下單頻次可用,下單金額應該沒什么用
5.4 選擇特征
原則:所選取的特征,應該跟流失與否有關聯!
活躍屬性
消費屬性
最后距今登錄天數
最后距今購買天數
事件屬性(好評、中評、差評)
https://blog.csdn.net/u010271601/article/details/104485031/用戶的產品行為:所處產品的生命周期,活躍的頻次,關鍵功能的使用頻次等,這些我們稱之為基礎指標,基礎指標一般是流失原因的表象,和流失具有相關性,但不具備因果性,不是導致流失的關鍵特征
其他加工指標:基礎指標可能不能很好的挖掘到影響留存的關鍵特征,需要基于業務理解加工出新的指標,和基礎指標一起作為模型訓練的特征。常見的加工方法有:
5.5瀏覽多,但是下單少,甚至不下單,極有可能只是比較 預示著要流失深度指標:反應用戶使用深度的指標,用戶不僅要用,而且要用的比較深入,比如關鍵功能的使用次數,有的用戶可能只是用了一些邊緣性的功能,還未接觸到關鍵功能就流失了,這是很可惜的,所以用這個深度指標可以預測用戶是否可能流失的。頻次指標:用戶不僅要用的深,還要用的頻繁,這個頻繁的定義依據不同的產品類型而有不同的定義,有的產品可能需要每天都要用,甚至一天要用幾次,有的可能要求一周要用幾次,不一而足。但是可以根據產品的特點加工出一個頻次指標,比如日/周均使用次數或者日/周均使用天數,這樣用戶的使用頻次得以表征。5.6什么樣的頻次,登陸的頻次,下單的頻次趨勢指標:用戶使用產品的趨勢變化,用戶使用的趨勢直接關系著用戶的流失,如果一個用戶使用的越來越少了,那大概率用戶是要流失了,所以一些常見的趨勢指標如近三個月每周平均活躍天數的變化率,可以理解為一個斜率,如果每周的平均活躍天數在一直減少,斜率應該是負值,否則斜率應該是正值,以此表征用戶使用情況的變化趨勢。5.7各種使用頻次的變化情況
6.只對高中價值客戶進行流失預測,低價值的客戶就不管了
7. 可能的解決方案 Pareto/NBD模型
8. 要解決的問題 時間周期,怎么預測
高價值用戶的定義
直接使用RFM模型就可了
https://mp.weixin.qq.com/s/zpkWi1HZ94skqW_st0sY-w
數據分析|如何做好用戶流失預警?
重點
https://mp.weixin.qq.com/s/3_jXRqn8cgLg6lymX_ijcA
總算是把用戶流失分析講清楚了! 重點 如何界定流失
如何合理的定義用戶流失
https://blog.csdn.net/xzx1232010/article/details/90257169
重點
https://zhuanlan.zhihu.com/p/83703833
我們聊用戶流失,首先要搞清楚的是“什么樣的用戶行為才算是流失”
這個問題,看似很難回答,不過只要抓住兩個關鍵點,就能從容破題。
一是“動作”,二是“時間范圍”。
可能是登錄,可能是使用時長,在電商行業更關注的是購買。
量化的核心邏輯,是挖掘出不同時間范圍用戶,在此后一段時間的回購率分布。
用戶下載注冊一個產品是帶著需求來的,是想解決自己的問題的。但是這個需求可能有所不同,有可能只是用戶的一個普通需求,也有可能是個剛性需求,還有可能是個痛點需求。舉例來說,最近太累,想去馬爾代夫放松一下,這是個普通需求,到了馬爾代夫玩了半天有點餓了,想吃東西了,這個是剛性需求,于是上網看了一下推薦,剛好附近有家餐廳,但是評價不好而且很貴,有家味道很好的但是離得又很遠,找一個離得近、味道不錯而且又實惠的餐廳就是個痛點需求。
所以,普通需求→剛需→痛點是一個逐層遞進的過程,逐層體現用戶希望解決問題的迫切程度,所以如果產品可以解決剛需就不要滿足于僅解決普通需求,如果可以解決用戶痛點就不要僅停留在解決剛需問題,用戶越迫切,產品價值就更容易得以體現,用戶的粘性自然就會更強,流失的概率也會小很多。
這些動作貌似無法處理
B2C電子商務客戶流失原因評估研究.pdf
主觀原因主要包括商業銀行產品單一、服務系統有問題、產品缺乏創新、
員工跳槽、對客戶投訴處理不及時、客戶遭遇其他銀行新的誘惑、客戶欣賞和需求標準發生變化等。
( 三) 客戶流失特征分析
商業銀行客戶流失的特征最為突出的有兩類:
漸進型( 間接提示型) 流失和中斷型流失。漸進型流
失主要表現為客戶近期交易品種、交易次數、交易
金額和存貸款余額逐步減少。中斷型流失主要表現
為睡眠型流失和突然中斷型流失。睡眠型流失是指
賬戶依然存在, 但交易已經停止; 突然中斷型流失
是指客戶流失前正常交易, 由于某種原因, 突然中
斷了交易, 并直接結清了賬戶。
( 五) 客戶流失預警分析
客戶流失預警分析分為單一客戶流失預警分
析、客戶群流失分析兩類。單一客戶流失預警分析
采取RFM模型, 主要是對商業銀行客戶最近一次
交易的時間距當今有多遠、頻率、貨幣價值指標進
行分析, 設定一個參數值, 由系統自動報警。客戶群
流失分析, 主要是對商業銀行客戶流失率設定一個
預警參數, 當某一客戶群客戶流失率達到所設定的
預警值時, 由系統自動報警。
表1 RFM 分析模型客戶流失預警標準
- 客戶群流失預警
目標變量的選
擇: 在客戶流失分析系統中, 實際面對的流失主要
有賬戶取消發生的流失和賬戶休眠發生的流失兩
種形式。對于不同的流失形式, 我們需要
選取不同的目標變量。
靜態數據和動態數據。
靜態數據指的是不會經常改變的數據, 包
括客戶的基本信息。動態數據指的是經常
或定期改變的數據, 如每月存取記錄、消
費金額、消費特征等
淺談商業銀行的客戶流失.pdf 重點
客戶流失預測整個流程可以參考這個文檔
客戶價值矩陣分類客戶
BtoC電子商務中客戶流失的分析.pdf
https://www.doc88.com/p-9109492724714.html?r=1
高價值客戶
https://mp.weixin.qq.com/s/4gDRtxILfAbLMb1UMJJ6Yw
如何搭建客戶流失預警?
結果表明,不同類型客戶流失因素的影響強度不同。對活躍用戶而言,客戶購買總金額是影響客戶流失的主要因素;對非活躍用戶而言,客戶進入店鋪的時間越長越可能留住客戶。
一般傳統線下的客戶關系主要靠契約維持,而電子商務中的客戶關系屬于非契約關系
目前,客戶流失研究主要集中于電信、金融等
行業,而電子商務作為互聯網快速發展所衍生的行業,
也受到了學者們的青睞。
考慮電子商務客戶沖動購買心理及進入商家的時
間長度,結合學者對客戶價值的研究,除RFM 模型中
頻率(F)、時間間隔(R)、金錢(M)指標外,還引
進了客戶購買的最大金額(MM)、進入店鋪的時間長度
(L)、購買天數(D)以及購買的概率(G)。其中,進入店鋪
的時間長度指客戶在觀察期內第一次消費的時間距離
客戶最后消費時間的長度,概率是指客戶在已消費的天
數中平均每天購買的次數。
時間間隔(R):客戶在觀察期間第一次消費的時
間距離觀察期最后一次消費時間長度(流失期限中);
頻率(F):客戶在單位時間上購買的次數;
金錢(M):客戶在觀察期消費的總金額;
最大金額(MM):客戶在觀察期消費的最大金額;
進入店鋪的時間長度(L):客戶在觀察期后第一次
消費時間距離客戶最后消費的時間長度;
購買天數(D):客戶在觀察期總消費天數;
概率(G):客戶在觀察期內消費的天數中平均每天
購買的次數。
本文主要運用拐點理論確定流失期限,利用客戶購
買天數確定個體的活躍度閾值,將其分為活躍與非活躍
用戶兩類。
電子商務的客戶消費習慣存在著周期性,當客戶首次消費之后,
存在著一段時間的無消費周期,但在未來的某一時間若
還會出現消費行為,則代表客戶回購,若未出現消費行
為,則代表客戶沒有回購,客戶徹底流失,其中首次購
買后無消費的周期則為流失期限,具體見公式(8) 重點
客戶流失期限的長度與客戶的回購率成反比,本文
設定了不同時期的流失期限長度進行客戶回購率的統
計,并觀察客戶回購率隨客戶流失期限的增大時的收斂
速度,本文以“月”為單位設定流失期限,根據不同流
失期限回購率的變化曲線,使用拐點理論進行流失期限
的設定,如圖6 所示。
拐點理論是指X 軸上的數值增大時Y 軸上的數值
隨之變化,直到到達某個點時,Y 軸變化的程度明顯減
少,則稱為“拐點”
拐點理論是指X 軸上的數值增大時Y 軸上的數值
隨之變化,直到到達某個點時,Y 軸變化的程度明顯減
少,則稱為“拐點”。由圖所知,隨著流失期限增大,
用戶回購率一直降低。當流失期限為4 個月時,回購率
降低幅度明顯減小。因此,設置4 為拐點。
根據拐點理論知,客戶流失期限為4 個月,具體表
現在2010 年12 月至2011 年3 月之間有過購買行為,
且連續4 個月間未發生購買行為的客戶,稱之為客戶流
失。
客戶活躍漏斗圖
客戶活躍閾值確定
選取2010 年12 月到2011 年3 月份的所有客戶的
數據,統計這4 個月中消費者消費的天數,繪制漏斗圖,
運用客戶購買的天數這個屬性加以漏斗圖與其轉
化率可以解決客戶是否活躍的問題。如圖所示,購買天
數大于等于3 天的時候,轉換率大于50%,且與購買天
數大于等于4 天的轉換率差別不大,所以確定活躍的購
買天數為3 天及以上,將數據分為了活躍與非活躍兩大
類,活躍用戶為購買天數大于等于3 天的客戶群體,非
活躍用戶為購買天數小于3 天的客戶,將數據集劃分成
活躍用戶群體380 位,非活躍客戶用戶460 位。
電子商務客戶流失的DBN預測模型研究網絡首發.pdf 重點
特征
組合預測的一種實現方式
電子商務客戶流失的建模與預測研究.pdf
1994 年提出了著名的SMC模
型[ 3 -4]
, 通過預測客戶的活躍程度, 較好地解決了
客戶流失預測問題, 被譽為“首個真正意義上的客
戶行為預測模型”[
SMC模型在總體層次和典型客戶上對
客戶流失預測是有效的, 但在個體層次上預測效
果還不夠理想, 有大量客戶無法區分出其活躍度
的差異
電子商務客戶流失三階段預測模型.pdf
流失原因
挽留手段
高價值客戶流失預警及挽留策略分析.pdf
針對電信運營商的老客戶保留問題,
通過對客戶流失原因的分析,將客戶區分并給出
不同的流失標準,分別用C5. 0 決策樹、支持向量
機、C&T 決策樹、logistic 回歸和神經網絡分別建
模預測,并最終通過增加一個置信區間的方法提
出融合模型,降低了預測風險
證券客戶特征
2. 因變量的假設及獲得。模型假設: 因為客
戶流失狀態數據是證券公司的商業機密,無法獲
得。因此,本文在實證部分假設各項指標表現
“較激進”的客戶為流失客戶,交易活躍度低,投
資能力差,流失風險高,即對證券公司的貢獻小,
Y 值取為1; 各項指標表現“較穩健”的客戶為正
常投資客戶,交易活躍度高,投資能力好,流失風
險低,即對證券公司的貢獻大,Y 值取為0。
聚類做流失和非流失客戶的劃分
基于logistic模型的證券公司客戶流失預警分析.pdf
完整分析過程流程 重點
框架
加權的聚類算法
k-means 算法存在一定的缺陷,即進行聚類時,
針對的是全部屬性,而且對這些屬性采用相同的重
要性進行處理,但是在很大程度上,不同的屬性對距
離的影響是不同的,需要分別對待。否則對相似性
計算的時候,可能產生誤導,這種誤導被稱之為“維
數陷阱”。為了解決這一問題,本文提出一種改進的
聚類算法-加權的聚類算法,即為數據庫中的每一屬
性增加一個權值參數,讓不同的數據庫屬性進行聚
類時產生不同的效果,從而不同程度上影響距離的
產生。從歐氏空間角度分析,將相關屬性所對應的
軸拉長,而將屬性無關所對應的軸縮短。
通過直接考察自變量和因變量的差異的大小來給每個自變量不同的權重
越相同則權重越大
聚類數目
客戶分割矩陣找出高價值客戶
根據客戶價值和客戶流失風險,他把客戶分成
了四類:
1)需求客戶:具有較高價值但流失風險高的客
戶,這類客戶屬于最關鍵的客戶群體;
2)企業客戶:客戶價值高且流失風險低的客戶;
3)價格敏感客戶:客戶價值低且流失風險高的
客戶;
4)潛力客戶:客戶價值低且流失風險也低的客戶。
預測客戶流失模型的好壞的評估指標是覆蓋率
和準確率,其中,覆蓋率是指正確預測的流失客戶數
占實際流失客戶的比例,而準確率是指預測為流失
客戶中實際流失客戶所占的比例。定義混淆矩陣如
下表3所示。
流失混淆矩陣
基于改進聚類的電信客戶流失預測分析 重點
客戶流失是指客戶終止或者顯著減少使用企業提供的產品或服務, 而轉向了其他企業H
按照客戶自身意愿, 客戶流失可分為兩類—類是被動流失, 即企業放棄了具有拖欠、欺詐
或低利潤等特征的客戶; 另一類則是主動流失, 即客戶由于自身原因(如地點變更) 或企業原
因(如產品價格升高) 主動終止了與企業的關系.
目前, 國內外分析客戶流
失原因的研究不多, 實證研究甚少, 且基本集中在電信、金融、電子商務三個行業
采用基于統計學的一般模型, 分析客戶每次
購買的時間間隔, 進而預測客戶流失率, 揭示保健醫藥行業客戶流失的一般規律. 其次, 從企
業產品的角度出發, 通過分析客戶購買的產品種類、數量以及購買間隔等指標, 計算每種產
品的客戶流失概率, 不僅找出導致客戶流失的主要產品和最吸引客戶的產品, 還分析這些產
品的共同點和差異性, 為企業生產、銷售產品提供有效的戰略指導
目前, 保健藥品企業主要擁有以下三大部分的信息: 交易數據信息、產品特信息、顧
客的個人特征信息( 人口統計學指標) . 這
研究框架
流失概率和忠誠概率的關系
流失客戶定義
直接通過購買間隔的整體分布概率來估計
基于海量交易數據的保健藥品客戶流失規律及預測研究.pdf 重點
SMC模型的適用范圍
電子商務客戶流失預測問題具有特殊性, 電子商務網站中的顧客屬于典型的非契約型客戶, 其購買行
為是隨機的過程, 并且受地域經濟、市場、個體背景、文化等多因素影響采用單一的概率模型處理這類流
失預測間題, 在總體層次和典型客戶上是有效的, 但在個體層次上預測效果不佳有學者提出把概率建模僅依
賴少數關鍵變量的魯棒性和數據挖掘擅長處理眾多解釋變量的能力結合起來應用到電子商務領域, 并取得了
一定的成果“一’ 但是這些方法未考慮國內電子商務顧客的消費行為有著明顯的地域性, 在不同地區具有
不同活躍度的客戶, 實際上未來的活躍程度可能是類似的其次, 電子商務客戶流失相關數據是海量的, 且解
釋變量是高維的, 上述方法采用的概率模型活躍度閉值設定困難, 參數估計比較復雜, 效率有待提高最后,
未考慮客戶流失數據的非平衡住, 電子商務客戶流失預測是屬于類別嚴重不對稱的分類問題, 即流失客戶數
量遠高于不流失客戶數量, 且對流失客戶的誤判損失遠大于對非流失客戶的誤判損失因此, 本文建立啟發
式算法與支持向量機融合的電子商務客戶流失預測模型, 拓展了模型活躍度計算的推導思路,
并結合實際電子商務情境提出了一種融入地域因素的啟發式算法在粗糙集理論基礎上提出了一種改進的高
效屬性約簡粗糙集方法最后以融入客戶活躍度的非平衡支持向量機算法實現整個模型的構建, 意圖解決上
述問題
之前的流失預測問題
利用統計模型計算出活躍度
融入個體活躍度的電子商務客戶流失預測模型.pdf
特征
神經網絡在我國電商企業客戶流失風險預測中的應用研究.pdf
總結
- 上一篇: 计算机永远无法处理日语所具有的暧昧性,计
- 下一篇: 《女神异闻录 6》有戏,世嘉和 Atlu