风控特征:时间滑窗统计特征体系
風(fēng)控業(yè)務(wù)背景
俗話說(shuō),?路遙知馬力,日久見(jiàn)人心。在風(fēng)控中也是如此,我們常從時(shí)間維度提取借款人在不同時(shí)間點(diǎn)的特征,以此來(lái)判斷借款人的風(fēng)險(xiǎn)。在實(shí)踐中,這類(lèi)特征通常會(huì)占到80%以上。由于是通過(guò)時(shí)間切片和聚合統(tǒng)計(jì)函數(shù)來(lái)構(gòu)造,因此一般被稱為時(shí)間滑窗統(tǒng)計(jì)特征。
本文的主要意義在于:
-
對(duì)于需要入門(mén)風(fēng)控建模的同學(xué)而言,希望能幫助你快速上手特征工程。
-
對(duì)已經(jīng)有特征工程經(jīng)驗(yàn)的同學(xué)而言,希望能帶給你一些風(fēng)控業(yè)務(wù)理解。
目錄
Part 1. 觀察期、觀察點(diǎn)及表現(xiàn)期
Part 2. RFM模型介紹
Part 3. 時(shí)間滑窗?數(shù)量?統(tǒng)計(jì)類(lèi)特征
Part 4. 時(shí)間滑窗?占比?統(tǒng)計(jì)類(lèi)特征
Part 5. 時(shí)間滑窗?趨勢(shì)?統(tǒng)計(jì)類(lèi)特征
Part 6. 時(shí)間滑窗?穩(wěn)定性?衍生特征
Part 7. 第三方多頭借貸變量衍生
Part 8. 總結(jié)
參考資料
Part 1. 觀察期、觀察點(diǎn)及表現(xiàn)期
理解這三者的概念是風(fēng)控建模前期樣本準(zhǔn)備的基礎(chǔ),在此簡(jiǎn)單介紹。
-
觀察點(diǎn)(?Observation Point?)?:并非是一個(gè)具體的時(shí)間點(diǎn),而是一個(gè)時(shí)間區(qū)間,表示的是客戶申請(qǐng)貸款的時(shí)間。在該時(shí)間段申請(qǐng)的客戶?可能?會(huì)是我們用來(lái)建模的樣本 。(提示:為什么用“可能”這個(gè)描述,因?yàn)檫€需剔除一些強(qiáng)規(guī)則命中的異常樣本,這部分樣本將不會(huì)加入建模)
-
觀察期?(Observation Window):用以?構(gòu)造特征X?的時(shí)間窗口。相對(duì)于觀察點(diǎn)而言,是?歷史?時(shí)間。觀察期的選擇依賴于用戶數(shù)據(jù)的厚薄程度。通常數(shù)據(jù)越厚,可提取的信息也就越全面、可靠。
-
表現(xiàn)期?(Performance Window):定義?好壞標(biāo)簽Y?的時(shí)間窗口。相對(duì)于觀察點(diǎn)而言,是?未來(lái)?時(shí)間。由于風(fēng)險(xiǎn)需要有一定時(shí)間窗才能表現(xiàn)出來(lái),因此信貸風(fēng)險(xiǎn)具有?滯后性?。表現(xiàn)期的長(zhǎng)短可以通過(guò)Vintage分析和滾動(dòng)率分析來(lái)確定,在此不做展開(kāi)。
圖 1 - 觀察期、觀察點(diǎn)及表現(xiàn)期
表現(xiàn)期越長(zhǎng),信用風(fēng)險(xiǎn)暴露將越徹底,但意味著觀察期離當(dāng)前將越遠(yuǎn),用以提取樣本特征的歷史數(shù)據(jù)將越陳舊,建模樣本和未來(lái)樣本的差異也越大。反之,表現(xiàn)期越短,風(fēng)險(xiǎn)還未暴露完全,但好處是能用到更近的樣本。
Part 2. RFM模型介紹
RFM模型最早是用來(lái)衡量客戶價(jià)值和客戶創(chuàng)利能力。理解RFM框架的思想是構(gòu)造統(tǒng)計(jì)類(lèi)特征的基礎(chǔ),其含義為:
-
R(Recency)?:客戶最近一次交易消費(fèi)時(shí)間的間隔。R值越大,表示客戶交易發(fā)生的日期越久,反之則表示客戶交易發(fā)生的日期越近。
-
F(Frequency)?:客戶在最近一段時(shí)間內(nèi)交易消費(fèi)的次數(shù)。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。
-
M(Monetary)?:客戶在最近一段時(shí)間內(nèi)交易消費(fèi)的金額。M值越大,表示客戶價(jià)值越高,反之則表示客戶價(jià)值越低。
Part 3. 時(shí)間滑窗數(shù)量統(tǒng)計(jì)類(lèi)特征
對(duì)于不同數(shù)據(jù)源,我們可以統(tǒng)計(jì)得到不同內(nèi)容的RFM特征。例如:
-
運(yùn)營(yíng)商數(shù)據(jù):用戶每天的通話記錄次數(shù)、時(shí)長(zhǎng)等。
-
信用卡賬單或電商交易數(shù)據(jù):用戶每天的交易筆數(shù)、金額等。
-
埋點(diǎn)行為數(shù)據(jù):用戶每天在某頁(yè)面的瀏覽量、點(diǎn)擊量等。
-
設(shè)備數(shù)據(jù):用戶每天的登陸、活躍次數(shù)。
為了擴(kuò)展更多的維度,我們常會(huì)維護(hù)一個(gè)分類(lèi)名單庫(kù)(或?分類(lèi)指標(biāo)體系?),可參考《 ?信貸風(fēng)控中的名單庫(kù)挖掘、使用和維護(hù) 》(https://zhuanlan.zhihu.com/p/77238851)。接下來(lái),我們就可以繼續(xù)?細(xì)分類(lèi)目?來(lái)統(tǒng)計(jì)。例如:
-
信用卡交易數(shù)據(jù):用戶每天在母嬰用品、交通出行、餐飲、美容美發(fā)等交易筆數(shù)、金額。
-
設(shè)備App數(shù)據(jù):用戶手機(jī)上安裝的借貸類(lèi)、生活類(lèi)、運(yùn)動(dòng)類(lèi)、音樂(lè)類(lèi)等App的數(shù)量。
以設(shè)備App數(shù)據(jù)為例,我們將統(tǒng)計(jì)得到如下數(shù)據(jù):
圖 2 - 截止下單日,用戶每天統(tǒng)計(jì)的App數(shù)量
需要指出的是,我們?需要結(jié)合業(yè)務(wù)去分析數(shù)據(jù),數(shù)據(jù)因?yàn)闃I(yè)務(wù)才具有溫度?。
🌟?敲黑板劃重點(diǎn)1——了解數(shù)據(jù)采集邏輯
特征是從原始數(shù)據(jù)中提取的信息,如果數(shù)據(jù)源采集上就存在問(wèn)題,那么所構(gòu)造的特征也必然有問(wèn)題。
對(duì)于一些采集客觀、可靠的數(shù)據(jù)源而言,分析過(guò)程就相對(duì)簡(jiǎn)單。例如,如果用戶某天沒(méi)有打電話,那么這天的通話次數(shù)為0,這是因?yàn)檫\(yùn)營(yíng)商客觀保留了用戶的原始數(shù)據(jù)。這時(shí)候,0的含義就是用戶在當(dāng)天未有通話行為?。當(dāng)然,對(duì)于用戶借用他人手機(jī)打電話這種情況,則不在考慮范圍內(nèi)。
對(duì)于依賴于用戶登陸、活躍行為才能采集到的數(shù)據(jù),就更需要結(jié)合采集方式來(lái)分析。例如,在設(shè)備App數(shù)據(jù)中,如果某天統(tǒng)計(jì)得到用戶安裝的借貸類(lèi)App為0。這個(gè)數(shù)字后面可能有哪些原因呢?可能的猜想有:
-
1.?統(tǒng)計(jì)函數(shù)原理?:用戶這一天并沒(méi)有使用手機(jī),導(dǎo)致數(shù)據(jù)采集上缺失。但SQL中count()函數(shù)在統(tǒng)計(jì)時(shí)會(huì)count(null) = 0,也就是說(shuō)會(huì)將缺失值填充默認(rèn)值為0。
-
2.?用戶使用行為?:用戶使用了?新安卓手機(jī)?,數(shù)據(jù)采集正常,但確實(shí)沒(méi)安裝借貸類(lèi)App,因此用戶維度統(tǒng)計(jì)值為0。或者,用戶使用了?老安卓手機(jī)?,但主動(dòng)卸載了所有借貸類(lèi)App。
-
3.?數(shù)據(jù)采集技術(shù)?:用戶使用了?蘋(píng)果手機(jī),?由于無(wú)法采集到App數(shù)據(jù),哪怕手機(jī)上實(shí)際安裝了借貸App,但統(tǒng)計(jì)值也為0。
-
4.?變量構(gòu)造邏輯?:雖然手機(jī)上安裝了借貸類(lèi)App,但并不在你的借貸App名單庫(kù)中,因此匹配數(shù)為0。
那么到底是哪種原因呢?對(duì)于這些猜想,我們可以從以下維度加以佐證:
-
用戶當(dāng)天是否活躍?
-
用戶使用設(shè)備是否出現(xiàn)新的UMID(設(shè)備ID)?
-
用戶使用設(shè)備的平臺(tái)(iOS / Android)?
-
名單庫(kù)是否很久沒(méi)有維護(hù)?
這也就是需要?結(jié)合業(yè)務(wù)經(jīng)驗(yàn)對(duì)多個(gè)特征交叉衍生新特征?的原因,這種特征具有強(qiáng)業(yè)務(wù)含義,因此往往能發(fā)揮出更好的效果。
🌟?敲黑板劃重點(diǎn)2——定義觀察期有效性
我們還需?考慮觀察期的有效性,以及不同用戶的數(shù)據(jù)厚薄程度?。
比如,如果一個(gè)用戶手機(jī)號(hào)網(wǎng)齡才6個(gè)月,那么在統(tǒng)計(jì)最近6個(gè)月、12個(gè)月、24個(gè)月的通話記錄次數(shù)時(shí),可想而知這幾個(gè)變量的數(shù)值都是一樣的。
同理,對(duì)于手機(jī)號(hào)網(wǎng)齡分別是6個(gè)月的新用戶和6年的老用戶而言,“最近12個(gè)月的通話記錄次數(shù)”這種特征是?不公平(unfair)?的。兩者的數(shù)據(jù)厚薄程度?不同,新用戶的觀察期實(shí)際上只有6個(gè)月,而老用戶的觀察期是12個(gè)月。
為了區(qū)分這種情況,有以下建議:
1.?定義觀察期有效性,?在時(shí)間滑窗統(tǒng)計(jì)時(shí),更需要有意識(shí)地留出有效的觀察期。
2.?定義分群變量?。比如將數(shù)據(jù)有效期只有6個(gè)月和12個(gè)月的用戶分成2個(gè)群體。
Part 4. 時(shí)間滑窗占比統(tǒng)計(jì)類(lèi)特征
在得到數(shù)量統(tǒng)計(jì)類(lèi)特征后,我們繼續(xù)衍生?占比(ratio)?類(lèi)特征,一方面可用來(lái)?去除量綱影響?,另一方面?衡量用戶的行為偏好。例如:
最近N個(gè)月內(nèi)?母嬰類(lèi)?消費(fèi)次數(shù)?占比?= 最近N個(gè)月內(nèi)?母嬰類(lèi)?消費(fèi)?次數(shù)?/ 最近N個(gè)月內(nèi)消費(fèi)次數(shù)
如果用戶在某類(lèi)消費(fèi)次數(shù)或者金額占比上有明顯的傾向,我們就更能掌握用戶的消費(fèi)行為偏好和其他屬性。比如,如果用戶的母嬰類(lèi)消費(fèi)支出占比較大,說(shuō)明用戶是有娃一族,風(fēng)險(xiǎn)也就相對(duì)更低。
Part 5. 時(shí)間滑窗趨勢(shì)統(tǒng)計(jì)類(lèi)特征
由于一個(gè)人的行為是會(huì)動(dòng)態(tài)變化的,衡量這種變化趨勢(shì)對(duì)于風(fēng)險(xiǎn)識(shí)別也很重要。例如,對(duì)于借款人的多頭借貸風(fēng)險(xiǎn),如果多頭指標(biāo)呈現(xiàn)逐步上升的趨勢(shì),我們就覺(jué)得多頭負(fù)債風(fēng)險(xiǎn)在上升。借款人往往會(huì)采取“拆東墻補(bǔ)西墻”的措施,如果哪一天連東墻都找不到拆,這個(gè)擊鼓傳花的游戲也就game over。
我們一般計(jì)算?斜率(slope)?來(lái)衡量這種變化趨勢(shì)。例如:
多頭借貸趨勢(shì) =(當(dāng)月的多頭借貸次數(shù) - 上個(gè)月的多頭借貸次數(shù))/ 上個(gè)月的多頭借貸次數(shù)
Part 6. 時(shí)間滑窗穩(wěn)定性衍生特征
在不同時(shí)間點(diǎn)統(tǒng)計(jì)的數(shù)量特征基礎(chǔ)上,我們可以繼續(xù)衡量用戶行為的穩(wěn)定性。
在數(shù)學(xué)上,我們通常可以用?變異系數(shù)(?Coefficient of Variation,CV?)來(lái)衡量這種數(shù)據(jù)波動(dòng)水平。變異系數(shù)越小,代表波動(dòng)越小,穩(wěn)定性越好。
變異系數(shù)的計(jì)算公式為:變異系數(shù) C·V =( 標(biāo)準(zhǔn)偏差 SD / 平均值Mean )× 100%
例如,對(duì)于借貸次數(shù),我們可以計(jì)算CV來(lái)衡量借貸行為的穩(wěn)定性。
另外需要注意的是,對(duì)于持續(xù)多頭借貸的老哥,其實(shí)風(fēng)險(xiǎn)并不會(huì)很高,因?yàn)橛谐掷m(xù)穩(wěn)定的借貸渠道。但對(duì)于集中性爆發(fā)的多頭借貸行為,我們就更需要加以關(guān)注。這背后的動(dòng)機(jī),可能是手頭突然緊張(比如網(wǎng)賭輸錢(qián)),可能是破罐子破摔,可能是前期潛伏突然爆發(fā),可能是行業(yè)大環(huán)境影響。
Part 7. 第三方多頭借貸變量衍生
據(jù)筆者所知,目前市場(chǎng)上所提供的第三方多頭借貸數(shù)據(jù)通常包含以下變量:
借款人最近7天、1個(gè)月、3個(gè)月、6個(gè)月、12個(gè)月、18個(gè)月、24個(gè)月的某類(lèi)平臺(tái)借貸次數(shù)
某類(lèi)平臺(tái)包含:消費(fèi)金融公司、互聯(lián)網(wǎng)金融公司、銀行信貸、數(shù)據(jù)風(fēng)控公司等等。
根據(jù)這些原始變量,我們可以按照以上方法論衍生一些新變量。例如:
如果以“?最近7天的多頭借貸次數(shù) / 最近1個(gè)月的多頭借貸次數(shù)”,我們便可以判斷借款人的時(shí)間維度上的借貸行為分布。這個(gè)變量數(shù)值越大,代表近期借貸集中,短期風(fēng)險(xiǎn)更大。
如果以“?最近1個(gè)月的銀行信貸借貸次數(shù) / 最近1個(gè)月的多頭借貸次數(shù)”,我們便可以判斷借款人的在借貸平臺(tái)維度的分布。這個(gè)變量數(shù)值越大,可以認(rèn)為越趨于正面。
在使用這些變量時(shí),我們還需考慮第三方數(shù)據(jù)公司所接入的機(jī)構(gòu)數(shù)的變化。也就是說(shuō),如果接入機(jī)構(gòu)數(shù)在持續(xù)增長(zhǎng),那么整體人群的多頭借貸指數(shù)也可能往高分偏移。
Part 8. 總結(jié)
本文系統(tǒng)總結(jié)了時(shí)間滑窗統(tǒng)計(jì)特征的構(gòu)造方法論,以及相應(yīng)的業(yè)務(wù)理解。總的來(lái)說(shuō),我們先統(tǒng)計(jì)數(shù)量,再?gòu)恼急取②厔?shì)、穩(wěn)定性、集中性等維度去衍生。當(dāng)然,最重要的一點(diǎn)還是多結(jié)合業(yè)務(wù)去思考。
?
參考資料
felix:JDATA京東算法大賽入門(mén)(score0.07+時(shí)間滑動(dòng)窗口特征+xgboost模型)(https://zhuanlan.zhihu.com/p/26177617)
高階用戶運(yùn)營(yíng) | 如何用RFM模型實(shí)現(xiàn)用戶分層管理(附案例)|推薦收藏(https://www.douban.com/note/698611890/)
「回顧」自動(dòng)化特征工程和自動(dòng)建模在風(fēng)控場(chǎng)景的應(yīng)用(https://mp.weixin.qq.com/s/SiD8HZ2eFuuNE3CTYaPYSA)
總結(jié)
以上是生活随笔為你收集整理的风控特征:时间滑窗统计特征体系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 复方蟾酥膏_功效作用注意事项用药禁忌用法
- 下一篇: 风控特:关系网络特征工程入门实践