风控特:关系网络特征工程入门实践
風(fēng)控業(yè)務(wù)背景
常規(guī)RFM時(shí)間切片統(tǒng)計(jì)特征側(cè)重于縱向維度量化用戶風(fēng)險(xiǎn),而關(guān)系網(wǎng)絡(luò)特征則從橫向維度來評(píng)估。縱向是指同一用戶在不同時(shí)間段上的行為異常風(fēng)險(xiǎn);橫向是指在同一個(gè)時(shí)間段里聚集的不同用戶放在一起評(píng)估風(fēng)險(xiǎn)。因此,關(guān)系網(wǎng)絡(luò)特征可作為常規(guī)RFM特征的一個(gè)有力補(bǔ)充,為風(fēng)控模型帶來可預(yù)見的增量效果。
芝麻信用分中的人脈關(guān)系維度可以給我們帶來很多啟發(fā),其又細(xì)分為人脈圈穩(wěn)定性、社交影響力指數(shù)和信用環(huán)境指數(shù)三個(gè)子指標(biāo)。其中信用環(huán)境指數(shù)是本文主要參考學(xué)習(xí)的方向。
圖1 - 芝麻信用評(píng)分維度之人脈關(guān)系
本文不圍繞各種復(fù)雜的社區(qū)發(fā)現(xiàn)算法展開,只從業(yè)務(wù)角度分享下構(gòu)建關(guān)系特征的一些實(shí)踐經(jīng)驗(yàn)。關(guān)系網(wǎng)絡(luò)中最重要的兩部分無非就是——邊(edge)和節(jié)點(diǎn)(node)。圍繞這兩點(diǎn),我們可以考慮幾個(gè)問題:如何分析可用數(shù)據(jù)?如何根據(jù)已有數(shù)據(jù)源來構(gòu)建關(guān)系網(wǎng)絡(luò)?如何構(gòu)建關(guān)系特征?如何評(píng)估關(guān)系特征的性能?如何落實(shí)上線方案?
目錄
Part 1. 如何分析可用數(shù)據(jù)?
Part 2. 如何構(gòu)建邊關(guān)系?
Part 3. 如何使用節(jié)點(diǎn)特征?
Part 4. 如何使用存量數(shù)據(jù)和增量數(shù)據(jù)?
Part 5. 如何實(shí)時(shí)上線?
Part 6. 如何驗(yàn)證關(guān)系特征的效果?
Part 7. 如何去優(yōu)化關(guān)系特征?
致謝
版權(quán)聲明
Part 1. 如何分析可用數(shù)據(jù)?
考慮數(shù)據(jù)源的穩(wěn)定性。
在風(fēng)控中,?穩(wěn)定性壓倒一切。數(shù)據(jù)源是構(gòu)建特征的前提,如果數(shù)據(jù)源采集上就不穩(wěn)定,必然導(dǎo)致特征波動(dòng)。那么為了調(diào)研數(shù)據(jù)源采集情況,我們?cè)撟稍兡男┤藛T,以及關(guān)注哪些問題呢?以下是筆者的一些實(shí)踐建議:
-
信貸產(chǎn)品設(shè)計(jì)人員?:了解產(chǎn)品頁面跳轉(zhuǎn)流程,包括:在哪個(gè)頁面將會(huì)要求用戶導(dǎo)入資料?需要用戶授權(quán)同意哪些數(shù)據(jù)采集協(xié)議?新用戶相對(duì)于老用戶會(huì)少哪些數(shù)據(jù)?
-
外部數(shù)據(jù)對(duì)接開發(fā)人員?:外部數(shù)據(jù)是其他數(shù)據(jù)公司所提供的,從而可能存在一些不確定性。例如,由于輸出變量不穩(wěn)定而被使用方下線,或者由于協(xié)議到期而被提供商下線。需要明確:外部數(shù)據(jù)在哪個(gè)環(huán)節(jié)(額度、定價(jià)、支用)調(diào)用?覆蓋哪些產(chǎn)品和客群?外部數(shù)據(jù)接口調(diào)用的穩(wěn)定性?
-
風(fēng)控策略人員?:了解風(fēng)控流程和未來業(yè)務(wù)調(diào)整計(jì)劃。風(fēng)控流程圖幫助你理解在整個(gè)風(fēng)控鏈路上數(shù)據(jù)采集和風(fēng)控策略之間的映射關(guān)系;業(yè)務(wù)調(diào)整計(jì)劃幫助你排除一些未來不可用數(shù)據(jù)。例如,為提高用戶轉(zhuǎn)化率或合規(guī)性要求,未來計(jì)劃把某些用戶數(shù)據(jù)?由必導(dǎo)項(xiàng)改為自選項(xiàng)?,那么可預(yù)見這塊數(shù)據(jù)未來的采集率將會(huì)逐漸下降。如果對(duì)這塊數(shù)據(jù)依賴性高,就會(huì)導(dǎo)致模型不穩(wěn)定。此時(shí),我們就不得不放棄實(shí)時(shí)數(shù)據(jù)的使用,或者考慮分箱等方式來平滑影響,或者考慮如何利用存量歷史數(shù)據(jù)。
👉?建議?:可分產(chǎn)品線、時(shí)間粒度(天/月)等維度統(tǒng)計(jì)數(shù)據(jù)的缺失率,以此分析數(shù)據(jù)的穩(wěn)定性。
2. 考慮數(shù)據(jù)源的厚薄度?。
由于各個(gè)數(shù)據(jù)源在不同時(shí)間點(diǎn)開始采集,因此數(shù)據(jù)的厚薄程度存在差異。在構(gòu)建時(shí)間切片特征時(shí)也需注意這一點(diǎn)——?明確觀察期窗口是否有效。例如,數(shù)據(jù)采集時(shí)間是從2018-01-01開始的,如果要統(tǒng)計(jì)最近30天內(nèi)的RFM特征,那么有效的觀察期窗口就是30天,有效的觀察點(diǎn)(樣本)就只能從2018-02-01開始,2018年1月份的樣本由于觀察期不滿30天就無法統(tǒng)計(jì)到有效的特征。在樣本特征回溯中,筆者經(jīng)常看到某些同學(xué)犯這個(gè)錯(cuò)誤。
因此,如果某塊數(shù)據(jù)在最近才開始采集,那也不得不舍棄。
3. 考慮模型的應(yīng)用場(chǎng)景。
特征是為模型服務(wù)的。因此,在構(gòu)建關(guān)系特征前,我們需要明確模型的應(yīng)用場(chǎng)景,為模型“量身定制”。如果計(jì)劃用在風(fēng)險(xiǎn)定價(jià)(A卡模型)環(huán)節(jié),那么某些在A卡之后的環(huán)節(jié)才能獲取的數(shù)據(jù)就無法使用。很多建模經(jīng)驗(yàn)不足的同學(xué),不管三七二十一,直接把所有可能使用的數(shù)據(jù)拿來測(cè)算,根本沒考慮過線上如何使用的問題。最后,要么離線測(cè)算結(jié)果就不佳,要么最后根本無法上線使用。
👉?建議?:羅列一份數(shù)據(jù)源質(zhì)量分析清單,筆者在整理中的結(jié)果表示例:
圖2 - 數(shù)據(jù)源質(zhì)量分析清單
Part 2. 如何構(gòu)建邊關(guān)系?
我們可以從?關(guān)系強(qiáng)弱(邊權(quán)重)?和?覆蓋率(邊數(shù)量)兩個(gè)維度來衡量數(shù)據(jù)源對(duì)定義邊的重要性。由于各家公司對(duì)數(shù)據(jù)源獲取情況各異,在此就只對(duì)目前市場(chǎng)上的數(shù)據(jù)源分析關(guān)系強(qiáng)弱。
運(yùn)營商數(shù)據(jù)?:關(guān)系??????????。可根據(jù)最近N天內(nèi)通話記錄次數(shù)等指標(biāo)來衡量兩個(gè)人之間的親密程度。
設(shè)備數(shù)據(jù)?:關(guān)系????????。可根據(jù)最近N天內(nèi)是否共同使用過一臺(tái)設(shè)備、是否共同使用過同一個(gè)Wi-Fi等指標(biāo)衡量。
通訊錄數(shù)據(jù)?:關(guān)系??????????。通訊錄中所存號(hào)碼的備注信息可判斷親密度。
緊急聯(lián)系人數(shù)據(jù)?:關(guān)系??????????。通常情況下,用戶所填的緊急聯(lián)系人會(huì)是自己的家人、同事、親友等。
電商地址數(shù)據(jù)?:關(guān)系??????。根據(jù)地址相似度比對(duì)來判斷用戶之間存在的關(guān)系。由于地址數(shù)據(jù)需要提前規(guī)整,處理難度大。
運(yùn)營老客拉新數(shù)據(jù)?:關(guān)系??????。產(chǎn)品運(yùn)營活動(dòng)中常會(huì)推出各種老客拉新活動(dòng)以實(shí)現(xiàn)用戶增長。鏈接傳播渠道一般是微信。因此被拉的新客與老客之間通常是微信朋友關(guān)系。
銀行卡轉(zhuǎn)賬記錄數(shù)據(jù)?:關(guān)系??????。通常情況下,覆蓋率較低。
LBS地址位置數(shù)據(jù)?:關(guān)系??。由于設(shè)備經(jīng)緯度數(shù)據(jù)采集誤差和位置時(shí)效性強(qiáng)的問題,這塊數(shù)據(jù)對(duì)于衡量用戶關(guān)系較弱。
其他數(shù)據(jù)?。
在羅列出所有可用于構(gòu)建邊關(guān)系的數(shù)據(jù)后,我們又會(huì)面臨一個(gè)問題:每個(gè)數(shù)據(jù)源就可以提取出多個(gè)邊關(guān)系,那么就可以構(gòu)造多個(gè)子網(wǎng)絡(luò),我們?cè)撊绾翁幚磉@些邊?
可以有以下2種做法:
-
特征層融合?:對(duì)每個(gè)子網(wǎng)絡(luò)獨(dú)立構(gòu)建圖特征,在特征層中融合。該方案在實(shí)踐中的優(yōu)點(diǎn)在于方便直觀,可并行;缺點(diǎn)在于工作量大,如果有a個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源可提取b種關(guān)系的邊,又有c個(gè)節(jié)點(diǎn)特征,此時(shí)就會(huì)衍生出 a ? b ? c個(gè)特征。在建模中,也不可能對(duì)這所有的特征入模,需要開展大量的特征篩選工作。
-
網(wǎng)絡(luò)層融合?:該方案在實(shí)踐中的優(yōu)點(diǎn)在于將各類強(qiáng)邊弱邊融合在一起(w1 * e1 + w2 * e2 + w3 * e3 + ...),使邊的內(nèi)在含義更為豐富,邊的覆蓋率得到提升;缺點(diǎn)在于無法很好對(duì)融合權(quán)重賦值,前期可考慮專家經(jīng)驗(yàn)拍定,后期優(yōu)化可以考慮結(jié)合具體的target來訓(xùn)練估計(jì)。
圖3 - 特征層融合 VS 網(wǎng)絡(luò)層融合
Part 3. 如何使用節(jié)點(diǎn)特征?
一般情況下,節(jié)點(diǎn)特指用戶(當(dāng)然也可以是手機(jī)號(hào)、設(shè)備等)。我們可以通過RFM模型批量生產(chǎn)出大量時(shí)間切片特征,或者根據(jù)業(yè)務(wù)理解構(gòu)造出強(qiáng)業(yè)務(wù)特征。
而關(guān)系網(wǎng)絡(luò)的一個(gè)價(jià)值在于:利用節(jié)點(diǎn)所在群體(可以是一度、二度,或者社區(qū)發(fā)現(xiàn)算法挖掘出的簇)中的鄰居節(jié)點(diǎn)特征,通過關(guān)系網(wǎng)絡(luò)傳播到某個(gè)節(jié)點(diǎn)上。
如果節(jié)點(diǎn)特征表對(duì)鄰居節(jié)點(diǎn)的覆蓋率低(通常情況下,鄰居節(jié)點(diǎn)數(shù) >> 特征表中節(jié)點(diǎn)數(shù)),那么網(wǎng)絡(luò)傳播過程將會(huì)大打折扣。試想,一個(gè)下單用戶好不容易找出100個(gè)一度鄰居,然而只有3個(gè)鄰居節(jié)點(diǎn)特征變量有值,其余鄰居節(jié)點(diǎn)特征都為null,那么通過傳播(對(duì)鄰居節(jié)點(diǎn)求mean、max、min、sum聚合操作)后,該下單用戶僅僅利用了3個(gè)鄰居的信息。
👉因此,?節(jié)點(diǎn)特征表中的用戶量決定了特征傳播的上限。
接下來,我們就會(huì)考慮如何去擴(kuò)充節(jié)點(diǎn)特征表中的用戶量?最直接的做法——我們把歷史全量用戶的特征都拿過來用不就行了?但需要注意的是,用戶特征具有時(shí)效性。?所謂?時(shí)效性,是指用戶特征是否能有效反映用戶最近的風(fēng)險(xiǎn)。?因此,貪多反而會(huì)引起特征質(zhì)量下降,兩者需要做權(quán)衡。
如果該特征的穩(wěn)定性比較好(反映用戶穩(wěn)定屬性的特征,如性格、信用等),那么就可以盡可能使用歷史存量數(shù)據(jù)。也就是說,設(shè)定節(jié)點(diǎn)特征表的有效期為1年(或更長),在有效期內(nèi)的歷史全量節(jié)點(diǎn)特征,我們都可以拿來傳播。例如信用卡額度,通常認(rèn)為一個(gè)用戶在1年內(nèi)的額度不會(huì)發(fā)生太大變化。
反之,對(duì)于時(shí)效性強(qiáng)的特征,我們寧可犧牲覆蓋率,也要縮短有效期,目的是為了保證特征的時(shí)效性。例如同盾這類的多頭借貸數(shù)據(jù),隨著接入和退出機(jī)構(gòu)的動(dòng)態(tài)變化,半年前的同盾數(shù)據(jù)可能已經(jīng)無法反映用戶當(dāng)前的借貸風(fēng)險(xiǎn),若直接使用反而會(huì)引入噪聲。
對(duì)于某個(gè)節(jié)點(diǎn)(用戶)特征表在不同時(shí)間點(diǎn)存在多條記錄的,可以考慮以下策略:
取最近一條,保證特征的時(shí)效性最強(qiáng)。
參考遺忘曲線,對(duì)不同時(shí)間點(diǎn)的特征進(jìn)行加權(quán)融合。
圖4 - 特征有效期和取用策略
Part 4.?如何使用存量數(shù)據(jù)和增量數(shù)據(jù)?
增量數(shù)據(jù):一般指實(shí)時(shí)數(shù)據(jù),可直接計(jì)算一度關(guān)系的邊權(quán)重。例如,如果用戶申貸下單時(shí)必須導(dǎo)運(yùn)營商數(shù)據(jù),那么就可以根據(jù)實(shí)時(shí)導(dǎo)入的通話記錄來構(gòu)建圖關(guān)系網(wǎng)絡(luò)。這是最新的數(shù)據(jù),自然更能反映用戶此時(shí)的風(fēng)險(xiǎn)。
存量數(shù)據(jù):在一些場(chǎng)景下,我們不得不依賴于使用存量數(shù)據(jù)。
-
場(chǎng)景1: 前期業(yè)務(wù)流程中要求用戶強(qiáng)制導(dǎo)運(yùn)營商數(shù)據(jù),后期變成用戶可選提額項(xiàng)。
-
場(chǎng)景2: 某塊數(shù)據(jù)之前都是在定價(jià)環(huán)節(jié)才調(diào)用,而此次建模希望用在額度環(huán)節(jié)(在定價(jià)之前)。
此時(shí),我們?cè)撊绾问褂媚?#xff1f;考慮到對(duì)于某些新用戶,雖然其自己沒有導(dǎo)入運(yùn)營商這類的關(guān)系數(shù)據(jù),但是可能其身邊的人在歷史申貸時(shí)就已經(jīng)導(dǎo)入過資料。那么,在歷史關(guān)系網(wǎng)絡(luò)中,該新用戶就被囊括在其中。因此,存量數(shù)據(jù)也有其使用價(jià)值。
同樣的道理,我們需要考慮關(guān)系網(wǎng)絡(luò)也具有時(shí)效性。某些歷史關(guān)系網(wǎng)絡(luò)比較穩(wěn)定,比如家人關(guān)系,那么就可以使用較久版本的,否則就只能用最近的,甚至不使用。
圖 5 - 關(guān)系網(wǎng)絡(luò)有效期
Part 5.?如何實(shí)時(shí)上線?
據(jù)筆者所知,目前線上計(jì)算二度關(guān)系的技術(shù)門檻仍然很高,因此我們?cè)趯?shí)時(shí)計(jì)算時(shí)考慮一度關(guān)系(應(yīng)該也能達(dá)到80%的baseline效果,剩下的20%可能就需要靠高階關(guān)系了),二度關(guān)系甚至更為復(fù)雜的社區(qū)發(fā)現(xiàn)算法則放在離線計(jì)算。因此,在實(shí)時(shí)構(gòu)建一度關(guān)系和離線提供一度和多度關(guān)系的相互補(bǔ)充下,將會(huì)得到相對(duì)于只用實(shí)時(shí)一度關(guān)系更好的效果。
節(jié)點(diǎn)特征表則可通過離線提前計(jì)算,并將有效期范圍的不同觀察點(diǎn)的節(jié)點(diǎn)特征匯總成一張表,導(dǎo)入到線上數(shù)據(jù)庫。
對(duì)于實(shí)時(shí)訂單,可實(shí)時(shí)構(gòu)建出關(guān)系網(wǎng)絡(luò),取出一度聯(lián)系人和相應(yīng)的邊權(quán)重。并從節(jié)點(diǎn)特征表中取出鄰居用戶的特征,進(jìn)而傳播擴(kuò)散,生成實(shí)時(shí)圖特征。
Part 6. 如何驗(yàn)證關(guān)系特征的效果?
在風(fēng)控建模中,評(píng)估特征性能最為關(guān)注穩(wěn)定性和區(qū)分度。穩(wěn)定性可用PSI(群體穩(wěn)定性)來計(jì)算,而區(qū)分度可用IV(信息量)來衡量。再次強(qiáng)調(diào)穩(wěn)定性在風(fēng)控中的重要性。
因此,可按照以下步驟來快速評(píng)估:
考慮先回溯足夠多的樣本,通常是要求幾個(gè)月以能評(píng)估穩(wěn)定性
先評(píng)估特征的區(qū)分度。對(duì)于IV很高的特征,再次確認(rèn)取數(shù)邏輯中是否用到未來信息。
篩選出區(qū)分度較強(qiáng)的特征,進(jìn)一步評(píng)估穩(wěn)定性。
Part 7. 如何去優(yōu)化關(guān)系特征?
引入邊權(quán)重,而不僅僅是有關(guān)聯(lián)的一度用戶。
離線增加更多關(guān)系較強(qiáng)但覆蓋率較低的邊,以起到補(bǔ)充更多一度聯(lián)系人的作用。
節(jié)點(diǎn)特征增加更多維度。本質(zhì)還是在于特征傳播,因此加有效的節(jié)點(diǎn)特征是最重要的。
利用樣本和target變量對(duì)關(guān)系網(wǎng)絡(luò)融合權(quán)重參數(shù)估計(jì),以期達(dá)到更合理的網(wǎng)絡(luò)融合。
總結(jié)
以上是生活随笔為你收集整理的风控特:关系网络特征工程入门实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 风控特征:时间滑窗统计特征体系
- 下一篇: AQS的原理及应用