风控大咖教你四步开发风控模型
數信互融(IFRE):專注于互聯網金融領域的風險量化、資產定價?;诨ヂ摼W金融行業數據,結合互聯網金融大數據,應用國際上專業化的分析手段,提供信用評估模型、決策引擎和資產證券化等服務,幫助互聯網金融行業預測債權的風險溢價、實現資產定價以及解決互聯網金融行業資產流動性問題。
“你的模型準么?”
“你的模型真的有用么?”
“你的模型對風控有價值么?”
在為P2P公司建立風控評分模型過程中,這是最常見的問題。為了回答這一問題,我們想先討論下如何從實際業務出發,以怎樣的開發流程才能建立一個有效、有用、有價值的模型,希望讀后能給你一定的啟發。
在互聯網金融風控體系中,量化分析需要貫穿始終,評分卡模型是其中非常重要的一環。
在互聯網金融評分卡開發過程中,我們仔細研究了企業風控操作流程,反復推敲了模型構建步驟,最后我們認為從業務應用角度,評分卡開發應用應遵循:
業務定義 -> 風險定義-> 風險分解 -> 風險策略 這幾個步驟。
業務定義
為什么把業務定義放在最底層呢?
從商務智能的角度說,模型,評分,策略等都是為業務服務的,脫離了業務場景的模型和評分是無本之木,無源之水;脫離了業務場景談模型的準確性,沒有意義。
不同的業務場景,產生了不同的數據,不同的數據包含的規律,體現在數據分析中就是不同的模型、不同的參數和不同的評分。
比如,同樣是網上的個人信用貸款,主要包含個人和企業主兩大類客群。在中國,由于小微企業貸款困難,如果小微企業有了貸款需求,一般都是企業主以個人名義在網上貸款,但是這類客戶顯然是和普通個人信用貸款客戶是不同的,所以這類客戶的屬性信息一般都包含了一些企業的信息,如資產,對公、對私流水等等。我們在做模型的時候,就會把他們分開:個人消費信貸模型和企業主信貸模型,企業主模型會包含一些反應小微企業財務狀況的變量。
但是互聯網金融所包含的業務種類遠不止這兩個,單純的信用貸款類,就有專門放貸給學生的學生貸;在朋友圈之內貸款的朋友貸;給外企白領貸款的白領貸……
如果你拿學生貸的模型給農民貸客戶來用,或者拿給上海白領開發的模型給甘肅、西藏的白領用會怎么樣呢? 我不說你也明白了。
業務定義之后,還有一個要求,即業務模式的穩定性。即在一定時間范圍內,用于構建模型的數據依賴的業務模式是相對沒有變化的,前后一致的。只有滿足這個條件,歷史數據模擬出來的模型,和后面的數據才是匹配的。這在學術上有個術語,穩定性,Stationary/stability.
同理,我們也假設,符合同一類屬性特征的個體,其表現行為也是一樣的,即打分相同的人,表現也相同。這也回答了有人提出的另一個問題“我以前從沒貸過款,也沒信用卡消費記錄,能用你的模型打分么?”
風險定義
簡單地說就是判定哪些是好客戶,哪些是壞客戶。
互聯網金融業務模式的多樣性,導致了對好客戶和壞客戶的定義標準也不盡相同。 這里有人會問:“怎么會呢?欠錢不還的不就是壞客戶么?!焙冒?#xff0c;我來舉個例子。
在我們清洗數據的時候,看到對客戶信用評價中有這么一類“少量逾期”,這個類別占了相當大的比重,而且在模型中作用也比較顯著,和其它類別“信用好”“信用差”等比肩。
一開始我們的技術人員對這個“少量逾期”這個分類很疑惑,不能理解這個分類到底是好還是壞。直到我們和某P2P公司的風控經理實際交流后才明白這其中的含義。宋總說:“……在傳統銀行信用卡業務中,是很喜歡這類少量逾期的客戶的,因為他們能給銀行創造罰息,但是又不是惡意違約那種客戶。但對于我們P2P公司來說,是不敢養這類客戶的,一旦有了逾期情況,就必須馬上采取措施……”
說到這里您可以明白了吧,“少量逾期”是傳統銀行信用卡業務中經常出現的一個分類,而且算一個銀行比較喜歡的類別,但是你把它也用到互聯網金融試試?
風險分解
風險分解,就是用模型把目標客戶分類。我們舉個例子:
某跨國IT北京研發的總裁,提到發生在自己身上的案例:由于家里有急事,臨時用錢,想申請某行的信用卡多給5萬額度,但是某行不批。為什么呢? 因為劉總用這個卡主要是發工資的,每月到賬后,夫人就會把錢拿去購買理財產品。因此卡上一般沒多少錢。但是劉總是不是高風險客戶呢?
顯然,依據某行簡單的分類方法,劉總被劃為不能多給5萬額度的類別了。長此以往,類似劉總這類高質量、低風險客戶就有可能流失。
因此,選擇正確的方法,合理分類,才能為進一步采取合理的商業策略提供正確有力的數據支持。評分卡是其中一個比較有效的工具。
在信用風險管理領域,評分卡是簡便易行的風險管理工具。
什么是評分卡?
評分卡是綜合個人客戶的多個維度信息(如基本情況、償債能力、信用狀況等,重點關注償債能力、還款意愿),基于這些信息綜合運用數學分析模型,給個人綜合評分,判斷違約的可能性的工具。
生活中存在許多“顯性”或“隱性”的“評分卡”。
例如:選購汽車--綜合價格、油耗、安全系數、性能、外觀等來因素。-> 買? 還是不買?
就分析方法發而言,現在分類算法有很多種,決策樹,邏輯回歸,支持向量機,神經網絡等等,都可以實現這個目的。在以后的文章中,我們會詳細講解一下數據和模型的匹配性。數據決定了用什么模型。
風險策略
在給客戶正確分類之后,即準確地風險分類。我們就可以采取相應的商務策略,優化業務:
- 流程簡化:通過模型對客戶分層,降低審核人員的工作量,提高審批速度。
- 風控優化:以客觀分數代替主觀評斷,保證審批標準及風險偏好一致性。
- 風險定價:按照模型計算的違約率進行產品的定價。
以上是我們從業務角度談構建互聯網金融評分卡模型的結構。
在信用評分卡模型開發過程中,正態性是檢驗模型信用評分分布是否有效的一個重要指標。正常情況下,標準的正態分布是單峰分布;但是在實際建模過程中,會遇到信用評分分布出現雙峰的情況。
雙峰分布出現時,數據規律一致性的假設被打破,我們需要從不同的角度考察其出現雙峰分布的原因,對模型加以調整,使之準確地反映業務和數據中的規律,以便模型準確適用。
根據為數十家互聯網金融企業建立評分卡模型的實踐經驗,我們總結了一些造成雙峰分布的因素。
本文將從業務模式、錄入系統變更和變量這三個角度,對信用評分分布的雙峰情況加以分析并解釋其出現的原因。通過實際案例,通過具體解決方案的分享,與讀者共同探討交流討論。
1
參考模型:違約模型(先息后本和等本等息的混合模型)
解釋角度:業務模式(或者叫好壞客戶定義模式)
根據項目初期的好壞客戶定義,評分分布如圖1所示。其中出現了雙峰分布。
圖1 信用評分分布直方圖
考慮到好壞客戶定義與實際業務模式相差較大且壞客戶占比過低,采取重新定義好壞客戶。新的評分分布直方圖如圖2所示。
圖2 更改好壞客戶定義后的信用評分分布直方圖
可見,通過更改好壞客戶的重新定義,解決了評分分布出現雙峰的問題。
2
參考模型:違約模型(先息后本和等本等息的混合模型)
解釋角度:錄入系統變更
評分分布如圖3、圖4所示,可見在兩個模型中均出現了雙峰問題。
圖3 先息后本模型的信用評分分布直方圖
圖4 等本等息模型的信用評分分布直方圖
通過對上述兩個信用評分卡模型中的變量進行比較與分析后,我們發現其中一個共有變量,即配偶知曉貸款,在兩個模型中的得分都很低。于是我們在原始數據中對該變量進行深入分析,發現該變量在2014年12月27日之后就沒有缺失值了。同時,我們也發現居住類別變量在該時間點之后也沒有缺失值了。于是我們判斷在該時間點該P2P公司發生過較大變動。經過跟對方的接觸,證實在該時間點該P2P公司確實做過有關申請界面、必填字段、風控把控等的相關調整。就配偶知曉貸款這個變量而言,在錄入系統調整之前有缺失選項;在調整之后,沒有缺失選項,系統默認值為“是”。
由于錄入系統發生了較大的更改,更改所在時間點前后的數據是不同的,我們決定采用該時間點之后的數據再次建模。
新的評分分布直方圖如圖5、圖6所示:
圖5 新的先息后本模型的信用評分分布直方圖
圖6 新的等本等息模型的信用評分分布直方圖
通過發現錄入系統的變更,我們采用變更后的數據進行建模,從而將雙峰分布重新調整為單峰分布。
3
參考模型:申請模型
解釋角度:變量
信用評分分布直方圖如圖7所示,發現出現雙峰情況。
圖7信用評分分布直方圖
發現出現雙峰,我們考慮是否因為某個變量對變量預測有重要作用,造成該變量分數分布對總體信用評分分布有重要影響。為找出這個變量,在計算總體評分時,按照模型變量的IV值,從大到小依次刪除變量,觀察刪除某個變量后信用評分的分布情況。發現當刪除銀行卡月均流水變量后,信用評分分布的直方圖如圖8所示,發現雙峰消失,由此確認雙峰問題是由于銀行卡月均流水變量引起的。
圖8 刪除銀行卡月均流水變量后信用評分分布直方圖
由于刪除銀行卡月均流水變量后的信用評分分布并不是標準的正態分布或者近似正態分布,從而進一步分析:統計銀行卡月均流水變量各分類下的分數和對應的樣本量。發現在頻數相等的情況下,流水小于等于39000元和大于39000元兩類分值相差較大。于是繼續考慮是否因為銀行卡月均流水變量的小于等于39000一類分數過低,與其它分類的分數相差較大,使得總體信用評分不滿足標準正態性。
因此將樣本按照銀行卡月均流水變量大于39000、和小于等于39000分成兩類后,計算各自總體分數的分布,分別如圖9、圖10所示。
圖9 銀行卡月均流水變量大于39000的信用評分直方圖
圖10 銀行卡月均流水變量小于等于39000的信用評分直方圖
從圖9和圖10中可發現,按照銀行卡月均流水變量是否大于或者小于等于39000劃分樣本后,兩個數據集下的信用評分分布皆展示了一定的正態性,圖10中430和450分之間的高峰,正是總體評分分布出現小高峰的成因。
但是通過多次調整銀行卡月均流水變量的分組,雙峰問題依然無法解決,分析是否由于未知的外界因素引起,導致銀行卡月均流水在[0,39000]和39000+兩個范圍內,樣本之間存在較大的不同。
我們接下來觀察是否由于進件時間不同引起:通過驗證發現銀行卡月均流水變量各類別,均分布在進件時間從2014年9月19日到2015年5月15日的區間內,并不存在顯著的不同。
進一步考慮,是否由于借貸產品的不同而引起:
進過進一步分析發現,在相同產品類別下,銀行卡月均流水變量的頻數分布與壞客戶占比分布并不存在顯著的不同。
由此確定,產生雙峰的外界因素并不是進件時間和借貸產品的不同,而是可能當銀行卡月均流水較小時(低于39000),業務上對成功獲貸的要求更加嚴格,從而使得這個區間的樣本壞客戶占比很高,從而該區間的信用評分很低,最終導致信用評分分布出現雙峰。
當對銀行卡月均流水變量進行相應分數調整后,其信用評分分布如圖11所示。
圖11 調整銀行卡月均流水變量后的信用評分直方圖
從而,通過對變量分數的調整,我們將雙峰分布重新調整為單峰分布。
在P2P行業告訴發展的今天,互聯網金融企業的管理系統和風控策略也不斷更新完善,對應的內部系統不斷完善的情況下,業務模式,系統升級,人員變動等都會造成數據中有隱含的規律發生變化,數據一致性的假設被打破。數據建模人員首先要與對方確認每一次業務、系統、人員等變更的時間節點,以便做出預判,并對可能的數據變動進行邏輯驗證。
數據確定后,還需確定模型個數,盡可能保持客群和產品的統一性,避免將不同的客戶群體或者不同的產品混淆在一個模型之中。當確定好數據采取時間、模型個數之后,要結合業務模式以及客戶需求給出好壞客戶定義,以便于模型開發的順利進行。
在完成信用評分卡的開發之后,如果評分分布出現雙峰,我們要從各個方面查明原因,比如對方業務模式是否曾經有過較大變動、錄入系統是否更新過、好壞客戶的定義是否合適、變量分組是否合理等等。對于不同業務背景的模型,我們要采取針對有效的方式進行查驗。希望各位在看完本文后能夠對雙峰分布有一個直觀的理解,而實際工作中遇到的情況是千變萬化的,具體情況還需要從實際角度出發,根據相關業務背景查明原因。
本文是我們建模實踐中整理的關于造成雙峰情況的原因分析和解決方案,我們深知沒有涵蓋出現雙峰的全部情況,還希望與讀者、同行進行深入討論,共同進步!
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的风控大咖教你四步开发风控模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 评分卡开发方法论scorecard
- 下一篇: 常用数据挖掘算法简介