聊一聊评分模型校准
? ? ? ?最近想整理一下關于信用評分校準的一些知識,發現求是汪老師的文章已經很詳細、全面地介紹了這塊的內容,于是仔細讀了一遍他的文章,并對其中的重點作一下筆記。求是汪老師的文章鏈接是信用評分卡模型分數校準。
?
一.分數校準的業務應用場景
? ? ? 分數校準主要應用在3種場景下。
? ? ? 1.分群子評分卡作分數融合。
? ? ? 2.降級備用模型和主模型分數校準。
? ? ? 3.客群變化對原模型分數進行修正。
? ? ? ? 其實還有一種情況需要校準模型,就是對樣本進行抽樣建模之后需要對違約概率作校準之后再映射成評分。其本質和上面第3種情況是一樣的,都是開發樣本的Odds與實際樣本的Odds不一致,導致開發樣本的壞樣本占與比實際情況不一致。
?
二.概率分數校準的方法
? ? ? ?概率分數校準的方法主要有兩種。
? ? ? ?1.Platt scaling使用LR模型對模型輸出的值做擬合。適用于上 述場景1和場景2。
? ? ? ?2.評分卡分數的錯誤分配。適用于上述場景3。
? ? ? ?對于方法一,比如現在有兩個分數score1和score2,各分數段代表的違約概率不一致,需要進行校準。將score1和樣本的y標簽進行邏輯回歸輸出概率值score1_cal,將score2和樣本的y標簽進行邏輯回歸輸出概率值score2_cal。score1_cal和score2_cal就在同一尺度上了。
? ? ? ?深入思考的話,由于邏輯回歸本質上就是將違約概率p、對數幾率odds以及信用分數進行映射,如果映射過程中指定的Pdo、P0、odds都是一致的話,評分卡的尺度就是一致的,這種情況下不需要進行校準。即評分卡只要將概率轉化為分數時ln(odds)-score關系是一致,則無需進行校準。如果子模型使用的是集成學習方法,則需要進行校準,校準的方法是針對每個seg的xgb_score進行LR校準,校準完之后在整體校準完之后的分數定cutoff。因為策略一般只關注最終輸出分數。當然,策略會根據自己的人群標簽再做交叉分析。
? ? ? ?對于方法二,基于的理論依據是LR中的截距近似于開發樣本的ln(Odds),先通過一個案例來學習此方法,案例來源原來評分卡模型的概率是這么校準的!
? ? ? ? 一個評分卡經過抽樣或者客群發生偏移,開發樣本的壞樣本率為10%,評分卡模型建模樣本各分數段的好壞分布如下:
? ? ? ?實際上該產品的違約率只有2%左右,那么這個壞樣本占比會比產品上線后實際落在該分數段的壞樣本占比要高得多。要還原真實的情況,需要進行如下校準:
? ? ? ?概括一下,即將實際開發樣本的ln(odds),即LR中的截距,加一個ln(odds1/odds)后再進行sigmoid轉換。ln(odds1)是抽樣前真實好壞比或者目前樣本的好壞比。具體的理論依據如下:
? ? ? ?可以這樣理解上面的過程,邏輯回歸擬合出來的截距是約等于ln(odds)的,因此開發樣本擬合出來的截距是開發樣本的ln(odds),實際樣本的截距應該是實際樣本的ln(odds1),現在需要將開發樣本的ln(odds)調整到實際樣本的ln(odds1)上面,則需要-ln(odds)+ln(odds1),即再加上一個ln(odd1s/odds)。這樣解釋比較容易理解。
?
三.一些其它的啟發(來源于文章評論)
1.邏輯回歸擬合出來的截距為什么等于ln(odds)?
? ? ? ?這個問題求是汪老師的另一篇文章樣本權重對邏輯回歸評分卡的影響探討有寫到:
?
2.LR的輸出概率可以認為是真實概率,而其他分類器的輸出概率并不反映真實概率?
? ? ? ? lr輸出概率的分布往往是正態分布,這是因為自變量之間相互獨立;(多個獨立統計量的和的平均值,符合正態分布);xgb這些模型由于沒有做相關性篩選,入模變量相關性比較高,因此輸出概率分布一般服從長尾分布(如果各種因素對結果的影響不是相加,而是相乘,那么最終結果不是正態分布,而是對數正態分布)
?
3.分群導致各seg的odds不同,即LR的截距不同,會有什么影響?
? ? ? ?分群的目的就是讓不同的seg的odds存在差異化。從貝葉斯角度看,lr中截距項對應總體的odds,所以不同seg訓練的lr的截距必然有差異。通過PDO尺度變換后,這個截距對應正態分布的均值。不同seg的分布放在一起看會有重疊,但不會完全一致,否則分群就失去了意義。
【作者】:Labryant ?
【原創公眾號】:風控獵人 ?
【簡介】:某創業公司策略分析師,積極上進,努力提升。乾坤未定,你我都是黑馬。 ?
【轉載說明】:轉載請說明出處,謝謝合作!~
?
?
總結