评分卡中的一些理论知识
? ? ? ?寫文章也一年多了,這一年的時間里一直在學習、總結、思考不停地反復,逐漸從一個菜鳥到對這門技術慢慢有了自己的認知。但是即便如此,我內(nèi)心還是深知自己不明白的東西有很多,依然有許多需要實踐和積累的。最近又回頭去看求是汪的文章,很多東西看一遍很容易遺忘,需要不停地反復閱讀、思考和總結。所以突然就有了寫這篇文章的想法,將評分卡中理論的東西整理一下,具體順序全憑自己的記憶和思路。目的也是為了重新夯實一下基礎,讓自己的內(nèi)心感到更加踏實和安全。
?
一、評分卡的映射邏輯
? ? ? ?這個之前寫過邏輯回歸評分卡映射,具體細節(jié)不展開。一些重要的公式如下,這幾個公式是評分卡映射中的核心公式,后面會重復提到。
? ? ? 評分卡映射的邏輯中,需要對θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))作出假設,這三個數(shù)值決定了評分轉化中的A和B的值。由此衍生出幾個問題:
1.邏輯回歸輸出的y為什么可以表示違約概率?
? ? ? ?由上式4可以知道,邏輯回歸輸出的y就是p,這是表面上的原因。深層原因是,第4步的步驟其實是一個普拉托平滑,可以使輸出概率的分布是正態(tài)分布,這在評分卡校準的時候會用到。而像xgb這些模型由于沒有做相關性篩選,入模變量相關性比較高,因此輸出概率分布一般服從長尾分布(各種因素對結果的影響不是相加,而是相乘,那么最終結果不是正態(tài)分布,而是對數(shù)正態(tài)分布)。
?
2.邏輯回歸的系數(shù)的絕對值是否可以認為是特征的重要性?
? ? ? 邏輯回歸系數(shù)的絕對值越大,說明對分類效果的影響越顯著。但是因為改變變量的尺度就會改變系數(shù)的絕對值,而且如果特征之間是線性相關的,則系數(shù)可以從一個特征轉移到另一個特征。特征間相關性越高,用系數(shù)解釋變量的重要性就越不可靠。
?
3.不同客群的評分卡(邏輯回歸)為什么不用進行校準?
? ? ? 評分卡背后的實質(zhì)是score、ln(odds)、p之間的映射關系。如果同樣一個score對應的p不一致時,則需要對評分進行校準。而由(2)式可知,確定score和ln(odds)關系的是A和B。因此只需要θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))這三個值一致,那么評分卡分數(shù)的尺度則是一樣的,無需進行任何校準。
? ? ? ?如果兩個邏輯回歸的分數(shù)已經(jīng)采用了不同的θ0、P0、PDO,則需要再對這兩個分數(shù)分別再進行一次普拉托變換,則可以將分數(shù)校準至同一水平。
?
4.為什么邏輯回歸擬合出來的截距等于ln(odds)?
這個問題在求是汪的文章中有給過推導:
? ? ? 大致思路是ln(odds)是先驗信息,隨著觀察信息的不斷加入,引起后驗信息的變化,最終對群體的好壞評價越來越客觀。這種樸素貝葉斯的假設思想很重要,也就是上面第一步到第二步。為了解釋第一步到第二步的變化,可以看下面的例子:
? ? ? 以x為自有住房為例,f(x|G)表示在好人情況下x為自有住房的概率,也被稱為似然函數(shù),描述屬性向量有多大可能性落在好和壞的群體中。f(x|G)=570/900。
p(G|x)是條件概率,p(G|x)=570/600;
f(x)是x出現(xiàn)的概率,f(x)=600/1000;
p(G)是整體概率,p(G)=900/1000。
? ? ? 將上面四個值兩兩相乘,得到下式:
? ? ? ?對應上面的公式則是:
f(x|G)*p(G)=p(G|x)*f(x)
f(x|B)*p(B)=p(B|x)*f(x)
? ? ? ?兩式相除得到:
? ? ? ?左邊的式子就是ln(odds),也就是上式中第一步到第二步的由來。
二、WOE與IV值的理解
? ? ? 可以參看WOE與IV指標的深入理解應用。
? ? ? WOE的兩種寫法可以對應兩種理解:
? ? ? ?代表每個分箱里的壞人分布相對于好人分布之間的差異性;
? ? ? ?代表每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。
? ? ? 依然從樸素貝葉斯的角度來理解WOE,其中l(wèi)n(BadT/GoodT)表示先驗項,ln(Badi/Goodi)是后驗項,WOE表示根據(jù)觀測數(shù)據(jù)更新信息,這也是WOE叫作證據(jù)權重的原因,幫助修正先驗知識的證據(jù)。
具體的推導過程如下:
關于WOE可以思考兩個問題:
1.WOE曲線越陡是否越好?
? ? ? ?WOE曲線越陡,說明變量兩箱之間的WOE差值越大。w是常數(shù),因此兩箱之間的ln(odds)之差也越大,相應的兩箱之間的分差越大,也就是該變量的區(qū)分度很好。
?
2.WOE計算方法與邏輯回歸系數(shù)一致性的關系?
? ? ? 先說結論:WOE用壞好比時,要求邏輯回歸系數(shù)為正;WOE用好壞比時,邏輯回歸系數(shù)為負。對邏輯回歸系數(shù)正負性要求是為了保證壞賬率與分數(shù)之間的單調(diào)性關系。
? ? ? ?每個變量的分數(shù)為-B*β*WOE,當WOE用壞好比時,壞樣本率越高,WOE值越大,而想要分數(shù)越低,需要保證β為正數(shù);當WOE為好壞比時正好相反。
?
3.IV值為什么具有預測能力?
? ? ? IV值的本質(zhì)是K-L距離,衡量好人分布與壞人分布的差異,IV值越大說明好人分布與壞人分布的差異越大,因此IV值越大預測能力越強。
? ? ? ?類似的PSI也是K-L距離,衡量的是預期分布與實際分布之間的差異,PSI越大說明實際分布與預期分布差異越大,變量越不穩(wěn)定。具體內(nèi)容可見相對熵與IV、PSI的關系
?
三、KS值的理解
? ? ? ?KS的公式為max(累計壞樣本比率-累計好樣本比率),可以理解為好壞距離或區(qū)分度的上限。比如KS為30%,其含義是在誤殺35%的好客戶的情況下攔截住65%的壞客戶。關于KS可以思考的問題如下:
?
1.KS越高說明模型越好嗎?
? ? ? 不是,KS值的高低與建模樣本中的壞樣本濃占比相關,想提升KS的方法有很多,最直觀的一個就是增大Y樣本中的濃度,比如選取不同的Y,壞樣本的濃度就會不一樣。此外,KS的高低與策略的松緊有關,策略比較松,放進來的壞客戶就較多,KS就會高。
?
2.在不同cutoff內(nèi)取到max時,模型性能有什么差異?
? ? ? 假設KS值都為30%,也就是誤殺35%的好客戶的情況下攔截住65%的壞客戶。不同的cutoff內(nèi)取到max說明達到同樣的攔截效果,通過率不同,通俗地說,一個可能在80%通過率的時候就達到攔截效果,而另一個在50%通過率才達到同樣的效果。高通過率的說明模型低分段的濃度很高比低通過率時要高,即低分段的識別能力更強。
?
3.模型上線后的KS不斷衰減的原因?
? ? ? 模型訓練時的KS是基于全量通過樣本的,上線后會切一刀,高于一定分數(shù)的樣本才能進來,因此上線后的KS一般是會比訓練時的KS低。此外,策略調(diào)整、客群變化都會導致KS的衰減。
? ? ? ?關于評分卡中常用到的理論推導,大概就想到了這么多,理論終究是理論,還有很多東西需要在業(yè)務實踐中去驗證和領悟,繼續(xù)堅持學習、積累、成長。
"那些波瀾不驚的日復一日,總有一天會讓你看到堅持的意義"
【作者】:Labryant
【原創(chuàng)公眾號】:風控獵人
【簡介】:做一個有規(guī)劃的長期主義者。
【轉載說明】:轉載請說明出處,謝謝合作!~
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的评分卡中的一些理论知识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。