當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

评分卡中的一些理论知识

發(fā)布時間：2025/3/21 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了评分卡中的一些理论知识小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ?寫文章也一年多了，這一年的時間里一直在學習、總結、思考不停地反復，逐漸從一個菜鳥到對這門技術慢慢有了自己的認知。但是即便如此，我內(nèi)心還是深知自己不明白的東西有很多，依然有許多需要實踐和積累的。最近又回頭去看求是汪的文章，很多東西看一遍很容易遺忘，需要不停地反復閱讀、思考和總結。所以突然就有了寫這篇文章的想法，將評分卡中理論的東西整理一下，具體順序全憑自己的記憶和思路。目的也是為了重新夯實一下基礎，讓自己的內(nèi)心感到更加踏實和安全。

一、評分卡的映射邏輯

? ? ? ?這個之前寫過邏輯回歸評分卡映射，具體細節(jié)不展開。一些重要的公式如下，這幾個公式是評分卡映射中的核心公式，后面會重復提到。

? ? ? 評分卡映射的邏輯中，需要對θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))作出假設，這三個數(shù)值決定了評分轉化中的A和B的值。由此衍生出幾個問題：

1.邏輯回歸輸出的y為什么可以表示違約概率?

? ? ? ?由上式4可以知道，邏輯回歸輸出的y就是p，這是表面上的原因。深層原因是，第4步的步驟其實是一個普拉托平滑，可以使輸出概率的分布是正態(tài)分布，這在評分卡校準的時候會用到。而像xgb這些模型由于沒有做相關性篩選，入模變量相關性比較高，因此輸出概率分布一般服從長尾分布(各種因素對結果的影響不是相加，而是相乘，那么最終結果不是正態(tài)分布，而是對數(shù)正態(tài)分布)。

2.邏輯回歸的系數(shù)的絕對值是否可以認為是特征的重要性？

? ? ? 邏輯回歸系數(shù)的絕對值越大，說明對分類效果的影響越顯著。但是因為改變變量的尺度就會改變系數(shù)的絕對值，而且如果特征之間是線性相關的，則系數(shù)可以從一個特征轉移到另一個特征。特征間相關性越高，用系數(shù)解釋變量的重要性就越不可靠。

3.不同客群的評分卡(邏輯回歸)為什么不用進行校準？

? ? ? 評分卡背后的實質(zhì)是score、ln(odds)、p之間的映射關系。如果同樣一個score對應的p不一致時，則需要對評分進行校準。而由(2)式可知，確定score和ln(odds)關系的是A和B。因此只需要θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))這三個值一致，那么評分卡分數(shù)的尺度則是一樣的，無需進行任何校準。

? ? ? ?如果兩個邏輯回歸的分數(shù)已經(jīng)采用了不同的θ0、P0、PDO，則需要再對這兩個分數(shù)分別再進行一次普拉托變換，則可以將分數(shù)校準至同一水平。

4.為什么邏輯回歸擬合出來的截距等于ln(odds)?

這個問題在求是汪的文章中有給過推導：

? ? ? 大致思路是ln(odds)是先驗信息，隨著觀察信息的不斷加入，引起后驗信息的變化，最終對群體的好壞評價越來越客觀。這種樸素貝葉斯的假設思想很重要，也就是上面第一步到第二步。為了解釋第一步到第二步的變化，可以看下面的例子：

? ? ? 以x為自有住房為例，f(x|G)表示在好人情況下x為自有住房的概率，也被稱為似然函數(shù)，描述屬性向量有多大可能性落在好和壞的群體中。f(x|G)=570/900。

p(G|x)是條件概率，p(G|x)=570/600；

f(x)是x出現(xiàn)的概率，f(x)=600/1000;

p(G)是整體概率，p(G)=900/1000。

? ? ? 將上面四個值兩兩相乘，得到下式：

? ? ? ?對應上面的公式則是：

f(x|G)*p(G)=p(G|x)*f(x)

f(x|B)*p(B)=p(B|x)*f(x)

? ? ? ?兩式相除得到：

? ? ? ?左邊的式子就是ln(odds)，也就是上式中第一步到第二步的由來。

二、WOE與IV值的理解

? ? ? 可以參看WOE與IV指標的深入理解應用。

? ? ? WOE的兩種寫法可以對應兩種理解：

? ? ? ?代表每個分箱里的壞人分布相對于好人分布之間的差異性；

? ? ? ?代表每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。

? ? ? 依然從樸素貝葉斯的角度來理解WOE，其中l(wèi)n(BadT/GoodT)表示先驗項，ln(Badi/Goodi)是后驗項，WOE表示根據(jù)觀測數(shù)據(jù)更新信息，這也是WOE叫作證據(jù)權重的原因，幫助修正先驗知識的證據(jù)。

具體的推導過程如下：

關于WOE可以思考兩個問題：

1.WOE曲線越陡是否越好？

? ? ? ?WOE曲線越陡，說明變量兩箱之間的WOE差值越大。w是常數(shù)，因此兩箱之間的ln(odds)之差也越大，相應的兩箱之間的分差越大，也就是該變量的區(qū)分度很好。

2.WOE計算方法與邏輯回歸系數(shù)一致性的關系？

? ? ? 先說結論：WOE用壞好比時，要求邏輯回歸系數(shù)為正；WOE用好壞比時，邏輯回歸系數(shù)為負。對邏輯回歸系數(shù)正負性要求是為了保證壞賬率與分數(shù)之間的單調(diào)性關系。

? ? ? ?每個變量的分數(shù)為-B*β*WOE，當WOE用壞好比時，壞樣本率越高，WOE值越大，而想要分數(shù)越低，需要保證β為正數(shù)；當WOE為好壞比時正好相反。

3.IV值為什么具有預測能力？

? ? ? IV值的本質(zhì)是K-L距離，衡量好人分布與壞人分布的差異，IV值越大說明好人分布與壞人分布的差異越大，因此IV值越大預測能力越強。

? ? ? ?類似的PSI也是K-L距離，衡量的是預期分布與實際分布之間的差異，PSI越大說明實際分布與預期分布差異越大，變量越不穩(wěn)定。具體內(nèi)容可見相對熵與IV、PSI的關系

三、KS值的理解

? ? ? ?KS的公式為max(累計壞樣本比率-累計好樣本比率)，可以理解為好壞距離或區(qū)分度的上限。比如KS為30%，其含義是在誤殺35%的好客戶的情況下攔截住65%的壞客戶。關于KS可以思考的問題如下：

1.KS越高說明模型越好嗎？

? ? ? 不是，KS值的高低與建模樣本中的壞樣本濃占比相關，想提升KS的方法有很多，最直觀的一個就是增大Y樣本中的濃度，比如選取不同的Y，壞樣本的濃度就會不一樣。此外，KS的高低與策略的松緊有關，策略比較松，放進來的壞客戶就較多，KS就會高。

2.在不同cutoff內(nèi)取到max時，模型性能有什么差異?

? ? ? 假設KS值都為30%，也就是誤殺35%的好客戶的情況下攔截住65%的壞客戶。不同的cutoff內(nèi)取到max說明達到同樣的攔截效果，通過率不同，通俗地說，一個可能在80%通過率的時候就達到攔截效果，而另一個在50%通過率才達到同樣的效果。高通過率的說明模型低分段的濃度很高比低通過率時要高，即低分段的識別能力更強。

3.模型上線后的KS不斷衰減的原因？

? ? ? 模型訓練時的KS是基于全量通過樣本的，上線后會切一刀，高于一定分數(shù)的樣本才能進來，因此上線后的KS一般是會比訓練時的KS低。此外，策略調(diào)整、客群變化都會導致KS的衰減。

? ? ? ?關于評分卡中常用到的理論推導，大概就想到了這么多，理論終究是理論，還有很多東西需要在業(yè)務實踐中去驗證和領悟，繼續(xù)堅持學習、積累、成長。

"那些波瀾不驚的日復一日，總有一天會讓你看到堅持的意義"

【作者】：Labryant

【原創(chuàng)公眾號】：風控獵人

【簡介】：做一個有規(guī)劃的長期主義者。

【轉載說明】：轉載請說明出處，謝謝合作！~

總結

以上是生活随笔為你收集整理的评分卡中的一些理论知识的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。