日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

评分卡中的一些理论知识

發(fā)布時間:2025/3/21 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 评分卡中的一些理论知识 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ?寫文章也一年多了,這一年的時間里一直在學習、總結、思考不停地反復,逐漸從一個菜鳥到對這門技術慢慢有了自己的認知。但是即便如此,我內(nèi)心還是深知自己不明白的東西有很多,依然有許多需要實踐和積累的。最近又回頭去看求是汪的文章,很多東西看一遍很容易遺忘,需要不停地反復閱讀、思考和總結。所以突然就有了寫這篇文章的想法,將評分卡中理論的東西整理一下,具體順序全憑自己的記憶和思路。目的也是為了重新夯實一下基礎,讓自己的內(nèi)心感到更加踏實和安全。

?

一、評分卡的映射邏輯

? ? ? ?這個之前寫過邏輯回歸評分卡映射,具體細節(jié)不展開。一些重要的公式如下,這幾個公式是評分卡映射中的核心公式,后面會重復提到。

? ? ? 評分卡映射的邏輯中,需要對θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))作出假設,這三個數(shù)值決定了評分轉化中的A和B的值。由此衍生出幾個問題:

1.邏輯回歸輸出的y為什么可以表示違約概率?

? ? ? ?由上式4可以知道,邏輯回歸輸出的y就是p,這是表面上的原因。深層原因是,第4步的步驟其實是一個普拉托平滑,可以使輸出概率的分布是正態(tài)分布,這在評分卡校準的時候會用到。而像xgb這些模型由于沒有做相關性篩選,入模變量相關性比較高,因此輸出概率分布一般服從長尾分布(各種因素對結果的影響不是相加,而是相乘,那么最終結果不是正態(tài)分布,而是對數(shù)正態(tài)分布)。

?

2.邏輯回歸的系數(shù)的絕對值是否可以認為是特征的重要性?

? ? ? 邏輯回歸系數(shù)的絕對值越大,說明對分類效果的影響越顯著。但是因為改變變量的尺度就會改變系數(shù)的絕對值,而且如果特征之間是線性相關的,則系數(shù)可以從一個特征轉移到另一個特征。特征間相關性越高,用系數(shù)解釋變量的重要性就越不可靠。

?

3.不同客群的評分卡(邏輯回歸)為什么不用進行校準?

? ? ? 評分卡背后的實質(zhì)是score、ln(odds)、p之間的映射關系。如果同樣一個score對應的p不一致時,則需要對評分進行校準。而由(2)式可知,確定score和ln(odds)關系的是A和B。因此只需要θ0(初始違約概率)、P0(初始分數(shù))、PDO(翻番倍數(shù))這三個值一致,那么評分卡分數(shù)的尺度則是一樣的,無需進行任何校準。

? ? ? ?如果兩個邏輯回歸的分數(shù)已經(jīng)采用了不同的θ0、P0、PDO,則需要再對這兩個分數(shù)分別再進行一次普拉托變換,則可以將分數(shù)校準至同一水平。

?

4.為什么邏輯回歸擬合出來的截距等于ln(odds)?

這個問題在求是汪的文章中有給過推導:

? ? ? 大致思路是ln(odds)是先驗信息,隨著觀察信息的不斷加入,引起后驗信息的變化,最終對群體的好壞評價越來越客觀。這種樸素貝葉斯的假設思想很重要,也就是上面第一步到第二步。為了解釋第一步到第二步的變化,可以看下面的例子:

? ? ? 以x為自有住房為例,f(x|G)表示在好人情況下x為自有住房的概率,也被稱為似然函數(shù),描述屬性向量有多大可能性落在好和壞的群體中。f(x|G)=570/900。

p(G|x)是條件概率,p(G|x)=570/600;

f(x)是x出現(xiàn)的概率,f(x)=600/1000;

p(G)是整體概率,p(G)=900/1000。

? ? ? 將上面四個值兩兩相乘,得到下式:

? ? ? ?對應上面的公式則是:

f(x|G)*p(G)=p(G|x)*f(x)

f(x|B)*p(B)=p(B|x)*f(x)

? ? ? ?兩式相除得到:

? ? ? ?左邊的式子就是ln(odds),也就是上式中第一步到第二步的由來。

二、WOE與IV值的理解

? ? ? 可以參看WOE與IV指標的深入理解應用。

? ? ? WOE的兩種寫法可以對應兩種理解:

? ? ? ?代表每個分箱里的壞人分布相對于好人分布之間的差異性;

? ? ? ?代表每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。

? ? ? 依然從樸素貝葉斯的角度來理解WOE,其中l(wèi)n(BadT/GoodT)表示先驗項,ln(Badi/Goodi)是后驗項,WOE表示根據(jù)觀測數(shù)據(jù)更新信息,這也是WOE叫作證據(jù)權重的原因,幫助修正先驗知識的證據(jù)

具體的推導過程如下:

關于WOE可以思考兩個問題:

1.WOE曲線越陡是否越好?

? ? ? ?WOE曲線越陡,說明變量兩箱之間的WOE差值越大。w是常數(shù),因此兩箱之間的ln(odds)之差也越大,相應的兩箱之間的分差越大,也就是該變量的區(qū)分度很好。

?

2.WOE計算方法與邏輯回歸系數(shù)一致性的關系?

? ? ? 先說結論:WOE用壞好比時,要求邏輯回歸系數(shù)為正;WOE用好壞比時,邏輯回歸系數(shù)為負。對邏輯回歸系數(shù)正負性要求是為了保證壞賬率與分數(shù)之間的單調(diào)性關系

? ? ? ?每個變量的分數(shù)為-B*β*WOE,當WOE用壞好比時,壞樣本率越高,WOE值越大,而想要分數(shù)越低,需要保證β為正數(shù);當WOE為好壞比時正好相反。

?

3.IV值為什么具有預測能力?

? ? ? IV值的本質(zhì)是K-L距離,衡量好人分布與壞人分布的差異,IV值越大說明好人分布與壞人分布的差異越大,因此IV值越大預測能力越強。

? ? ? ?類似的PSI也是K-L距離,衡量的是預期分布與實際分布之間的差異,PSI越大說明實際分布與預期分布差異越大,變量越不穩(wěn)定。具體內(nèi)容可見相對熵與IV、PSI的關系

?

三、KS值的理解

? ? ? ?KS的公式為max(累計壞樣本比率-累計好樣本比率),可以理解為好壞距離或區(qū)分度的上限。比如KS為30%,其含義是在誤殺35%的好客戶的情況下攔截住65%的壞客戶。關于KS可以思考的問題如下:

?

1.KS越高說明模型越好嗎?

? ? ? 不是,KS值的高低與建模樣本中的壞樣本濃占比相關,想提升KS的方法有很多,最直觀的一個就是增大Y樣本中的濃度,比如選取不同的Y,壞樣本的濃度就會不一樣。此外,KS的高低與策略的松緊有關,策略比較松,放進來的壞客戶就較多,KS就會高。

?

2.在不同cutoff內(nèi)取到max時,模型性能有什么差異?

? ? ? 假設KS值都為30%,也就是誤殺35%的好客戶的情況下攔截住65%的壞客戶。不同的cutoff內(nèi)取到max說明達到同樣的攔截效果,通過率不同,通俗地說,一個可能在80%通過率的時候就達到攔截效果,而另一個在50%通過率才達到同樣的效果。高通過率的說明模型低分段的濃度很高比低通過率時要高,即低分段的識別能力更強。

?

3.模型上線后的KS不斷衰減的原因?

? ? ? 模型訓練時的KS是基于全量通過樣本的,上線后會切一刀,高于一定分數(shù)的樣本才能進來,因此上線后的KS一般是會比訓練時的KS低。此外,策略調(diào)整、客群變化都會導致KS的衰減。

? ? ? ?關于評分卡中常用到的理論推導,大概就想到了這么多,理論終究是理論,還有很多東西需要在業(yè)務實踐中去驗證和領悟,繼續(xù)堅持學習、積累、成長。

"那些波瀾不驚的日復一日,總有一天會讓你看到堅持的意義"

【作者】:Labryant

【原創(chuàng)公眾號】:風控獵人

【簡介】:做一個有規(guī)劃的長期主義者。

【轉載說明】:轉載請說明出處,謝謝合作!~

?

?

?

?

?

?

總結

以上是生活随笔為你收集整理的评分卡中的一些理论知识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。