信用模型评分卡入门介绍
1、信用評(píng)分模型出現(xiàn)的動(dòng)機(jī)是什么?
? 我們?nèi)ャy行借款的時(shí)候,他們往往都會(huì)看我們的一些個(gè)人信息,比如,年齡,收入,家庭狀況,工作單位,婚姻狀況等,也會(huì)設(shè)置一些門檻,只有滿足了一定的門檻才會(huì)貸款于你。但是這種對(duì)單個(gè)指標(biāo)設(shè)置的門檻會(huì)存在一些問(wèn)題,比如:
(1)有些借款人雖說(shuō)一些條件不滿足,但是其他條件都很好
(2)如何利用零散、非結(jié)構(gòu)化的信息整合成科學(xué)的核額體系是一個(gè)難題
(3)貸后管理、資產(chǎn)質(zhì)量分析和風(fēng)險(xiǎn)定價(jià)需要可量化的數(shù)字評(píng)價(jià)體系支持
? 這樣,一種信用評(píng)分就應(yīng)運(yùn)而生,解決了以上難題。具象的個(gè)體風(fēng)險(xiǎn)被標(biāo)準(zhǔn)化,分?jǐn)?shù)的存在使得審批有了最簡(jiǎn)單易用的判斷標(biāo)準(zhǔn);整體的信貸資產(chǎn)質(zhì)量也有了量化指標(biāo)
2、信用評(píng)分的業(yè)務(wù)定義
?信用評(píng)分表面上是一個(gè)分?jǐn)?shù),實(shí)質(zhì)上是一個(gè)模型。模型只是我們解決問(wèn)題的手段,解決業(yè)務(wù)問(wèn)題才是我們的目的。
?信用風(fēng)險(xiǎn)計(jì)量體系包含主體評(píng)級(jí)模型和債項(xiàng)評(píng)級(jí)模型,主體評(píng)級(jí)和債項(xiàng)評(píng)級(jí)均有一系列評(píng)級(jí)模型組成,其中主體評(píng)級(jí)模型可用“四張卡”來(lái)表示,分別是A卡、B卡、C卡和F卡;債項(xiàng)評(píng)級(jí)模型通常按照主體的融資用途,分為企業(yè)融資模型、現(xiàn)金流融資模型和項(xiàng)目融資模型等。
?我們通常所接觸到的評(píng)分大都用于信貸審批,即申請(qǐng)?jiān)u分卡(A卡,Application scorecard)。同時(shí),業(yè)內(nèi)還常用的有B卡(Behavior scorecard)和C卡(Collection scorecard),分別用于貸后管理及催收管理。
?其中,它們的使用場(chǎng)景不同的:
A卡又稱為申請(qǐng)者評(píng)級(jí)模型,是使用最廣泛的,用于貸前審批階段對(duì)借款申請(qǐng)人的量化評(píng)估;
B卡又稱為行為評(píng)級(jí)模型,主要任務(wù)是通過(guò)借款人的還款及交易行為,結(jié)合其他維度的數(shù)據(jù)預(yù)測(cè)借款人未來(lái)的還款能力和意愿;
C卡又催收評(píng)級(jí)模型,是在借款人當(dāng)前還款狀態(tài)為逾期的情況下,預(yù)測(cè)未來(lái)該筆貸款變?yōu)閴馁~的概率,由此衍生出滾動(dòng)率、還款率、失聯(lián)率等細(xì)分的模型;
F卡有稱為欺詐評(píng)級(jí)模型,主要應(yīng)用于相關(guān)融資類業(yè)務(wù)中新客戶可能存在的欺詐行為的預(yù)測(cè)管理。
?不同的評(píng)分卡,對(duì)數(shù)據(jù)的要求和所應(yīng)用的建模方法會(huì)不一樣。
?不同的產(chǎn)品,評(píng)分標(biāo)準(zhǔn)也不盡相同,評(píng)分模型也不相同。比如,對(duì)于小額短期利率高的現(xiàn)金貸來(lái)說(shuō),逾期30天+已經(jīng)非常嚴(yán)重,催回的可能性非常小,那么相對(duì)應(yīng)的模型會(huì)界定M1以上客戶為壞客戶。但對(duì)于車輛抵押貸款的借款人來(lái)說(shuō),考慮到抵押物,還很有可能還款,所以我們可能會(huì)選擇界定M2甚至M3以上的客戶為壞客戶。所以,在做模型的時(shí)候,也要思考當(dāng)下的模型與當(dāng)前的業(yè)務(wù)模式的匹配程度。
3、信用評(píng)分模型的建立
信用評(píng)分模型建立的一般過(guò)程如下圖:
(1)準(zhǔn)備數(shù)據(jù)
?準(zhǔn)備一個(gè)足夠大的數(shù)據(jù)樣本,并且樣本的特征數(shù)也盡量多些
(2)數(shù)據(jù)處理
?從生產(chǎn)環(huán)境導(dǎo)出的數(shù)據(jù)往往并不完美,有大量影響分析的缺失值和異常值。我們需要剔除缺失率太高的變量,剔除按業(yè)務(wù)邏輯完全不可解釋的變量等等。這是一個(gè)聽(tīng)起來(lái)很簡(jiǎn)單但實(shí)際上需要耗費(fèi)大量精力的過(guò)程,會(huì)極大影響到模型準(zhǔn)確性。
(3)變量分析
?通過(guò)對(duì)特征變量的相關(guān)性、共線性等的分析,篩選出對(duì)預(yù)測(cè)結(jié)果重要的特征,便于后期建模使用。
(4)評(píng)分卡構(gòu)建
?現(xiàn)在我們已經(jīng)擁有了一些非?!皟?yōu)秀”的變量,那我們?cè)趺蠢眠@些變量得到我們所需要的答案呢?這是一個(gè)已知X求Y的問(wèn)題,我們需要選擇一個(gè)合適的模型方法去解決和預(yù)測(cè)。常見(jiàn)的模型方法有線性回歸、非線性回歸分析、決策樹等等。
其中,邏輯回歸是在信用評(píng)分卡開(kāi)發(fā)中非常有代表性的模型方法。在這個(gè)模型中,經(jīng)過(guò)上述篩選的每一個(gè)變量會(huì)進(jìn)行證據(jù)權(quán)重轉(zhuǎn)換(WOE 即 Weight of Evidence),邏輯回歸可以將我們所熟知的借款人特征轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)的評(píng)分卡,當(dāng)我們輸入這些變量的具體值的時(shí)候,可以得到相應(yīng)的分?jǐn)?shù)。
4、信用評(píng)分卡的評(píng)估指標(biāo)
?一般來(lái)說(shuō),信用評(píng)分卡模型的評(píng)估指標(biāo)可以分為兩類:
(1)預(yù)測(cè)能力指標(biāo),用于評(píng)估模型對(duì)違約事件的預(yù)測(cè)能力,如:WOE/IV、ROC/AUC、K-S指標(biāo)、GINI系數(shù)等
(2)穩(wěn)定性指標(biāo),用于評(píng)估模型在訓(xùn)練樣本和測(cè)試樣本中預(yù)測(cè)能力的一致性,如PSI指標(biāo)等
?下面對(duì)一些指標(biāo)進(jìn)行解釋一下:
1.WOE、IV
WOE的全稱是“Weight of Evidence”,即證據(jù)權(quán)重。WOE是對(duì)原始自變量的一種編碼形式。
要對(duì)一個(gè)變量進(jìn)行WOE編碼,需要首先把這個(gè)變量進(jìn)行分組處理(也叫離散化、分箱等等,說(shuō)的都是一個(gè)意思)。分組后,對(duì)于第i組,WOE的計(jì)算公式如下:
WOE=ln(pyipni)=ln(yiyTninT)WOE=ln(pyipni)=ln(yiyTninT)
其中,yIyI表示對(duì)于第i組,違約的個(gè)數(shù),yTyT表示對(duì)于總樣本,總違約的個(gè)數(shù)
nini表示對(duì)于第i組,正常的個(gè)數(shù),nTnT表示對(duì)于總樣本,總正常的個(gè)數(shù)
從這個(gè)角度來(lái)理解,WOE就是“當(dāng)前分組中違約的占總違約的比例”與“當(dāng)前分組中正常的占總正常的比例”之間的差異
對(duì)此公式做一個(gè)簡(jiǎn)單變換,可以得到:WOE=ln(pyipni)=ln(yiniyTnT)WOE=ln(pyipni)=ln(yiniyTnT)
從這個(gè)角度來(lái)理解,WOE就是指“當(dāng)前分組中,違約與正常的比例”與“總樣本中違約與正常的比例”之間的差異
有了前面的WOE值的計(jì)算之后,我們?cè)賮?lái)學(xué)習(xí)一下IV值的計(jì)算方式:IVi=(pyi?pni)?WOEiIVi=(pyi?pni)?WOEi
有了一個(gè)變量各分組的IV值,我們就可以計(jì)算整個(gè)變量的IV值,方法很簡(jiǎn)單,就是把各分組的IV相加:IV=∑i=1nIViIV=∑i=1nIVi,其中,n為變量分組個(gè)數(shù)。
我們進(jìn)一步理解一下WOE,會(huì)發(fā)現(xiàn),WOE其實(shí)描述了變量當(dāng)前這個(gè)分組,對(duì)判斷個(gè)體是否會(huì)響應(yīng)(或者說(shuō)屬于哪個(gè)類)所起到影響方向和大小,當(dāng)WOE為正時(shí),變量當(dāng)前取值對(duì)判斷個(gè)體是否會(huì)響應(yīng)起到的正向的影響,當(dāng)WOE為負(fù)時(shí),起到了負(fù)向影響。而WOE值的大小,則是這個(gè)影響的大小的體現(xiàn)。
2.ROC、AUC曲線
?首先先了解一些混淆矩陣的知識(shí):
TP(True Positive):將正類樣本預(yù)測(cè)為正類,即真陽(yáng)性
FP(False Positive):將負(fù)類樣本預(yù)測(cè)為正類,即假陽(yáng)性
TN(True Negative):將負(fù)類樣本預(yù)測(cè)為負(fù)類,即真陰性
FN(False Negative):將正類樣本預(yù)測(cè)為負(fù)類,即假陰性
則精準(zhǔn)率(Precision)P=TPTP+FPP=TPTP+FP?-----可以理解為從結(jié)果看,在所有預(yù)測(cè)為正類的樣本里,預(yù)測(cè)正確的占比
召回率(Recall)R=TPTP+FNR=TPTP+FN?-----可以理解為在原始的正類樣本中,被預(yù)測(cè)正確的樣本的占比
假陽(yáng)性率(False Positive Rate)FPR=FPNFPR=FPN----其中N為樣本中負(fù)樣本的個(gè)數(shù)
真陽(yáng)性率(True Positive Rate)TPR=TPPTPR=TPP----其中P為樣本中正樣本的個(gè)數(shù)
好吧,原諒我今天才發(fā)現(xiàn)一個(gè)問(wèn)題:原來(lái)召回率和真陽(yáng)性率是一樣的。。。
?舉個(gè)例子
?假設(shè)一個(gè)醫(yī)院有10位疑似癌癥患者,其中有3位很不幸確實(shí)患了癌癥(P=3),另外7位不是癌癥患者(N=7),醫(yī)院對(duì)這10位疑似患者進(jìn)行診斷,診斷出3為癌癥患者,其中有2位是真正的患者(TP=2),那么真陽(yáng)性率為TPR=TPP=23TPR=TPP=23,對(duì)于七位非癌癥患者而言,有1位很不幸被誤診為癌癥患者(FP = 1)。
那么假陽(yáng)性率為FPR=FPN=17FPR=FPN=17,那么對(duì)于“醫(yī)院”這個(gè)分類器來(lái)說(shuō),這組結(jié)果就對(duì)應(yīng)ROC曲線上的一個(gè)點(diǎn)(23,17)(23,17)。
?AUC曲線就是ROC曲線下方的面積大小,該值能夠量化地反映出基于ROC曲線衡量出的模型性能。計(jì)算AUC值只需要沿著ROC曲線橫軸做積分就可以了。由于ROC曲線一般都在曲線y=xy=x的上方,因此AUC的值一般都在0.5--1之間,AUC值越大,說(shuō)明分類器越可能把真正的正樣本排在前面,分類性能就越好。
3.K-S指標(biāo)
?作為一個(gè)模型,我們當(dāng)然希望這個(gè)模型能夠幫我們挑選到最多的好客戶,同時(shí)不要放進(jìn)來(lái)那么多壞客戶。K-S值就是一個(gè)這樣思路的指標(biāo)。比如,在完成一個(gè)模型后,將測(cè)試模型的樣本平均分成10組,以好樣本占比降序從左到右進(jìn)行排列,其中第一組的好樣本占比最大,壞樣本占比最小。這些組別的好壞樣本占比進(jìn)行累加后得到每一組對(duì)應(yīng)的累計(jì)的占比。好壞樣本的累計(jì)占比隨著樣本的累計(jì)而變化(圖中Good/Bad兩條曲線),而兩者差異最大時(shí)就是我們要求的K-S值(圖中比較長(zhǎng)的直線箭頭的那個(gè)位置)。
KS值的取值范圍是[0,1]。通常來(lái)說(shuō),值越大,表明正負(fù)樣本區(qū)分的程度越好。一般,KS值>0.2就可認(rèn)為模型有比較好的預(yù)測(cè)準(zhǔn)確性。
4.GINI系數(shù)
?還記得經(jīng)濟(jì)學(xué)中那個(gè)著名的基尼系數(shù)嗎?下圖應(yīng)該可以讓你回憶起來(lái)。將一個(gè)國(guó)家所有的人口按最貧窮到最富有進(jìn)行排列,隨著人數(shù)的累計(jì),這些人口所擁有的財(cái)富的比例也逐漸增加到100%,按這個(gè)方法得到圖中的曲線,稱為洛倫茲曲線。基尼系數(shù)就是圖中A/B的比例??梢钥吹?#xff0c;假如這個(gè)國(guó)家最富有的那群人占據(jù)了越多的財(cái)富,貧富差距越大,那么洛倫茨曲線就會(huì)越彎曲,基尼系數(shù)就越大。
?同樣的,假設(shè)我們把100個(gè)人的信用評(píng)分按照從高到低進(jìn)行排序,以橫軸為累計(jì)人數(shù)比例,縱軸作為累計(jì)壞樣本比例,隨著累計(jì)人數(shù)比例的上升,累計(jì)壞樣本的比例也在上升。如果這個(gè)評(píng)分的區(qū)分能力比較好,那么越大比例的壞樣本會(huì)集中在越低的分?jǐn)?shù)區(qū)間,整個(gè)圖像形成一個(gè)凹下去的形狀。所以洛倫茲曲線的弧度越大,基尼系數(shù)越大,這個(gè)模型區(qū)分好壞樣本的能力就越強(qiáng)。
總結(jié)
以上是生活随笔為你收集整理的信用模型评分卡入门介绍的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深度解析两种信用评估模型
- 下一篇: 从生命周期去看互联网金融产品的风险管理框