日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【待继续研究】解析信用评分模型的开发流程及检验标准(晕乎乎,看不懂~)

發(fā)布時(shí)間:2025/3/21 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【待继续研究】解析信用评分模型的开发流程及检验标准(晕乎乎,看不懂~) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

評(píng)分模型的檢驗(yàn)方法和標(biāo)準(zhǔn)通常有:K-S指標(biāo)、交換曲線(xiàn)、AR值、Gini數(shù)等。例如,K-S指標(biāo)是用來(lái)衡量驗(yàn)證結(jié)果是否優(yōu)于期望值,具體標(biāo)準(zhǔn)為:如果K-S大于40%,模型具有較好的預(yù)測(cè)功能,發(fā)展的模型具有成功的應(yīng)用價(jià)值。K-S值越大,表示評(píng)分模型能夠?qū)ⅰ昂每蛻?hù)”、“壞客戶(hù)”區(qū)分開(kāi)來(lái)的程度越大。

評(píng)分模型的檢驗(yàn)方法和標(biāo)準(zhǔn)通常有:K-S指標(biāo)、交換曲線(xiàn)、AR值、Gini數(shù)等。例如,K-S指標(biāo)是用來(lái)衡量驗(yàn)證結(jié)果是否優(yōu)于期望值,具體標(biāo)準(zhǔn)為:如果K-S大于40%,模型具有較好的預(yù)測(cè)功能,發(fā)展的模型具有成功的應(yīng)用價(jià)值。K-S值越大,表示評(píng)分模型能夠?qū)ⅰ昂每蛻?hù)”、“壞客戶(hù)”區(qū)分開(kāi)來(lái)的程度越大。

例如,K-S指標(biāo)是用來(lái)衡量驗(yàn)證結(jié)果是否優(yōu)于期望值,具體標(biāo)準(zhǔn)為:如果K-S大于40%,模型具有較好的預(yù)測(cè)功能,發(fā)展的模型具有成功的應(yīng)用價(jià)值。K-S值越大,表示評(píng)分模型能夠?qū)ⅰ昂每蛻?hù)”、“壞客戶(hù)”區(qū)分開(kāi)來(lái)的程度越大。

信用評(píng)分模型介紹(一)

2016-08-28?蔣靚?Larry?Jiang?Larry的風(fēng)險(xiǎn)模型分享與探討

引言:對(duì)于信用評(píng)分模型,很多朋友或多或少有所了解,這里做一般性的介紹,并分享自己的多年從業(yè)經(jīng)驗(yàn)。這邊短文主要包括:信用評(píng)分模型,自變量的生成、篩選、分檔和轉(zhuǎn)換,及常用有監(jiān)督學(xué)習(xí)模型。

信用評(píng)分模型

信用評(píng)分模型是一種有監(jiān)督的學(xué)習(xí)模型(Supervised Learning),數(shù)據(jù)由一群自變量X和對(duì)應(yīng)的因變量y構(gòu)成。傳統(tǒng)零售信用模型中,X大致分為客戶(hù)的基本信息(年齡、性別、職業(yè)、學(xué)位等),財(cái)務(wù)信息(收入,每月生活消費(fèi),每月信貸還款額等),產(chǎn)品信息(LTV,信用卡類(lèi)別,個(gè)人貸款用途等),征信信息(前6個(gè)月被查詢(xún)次數(shù),前6個(gè)信用卡最大利用率,未結(jié)清貸款數(shù)等);而一般取值0-1因變量y可以定義為在未來(lái)12個(gè)月是否出現(xiàn)欠款90天等.

經(jīng)驗(yàn)備注:在大數(shù)據(jù)下,很多互聯(lián)網(wǎng)公司對(duì)個(gè)人的評(píng)估不再局限于以上幾種信息,而是根據(jù)更為廣泛的數(shù)據(jù)源對(duì)個(gè)人進(jìn)行更全面的刻畫(huà),故有稱(chēng)之為客戶(hù)畫(huà)像。數(shù)據(jù)維度會(huì)考慮個(gè)人在社會(huì)上留下的任何數(shù)據(jù),如手機(jī)使用行為,理財(cái)行為,社交圈,網(wǎng)購(gòu)行為,旅游行為等等等等。大家的各方面數(shù)據(jù)其實(shí)都在被不同的公司和不同的APP收集。。。

自變量的生成

自變量是信用風(fēng)險(xiǎn)的來(lái)源,除了考慮直接收集的變量,信用評(píng)分建模過(guò)程中往往需要建模人員產(chǎn)生更多的衍生變量。這部分工作要分析人員的直覺(jué)、長(zhǎng)期經(jīng)驗(yàn)的積累和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。大家可以通過(guò)京東和支付寶的評(píng)分一窺其自變量的維度:芝麻信用分為5個(gè)維度:身份特質(zhì),履約能力,信用歷史,人脈關(guān)系,行為偏好;小白信用分也分為5個(gè)維度:身份,資產(chǎn),關(guān)系,履約,偏好。

經(jīng)驗(yàn)備注:現(xiàn)在越來(lái)越多的模型技術(shù)被應(yīng)用于信用模型,但是個(gè)人覺(jué)得無(wú)論高級(jí)模型還是初級(jí)模型,最為重要的是更廣泛的數(shù)據(jù)和產(chǎn)生更多更具有預(yù)測(cè)能力的自變量。

自變量的篩選

自變量一旦豐富了起來(lái),就涉及到有效變量的篩選,大致可根據(jù)一下幾個(gè)原則或方法:變量的直觀(guān)意義(是否跟y有關(guān)),變量的單調(diào)性或合理性,未來(lái)是否可以獲取以便模型可實(shí)施,變量的區(qū)分能力(IV),變量間相關(guān)性(變量聚類(lèi)),變量缺失率,分檔之后的穩(wěn)定性等等。

經(jīng)驗(yàn)備注:對(duì)于區(qū)分能力太強(qiáng)的變量,或缺失率很大的變量,不建議直接放入模型,可以考慮做成規(guī)則或者做成最后模型的調(diào)整。在大數(shù)據(jù)下,人們經(jīng)常強(qiáng)調(diào)自變量與因變量的相關(guān)關(guān)系,應(yīng)用于精準(zhǔn)性要求不高的營(yíng)銷(xiāo)模型問(wèn)題不大。而對(duì)于精準(zhǔn)度要求極高的信用評(píng)分模型,相關(guān)關(guān)系的應(yīng)用值得推敲。?

自變量分檔和轉(zhuǎn)換

為了保持模型的穩(wěn)定性,信用模型一般對(duì)自變量進(jìn)行分檔,比如根據(jù)風(fēng)險(xiǎn)不同把年齡分成幾檔。這樣每檔需要一個(gè)值來(lái)代表這段的自變量輸入,這就是變量的轉(zhuǎn)換,常見(jiàn)的有WOE和Logit轉(zhuǎn)換。通過(guò)轉(zhuǎn)換后不僅實(shí)現(xiàn)了穩(wěn)定性要求,也克服不同變量間刻度不統(tǒng)一的問(wèn)題,還克服回歸中缺失值的填充問(wèn)題。

經(jīng)驗(yàn)備注:如果分檔過(guò)粗糙,不但會(huì)降低單個(gè)變量的預(yù)測(cè)能力,也會(huì)造成最終評(píng)分集中度過(guò)高的問(wèn)題。

解決方法:可以考慮每檔用線(xiàn)性插值來(lái)代替常數(shù),也可以尋找更多能區(qū)分分?jǐn)?shù)集中樣本的自變量放入模型。?

有監(jiān)督學(xué)習(xí)模型介紹

目前比較流行的模型主要有以下幾種(以后分享會(huì)逐一介紹):

  • Logistic 回歸(Logistic Regression)

  • 決策樹(shù)(Decision Tree)

  • 支持向量機(jī)(Support Vector Machine)

  • 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)?

  • 生存分析模型(Survival Analysis Model)

  • 經(jīng)驗(yàn)備注:除此上述之外,還有些高級(jí)方法或算法:集成方法(Ensemble Method)(例如隨機(jī)森林(Random Forrest),Boosting,AdaBoost),深度學(xué)習(xí)方法(Deep Learning),隨機(jī)梯度下降算法(Stochastic Gradient Descent)等。

    ?

    信用評(píng)分及實(shí)現(xiàn)

    1、何為信用評(píng)級(jí)?

    首先,何為“信用”?俗話(huà)“有借有還”從道德上對(duì)信用進(jìn)行了定義,然后銀行與其客戶(hù)之間“借貸”的關(guān)系,往往較為復(fù)雜。通常,銀行需要全方位、多角度地去評(píng)價(jià)客戶(hù),確認(rèn)客戶(hù)的“信用”,才能放心地把錢(qián)“借”出去。

    我們都熟悉支付寶芝麻信用分,它是通過(guò)采集個(gè)人用戶(hù)信息,經(jīng)過(guò)加工、計(jì)算得出用戶(hù)的信用得分,當(dāng)然,分?jǐn)?shù)越高代表信用越好

    ?

    這幾個(gè)維度包含了用戶(hù)個(gè)人基本信息、好友互動(dòng)信息、信用賬戶(hù)情況及履約歷史、購(gòu)物及理財(cái)?shù)刃袨槠玫榷囗?xiàng)內(nèi)容,通過(guò)大數(shù)據(jù)技術(shù),最終以分?jǐn)?shù)值的形式,形成對(duì)用戶(hù)信用的準(zhǔn)確評(píng)價(jià)。這就是信用評(píng)級(jí)。

    隨著數(shù)學(xué)和統(tǒng)計(jì)技術(shù)在傳統(tǒng)金融行業(yè)的廣泛應(yīng)用和推廣,銀行業(yè)也采用了“定量”的形式,多角度分析、判斷不同客戶(hù)的不同的信用等級(jí),從而來(lái)決定客戶(hù)可獲取的授信額度、首付額度或利率優(yōu)惠程度等,以科學(xué)手段準(zhǔn)確地計(jì)量客戶(hù)的“信用”,從而避免因借貸雙方信息不一致而引發(fā)的信用風(fēng)險(xiǎn)損失。

    2、信用評(píng)級(jí)的基礎(chǔ):數(shù)據(jù)

    現(xiàn)如今,早已不是撥打算盤(pán)手工記賬的年代,社會(huì)上任何活動(dòng)都拖離不了信息系統(tǒng),當(dāng)然,這些信息系統(tǒng)中,也無(wú)時(shí)不刻地記錄著你的所有行蹤,這就是所謂的“數(shù)據(jù)”。對(duì)這些數(shù)據(jù)的存儲(chǔ)、清洗、加工,都為銀行對(duì)客戶(hù)信用評(píng)級(jí)提供了健全、豐富的信息來(lái)源;基于此,銀行以大數(shù)據(jù)技術(shù)進(jìn)行分析和計(jì)算,從而準(zhǔn)確地對(duì)客戶(hù)進(jìn)行信用評(píng)價(jià)。

    銀行進(jìn)行客戶(hù)信用評(píng)級(jí)的數(shù)據(jù)來(lái)源于銀行內(nèi)部系統(tǒng)產(chǎn)生的數(shù)據(jù)或外部的數(shù)據(jù),如圖示:

    ?

    內(nèi)部數(shù)據(jù)

    從客戶(hù)的第一次開(kāi)戶(hù)開(kāi)始,其與銀行的每一次交互都將銀行的信息系統(tǒng)留存,例如存款、轉(zhuǎn)賬、還信用卡、還貸、銷(xiāo)戶(hù)或購(gòu)買(mǎi)理財(cái)?shù)?#xff0c;每一次活動(dòng)的時(shí)間、方式、地點(diǎn)、賬戶(hù)、金額、交易對(duì)象等等,都完整的保存在銀行的數(shù)據(jù)庫(kù)中。這些積累的數(shù)據(jù),是銀行非常寶貴的資產(chǎn)。與客戶(hù)評(píng)級(jí)相關(guān)的數(shù)據(jù),通常包括以下幾個(gè)方面:

    1)客戶(hù)基本數(shù)據(jù):銀行通過(guò)不同形式、不同時(shí)間、不同地點(diǎn)所記錄的客戶(hù)名稱(chēng)、證件編號(hào)、聯(lián)系方式、營(yíng)收情況、學(xué)歷、就業(yè)情況、客戶(hù)關(guān)聯(lián)人信息等;

    2)貸款或信用卡賬戶(hù)信息:包括賬戶(hù)號(hào)碼、余額、開(kāi)銷(xiāo)戶(hù)時(shí)間、額度、額度調(diào)整歷史等;

    3)交易歷史:即貸款放款、還款計(jì)劃及實(shí)際還款、現(xiàn)金提取、信用卡刷卡、還卡、換卡等各類(lèi)事件的具體時(shí)間、地點(diǎn)、方式等詳細(xì)記錄;

    4)擔(dān)保信息:即貸款抵押物基本信息、估值或評(píng)級(jí)信息,擔(dān)保人信息等。

    除上述外,信用卡或貸款產(chǎn)品的營(yíng)銷(xiāo)活動(dòng)等數(shù)據(jù),也與客戶(hù)評(píng)級(jí)有關(guān)。

    外部數(shù)據(jù)

    外部數(shù)據(jù)來(lái)源廣泛,以人行征信數(shù)據(jù)為例,其包含了客戶(hù)基本信息,如姓名、性別、證件編號(hào)、婚姻情況、聯(lián)系方式、住址等等;借款人的信用歷史,如逾期情況、貸款尚未結(jié)清信息、擔(dān)保信息、異常交易信息等;還有一些個(gè)人非銀行信息,如住房公積金信息、社保信息等。

    目前,各家銀行都已經(jīng)建立ODS或數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)平臺(tái),其包含的信息能滿(mǎn)足銀行各條線(xiàn)的業(yè)務(wù)需要,為開(kāi)展各類(lèi)管理、經(jīng)營(yíng)決策的提供數(shù)據(jù)基礎(chǔ)。然而,客戶(hù)信用評(píng)級(jí)數(shù)據(jù)作為數(shù)據(jù)平臺(tái)的一部分,通常混合于其他數(shù)據(jù)之中,因此,有必要僅針對(duì)信用風(fēng)險(xiǎn)管理或信用評(píng)級(jí)的需要,面向信用風(fēng)險(xiǎn)管理應(yīng)用開(kāi)發(fā),單獨(dú)建立信用風(fēng)險(xiǎn)數(shù)據(jù)集市。

    ?

    數(shù)據(jù)來(lái)源于各類(lèi)生產(chǎn)、業(yè)務(wù)系統(tǒng),經(jīng)由數(shù)據(jù)倉(cāng)庫(kù),進(jìn)入信用風(fēng)險(xiǎn)數(shù)據(jù)集市中。風(fēng)險(xiǎn)數(shù)據(jù)集市則按照上層應(yīng)用的需要,進(jìn)行數(shù)據(jù)的整合和存儲(chǔ)。一般來(lái)說(shuō),信用風(fēng)險(xiǎn)相關(guān)的數(shù)據(jù)經(jīng)過(guò)拆分、拼裝或重組,以主題的形式存儲(chǔ)在信用風(fēng)險(xiǎn)數(shù)據(jù)集市中。通常,包含以下幾個(gè)主題:

    ?

    3、信用評(píng)分的實(shí)現(xiàn):模型開(kāi)發(fā)

    數(shù)據(jù)挖掘是從大量的、有噪音的數(shù)據(jù)中,發(fā)現(xiàn)潛在的規(guī)律和價(jià)值,以輔助提高管理、決策能力。銀行通過(guò)對(duì)外部數(shù)據(jù)及信貸等業(yè)務(wù)中產(chǎn)生的數(shù)據(jù)進(jìn)行提煉、分析,開(kāi)發(fā)模型,對(duì)客戶(hù)進(jìn)行信用評(píng)分,以服務(wù)于信貸管理,增強(qiáng)風(fēng)險(xiǎn)控制能力。

    第一步:樣本抽取

    銀行積累的客戶(hù)評(píng)級(jí)相關(guān)的數(shù)據(jù)量極其龐大,出于數(shù)據(jù)處理速度及模型開(kāi)發(fā)效率的考慮,通常抽取一定量的數(shù)據(jù)作為樣本,開(kāi)發(fā)模型。常用的樣本選擇方式有兩種,隨機(jī)抽樣和分類(lèi)抽樣。隨機(jī)抽樣較為交單,即隨機(jī)選擇樣本,認(rèn)為樣本可以代表整體情況。例如,總貸款賬戶(hù)數(shù)是5000,不良貸款賬戶(hù)數(shù)是100,占比1/50;那么隨機(jī)抽取100個(gè)貸款賬戶(hù),其中包含2個(gè)不良貸款賬戶(hù)。而分類(lèi)抽樣,則需要先分類(lèi),確認(rèn)各類(lèi)樣本的數(shù)據(jù)量,再分別進(jìn)行隨機(jī)抽樣。例如上述例子中的賬戶(hù)樣本選擇,首先據(jù)擔(dān)保情況進(jìn)行分類(lèi),有無(wú)擔(dān)保比例分別為3:2,則再分別隨機(jī)抽取60個(gè)有擔(dān)保的不良貸款賬戶(hù)和40個(gè)無(wú)擔(dān)保的不良貸款記錄。

    當(dāng)然,以上僅為示例,實(shí)際情況卻往往復(fù)雜很多。

    第二步:變量選擇

    明確因變量和自變量。其中因變量為表現(xiàn)變量,即模型的結(jié)果“客戶(hù)信用情況”;自變量為與之相關(guān)的因素,它的預(yù)測(cè)能力決定于它與因變量之間相關(guān)關(guān)系和邏輯因果關(guān)系。通常,與信用等級(jí)相關(guān)的因素包含客戶(hù)的學(xué)歷、工資、年齡、額度使用情況、現(xiàn)金提取次數(shù)、還款時(shí)間等。

    第三步:模型分組

    模型分組的意義在于區(qū)分不同行為模型和數(shù)理關(guān)系,以提高模型預(yù)測(cè)的精準(zhǔn)度。例如,學(xué)生和在職人員的還款能力是有差異的,但是某類(lèi)自變量和壞賬率的表現(xiàn)上,趨勢(shì)十分相似,所以講模型分組,將避免相互之間的模型因素的干擾和影響。

    第四步:模型設(shè)計(jì)

    影響模型結(jié)果的變量非常復(fù)雜,因此需要根據(jù)單個(gè)變量的實(shí)際預(yù)測(cè)能力進(jìn)行篩選,剔除沒(méi)有預(yù)測(cè)能力的變量,以縮小變量的范圍。

    常見(jiàn)的模型算法有線(xiàn)性回歸分析、非線(xiàn)性回歸分析、邏輯回歸模型、神經(jīng)網(wǎng)絡(luò)模型、決策樹(shù)模型等。在實(shí)際的模型選擇過(guò)程中,需根據(jù)模型性質(zhì)、分析人員經(jīng)驗(yàn)等多方面因素綜合考量。

    第五步:模型檢驗(yàn)

    模型檢驗(yàn),在于衡量開(kāi)發(fā)的信用評(píng)分模型能力。常用的檢驗(yàn)報(bào)告有以下幾類(lèi):

  • 交換曲線(xiàn)
  • K-S指標(biāo)
  • 區(qū)分度
  • 擬合度曲線(xiàn)
  • 其中,前三者表現(xiàn)的效果為:“評(píng)分越高,則好賬戶(hù)出現(xiàn)的越多”;而擬合度曲線(xiàn),則用于對(duì)比預(yù)測(cè)情況與實(shí)際情況差異

    寫(xiě)在最后

    信用評(píng)分對(duì)銀行的經(jīng)營(yíng)效益有著重要的作用,信用評(píng)分模型應(yīng)用效果,很大程度上也取決于銀行的內(nèi)部管理及信貸政策。技術(shù)和管理相結(jié)合,雙管齊下,一定是控制客戶(hù)信用風(fēng)險(xiǎn)的最優(yōu)方案。

    總結(jié)

    以上是生活随笔為你收集整理的【待继续研究】解析信用评分模型的开发流程及检验标准(晕乎乎,看不懂~)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。