申请评分卡(A卡)的开发过程(1)
前言:
本篇文章上接《申請(qǐng)?jiān)u分卡簡介》,有需要的童鞋可以參考下:https://blog.csdn.net/qq_16633405/article/details/107744921
下面介紹下A卡的開發(fā)步驟。
開發(fā)過程
1、評(píng)分卡模型開發(fā)步驟:
1、立項(xiàng):場(chǎng)景(營銷、信貸領(lǐng)域)、對(duì)象(個(gè)人、賬戶、公司)、目的(程度決策、流失預(yù)警、反欺詐等等)
2、數(shù)據(jù)的準(zhǔn)備與預(yù)處理(賬戶,客戶,內(nèi)部外部數(shù)據(jù))
3、建模的構(gòu)建(邏輯回歸VS機(jī)器學(xué)習(xí),單一模型VS 集成模型)
4、模型評(píng)估(區(qū)分度,預(yù)測(cè)性,穩(wěn)定性)
5、驗(yàn)證(是否有計(jì)算錯(cuò)誤,邏輯錯(cuò)誤,業(yè)務(wù)錯(cuò)誤)
6、部署(從開發(fā)環(huán)境到生產(chǎn)環(huán)境、容量、并發(fā)度)
7、監(jiān)控(性能是否減弱,是否需要重新訓(xùn)練等)
2、申請(qǐng)?jiān)u分卡常用的模型
邏輯回歸
優(yōu)點(diǎn):簡單,穩(wěn)定,可解釋,技術(shù)成熟,易于監(jiān)測(cè)和部署
缺點(diǎn):準(zhǔn)確度不高
決策樹
優(yōu)點(diǎn):對(duì)數(shù)據(jù)質(zhì)量要求低,易解釋
缺點(diǎn):準(zhǔn)確度不高
其他元模型
組合模型
優(yōu)點(diǎn):準(zhǔn)確度高,不易過擬合
缺點(diǎn):不易解釋;部署困難;計(jì)算量大
3、貸款申請(qǐng)環(huán)節(jié)的數(shù)據(jù)介紹和描述
申請(qǐng)?jiān)u分卡常用的特征
1、個(gè)人信息 :學(xué)歷(核查學(xué)歷) 性別 收入(流水、社保、公積金來側(cè)面查看)
2、負(fù)債信息 :在本金融機(jī)構(gòu)或者其他金融機(jī)構(gòu)負(fù)債情況 (在房貸、信用卡領(lǐng)域應(yīng)用較多)
3、消費(fèi)能力 :商品購買紀(jì)錄,出境游,奢侈品消費(fèi) ()
4、歷史信用記錄 :歷史逾期行為 (第三方接口查看)
5、新興數(shù)據(jù): 人際社交 網(wǎng)絡(luò)足跡 出行 個(gè)人財(cái)務(wù)(人際社交:通過與老賴的關(guān)系來判斷他的人品(即還款意愿);出行:通過看這個(gè)人的出行交通工具判斷這個(gè)人的經(jīng)濟(jì)能力(還款能力))
1、4可以看出還款意愿;2、3可以看出還款能力。還款意愿*還款能力=評(píng)分卡分?jǐn)?shù)等級(jí)
4、A卡用到的字段介紹
| member_id | ID |
| loan_amnt | 申請(qǐng)額度 |
| term | 產(chǎn)品期限 |
| int_rate | 利率 |
| emp_length | 工作期限 |
| home_ownership | 是否有自有住宅 |
| annual_inc | 年收入 |
| verification_status | 收入核驗(yàn)狀態(tài) |
| desc | 描述 |
| purpose | 貸款目的 |
| title | 貸款目的描述 |
| zip_code | 聯(lián)系地址郵政編碼 |
| addr_state | 聯(lián)系地址所屬州 |
| delinq_2yrs | 申貸日期前2年逾期次數(shù) |
| inq_last_6mths | 申請(qǐng)日前6個(gè)月咨詢次數(shù) |
| mths_since_last_delinq | 上次逾期距今月份數(shù) |
| mths_since_last_record | 上次登記公眾記錄距今的月份數(shù) |
| open_acc | 征信局中記錄的信用產(chǎn)品數(shù) |
| pub_rec | 公眾不良記錄數(shù) |
| total_acc | 正在使用的信用產(chǎn)品數(shù) |
| pub_rec_bankruptcies | 公眾破產(chǎn)記錄數(shù) |
| earliest_cr_line | 第一次借貸時(shí)間 |
| loan_status | 貸款狀態(tài)—目標(biāo)變量 |
5、非平衡樣本問題的定義和解決方法
非平衡樣本的定義
在分類問題中,每種類別的出現(xiàn)概率未必均衡
例:
- 信用風(fēng)險(xiǎn): 正常用戶遠(yuǎn)多于逾期/違約用戶
- 流失風(fēng)險(xiǎn): 留存客戶多于流失客戶
非平衡樣本的隱患
- 降低對(duì)少類樣本的靈敏性
非平衡樣本的解決方案
過采樣(對(duì)數(shù)據(jù)采集過多)
- 優(yōu)點(diǎn): 簡單,對(duì)數(shù)據(jù)質(zhì)量要求不高 (注意總結(jié)下各個(gè)算法對(duì)數(shù)據(jù)的要求)
- 缺點(diǎn): 過擬合
欠采樣 (對(duì)數(shù)據(jù)采集過少)
- 優(yōu)點(diǎn): 簡單,對(duì)數(shù)據(jù)質(zhì)量要求不高
- 缺點(diǎn): 丟失重要信息
SMOTE(合成少數(shù)過采樣技術(shù))
- 優(yōu)點(diǎn): 不易過擬合,保留信息
- 缺點(diǎn): 不能對(duì)有缺失值和類別變量做處理
6、數(shù)據(jù)預(yù)處理
數(shù)據(jù)格式的處理原始數(shù)據(jù)帶有一定的格式,需要轉(zhuǎn)換成正確的格式。
例如:
利率
- 帶%的百分比,需要轉(zhuǎn)化成浮點(diǎn)數(shù)
日期
- Nov-17,需要轉(zhuǎn)化為python的時(shí)間
工作年限
- “<1 year”轉(zhuǎn)化成0,“>10years”轉(zhuǎn)化成11
文本類的數(shù)據(jù)的處理方式
主題提取(NPL)
優(yōu)點(diǎn):提取準(zhǔn)確、詳細(xì)的信息,對(duì)風(fēng)險(xiǎn)的評(píng)估非帝有效
缺點(diǎn):NPL的模型較為復(fù)雜,且需要足夠多的訓(xùn)練樣本
編碼
優(yōu)點(diǎn):簡單
簡單缺點(diǎn):信息丟失很高
缺失值的處理
缺失在數(shù)據(jù)分析的工作是頻繁出現(xiàn)的。
缺失的種類
- 完全隨機(jī)缺失
- 隨機(jī)缺失
- 完全非隨機(jī)缺失
處理的方法
- 補(bǔ)缺(平均值、或依據(jù)變量間的關(guān)系補(bǔ)充)
- 作為一種狀態(tài)
- 刪除記錄或變量
7、構(gòu)建特征
常用的特征衍生
- 計(jì)數(shù):過去1年內(nèi)申請(qǐng)貸款的總次數(shù)(手機(jī)聯(lián)系人數(shù)量、通話記錄來推斷這個(gè)人的一些信息:如通話記錄多聯(lián)系人多則證明這個(gè)人搞業(yè)務(wù)的)
- 求和:過去1年內(nèi)的網(wǎng)店消費(fèi)總額
- 比例:貸款申請(qǐng)額度與年收入的占比
- 時(shí)間差:第一次開戶距今時(shí)長
- 波動(dòng)率:過去3年內(nèi)每份工作的時(shí)間的標(biāo)準(zhǔn)差
8、特征分箱(是對(duì)每一個(gè)特征進(jìn)行分箱)
特征的分箱(為什么要分箱)
分箱的定義
將連續(xù)變量離散化(將連續(xù)的變量分為多個(gè)離散的類別將特征分類別即收入1000-5000之間為一箱即一個(gè)類別)
將多狀態(tài)的離散變量合并成少狀態(tài)(盡可能的減小類別的數(shù)量)
分箱的重要性
- 穩(wěn)定性:避免特征中無意義的波動(dòng)對(duì)評(píng)分帶來的波動(dòng)(如工資的浮動(dòng)增減)
- 健壯性:避免了極端值的影響
分箱的優(yōu)勢(shì)
- 可以將缺失作為獨(dú)立的一個(gè)箱帶入模型中
- 將所有變量變換到相似的尺度上
分箱的限制
- 計(jì)算量大
- 分箱后需要編碼
總結(jié)
后續(xù)會(huì)詳細(xì)的介紹各種分箱的方法對(duì)應(yīng)的原理,以及特征篩選對(duì)應(yīng)的方法及原理等相關(guān)內(nèi)容。爭取把數(shù)據(jù)挖掘流程中常用的方法做一個(gè)統(tǒng)一的整理。
對(duì)應(yīng)的代碼詳見:
https://github.com/645187919/financial_score_card
總結(jié)
以上是生活随笔為你收集整理的申请评分卡(A卡)的开发过程(1)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算法竞赛入门经典 aabb
- 下一篇: LSI/LSA算法原理与实践Demo