【数据竞赛】厦门国际银行 “数创金融杯”数据建模大赛-冠军分享
寫在前面
冠軍團隊:三位靚仔
成員介紹:團隊成員由當下國內賽圈著名選手組成,一月三冠選手寧缺,賽圈網紅林有夕,以及最具潛力選手孫中宇組成。
首先還是非常感謝他們提供的冠軍方案分享,下面就一起來看看是如何大比分遙遙領先的。
賽題任務
信用風險是金融監管機構重點關注的風險,關乎金融系統運行的穩定。在實際業務開展和模型構建過程中,面臨著高維稀疏特征以及樣本不平衡等各種問題,如何應用機器學習等數據挖掘方法提高信用風險的評估和預測能力,是各家金融機構積極探索的方向。本次競賽提供實際業務場景中的信貸數據作為建模的對象,希望能借此展現各參賽選手數據挖掘的實戰能力。
本次賽題給出20個非匿名的業務字段以及84個匿名字段,在極不平衡的樣本數據中,預測客戶是否會出現信用違約行為。
賽題難點
①數據的高維稀疏性導致數據的可利用性降低,給模型學習能力的提升帶來了困難;
②數據的極度不平衡,導致模型極其容易出現過擬合問題;
③匿名字段的處理:如何理解并使用匿名字段中潛在的業務意義;
④新舊數據探索:如何衡量新舊數據的差異,如何把握特征的新舊差異,以及如何構建合適的驗證策略;
賽題數據
(1)數據總體概述?
本次數據共分為兩個數據集,train_x.csv、train_target.csv和test_x.csv,其中train_x.csv為訓練集的特征,train_target.csv為訓練集的目標變量,其中,為了增強模型的泛化能力,訓練集由兩個階段的樣本組成,由字段isNew標記。test_x.csv為測試集的特征,特征變量與訓練集一致。建模的目標即根據訓練集對模型進行訓練,并對測試集進行預測。
(2)數據字段說明
?a)為用戶基本屬性信息
id, target, certId, gender, age, dist, edu, job, ethnic, highestEdu, certValidBegin, certValidStop,
b) 借貸相關信息?loanProduct, lmt, basicLevel, bankCard, residentAddr, linkRela,setupHour, weekday,
c) 用戶征信相關信息?x_0至x_78以及ncloseCreditCard, unpayIndvLoan, unpayOtherLoan, unpayNormalLoan, 5yearBadloan 該部分數據涉及較為第三方敏感數據,未做進一步說明。
評分指標
1. 初賽成績排名根據測試集的AUC確定。
2. 評分采用AB榜形式。排行榜顯示A榜成績,初賽和復賽結束后12小時切換成B榜單。B榜成績以選手提交的最高分為準。
3. 復賽成績=(101-初賽排名)*0.7+專家評定成績*0.3。專家評分將綜合參考解決方案中的創新性、復雜度、穩定性等多項指標。專家委員會將為風控業務專家、科研機構數據挖掘專家等組成。
4. 決賽成績=復賽得分*0.6+決賽答辯成績*0.4。競賽最終排名由決賽成績排名確定?
客戶違約風險預測模型框架
上圖給出了整體的方案框架,
特征工程
在觀察訓練集與測試集樣本中我們發現測試集中出現的部分客戶貸款記錄是訓練集中所沒有的,這意味著訓練出來的模型將學習不到測試集中這部分貸款記錄信息,從而導致模型出現預測誤差。
根據特征的違約頻率分布可視化,可以明顯看到分布比較混亂。減少特征分布混亂的數據導致的噪聲問題,提高模型的學習能力。這類使用了分箱的方法,減少數值噪音,提高模型泛化性。
當學歷水平與最高學歷水平相等時,用戶違約率極低,僅有0.2273%,在一定程度上反應了客戶的信用水平。下面進行了更細粒度的特征挖掘。
長尾分布特征、匿名特征處理
在風控領域,標簽對主體特征(具體到ID)非常敏感,這和CTR領域類似,故我們通過構造欺詐率特征來表征類別特征,獲得了極高的收益,該特征描述的是某個屬性,欺詐的概率。但在實際的構建過程中,直接使用均值會造成標簽泄漏,這里我們采用Kfold方式進行欺詐率特征提取。
將訓練集分為5個fold,每個fold使用其余4個fold的欺詐率作為特征。
特征篩選
對全量訓練集五折交叉驗證后,在線下AUC指標增加的情況下,選取訓練集中isNew=1的數據集進行線下的五折交叉驗證,當線下AUC與線上AUC都增加時,才保留該部分特征。從而保證線下線上的一致性。
模型建立、調參、融合
XGBoost
將上述XGB框架構造的特征工程加載到XGBoost模型中進行訓練,線上可以達到A榜TOP5的成績(線上AUC=0.816)。
CATBoost
將CATBoost構造的特征工程加載到CATBoost模型中進行訓練,線上可以達到TOP5的成績(線上AUC=0.811)。
Rank加權幾何平均
創新點
①潛在的欺詐行為發現。
②偽標簽訓練集的構建,增強了模型學習測試集的能力;
③挖掘了更細粒度的特征信息,更貼近實際的業務意義,特征解釋性強;
④雙重線下驗證的特征篩選,保證了模型的穩定性;
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群:總結
以上是生活随笔為你收集整理的【数据竞赛】厦门国际银行 “数创金融杯”数据建模大赛-冠军分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CVPR2020论文解读】300米远程
- 下一篇: 收藏 | 700页NLP算法在百度、阿里