當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据风控用了什么模型？有效性如何？

發(fā)布時間：2024/1/18 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据风控用了什么模型？有效性如何？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目前貸款的風控因為每一個樣本的收集都需要放款來收集，想想每人放一萬，一個億也就只能放1萬人，所以樣本量不會太大。所以所謂大數(shù)據風控主要是大在特征的數(shù)據上。很多時候是用了很多傳統(tǒng)上不怎么敢用的特征。比如傳統(tǒng)風控比較害怕missing value 比較害怕不穩(wěn)定的特征這些都是大數(shù)據風控需要解決的。

說到模型，既然是特征多，樣本少，那就需要一個非常抗過擬合的模型。另外如果是單獨針對反欺詐而不是信用，因為問題比較非線性，所以需要一個有非線性能力的模型。滿足這兩者要求的都可以。

當然上面說到的只是針對預測貸款用戶好壞的二分類問題，至于很多風控領域的其他問題，就有不同的解決方案了。

說到有效性。據我所知目前市場上有一些非常小額短期的產品已經可以完全按照一個模型放款并盈利了。完全不需要人參與。這類產品通過小額解決了樣本少的問題。通過短期解決了收集label慢的問題。所以還不太容易推廣到大額長期產品上去。

由于題主提出的問題圍繞著風控模型，而討論模型必定和實際的應用場景和數(shù)據源相關，因此就前四個問題一并回答。

首先金融科技公司大致分為三類，基于線上垂直領域（教育、醫(yī)療、電商）、基于特定客群（學生、藍領、白領）、基于線下場景（車貸、租房）。不同公司在數(shù)據維度、授信客群、產品上都有較大區(qū)別。基本而言，風險主要集中于信用風險及欺詐風險。

在此簡單介紹下消費信貸產品在貸款各個環(huán)節(jié)風控主要模型對兩類風險的把控。

一、模型在信用風險的用途：

1.授信準入階段

首先是授信準入階段，此階段最重要的模型是進件評分卡模型，數(shù)據來源主要分為申請信息、歷史消費信息、外部信息（例如多投借貸、公積金等）。常用模型包含LR、Xgboost、FFM等。不同模型的選取由是否需要在線更新、可解釋性、線上部署環(huán)境等多種因素決定。LR的研究非常成熟，有完整的工業(yè)分布式解決方案和在線增量學習的理論基礎，包括各種帶正則項的變種，是非常理想的建模方法，很多時候它還會作為基準型，用于評價復雜模型的提升效果。

一般的線性模型會遇到兩個問題：

一是非線性特征的學習，比如年齡。一般使用的方法是進行變量離散化，把年齡分成不同的段或者使用稀疏編碼或者自編碼等算法對品類或者其他信息進行重構。

二是交互影響，例如收入特征和年齡特征的交叉。高收入的中年人是干爹和干媽，高收入的年輕人是高富帥和白富美，兩者的特點完全不一樣。所以我們也會使用Xgboost等模型加工非線性特征，或使用FM/FFM類算法學習交叉特征，以此提升模型擬合能力。

此外在這個環(huán)節(jié)需要注意的是，由于很多公司的數(shù)據維度是有限的，分數(shù)低的用戶并不一定是逾期風險較高的，而可能僅僅是留下數(shù)據較少的用戶，隨著業(yè)務的逐步擴張，怎么再去找更多的維度或者在原有數(shù)據維度上構建更細膩度的特征來刻畫之前無法覆蓋的用戶群體是關鍵。

其次由于黑產的猖獗，時刻需要提防刷分、養(yǎng)號的用戶，最好的解決方式是通過分析異常群體的行為，構建有區(qū)分度的特征或者引入更多數(shù)據維度使得可以更加細膩的刻畫正常用戶的行為，最后還需要結合產品去完善模型。

業(yè)務擴張的時候，客群的分布可能發(fā)生較大變化，引起的概念漂移也是值得關注的。

2.用戶生命周期階段

當用戶準入后需要進行用戶生命周期管理，常用到模型是行為評分卡。

和準入階段不一樣，在這個階段，用戶由于大多已經有過至少一次的還款行為，因此可以在數(shù)據維度加入借貸數(shù)據。

除此之外，需要考慮如何調整額度和息費，保證優(yōu)質的用戶得到更低的息費和更高的額度，而數(shù)據表現(xiàn)較差的用戶需要用更高的息費來覆蓋風險。

但不顧風險的一味最求高收益和不求收益的低風險都是沒有意義的。定價模型的重點在于對用戶需求和風險的合理預估，調整各個用戶群體的息費和額度檔次。實則可以看成對資金在不同風險回報的分配，使得在一定的風險下，總體風險收益最大化，技術上會涉及很多帶約束的優(yōu)化問題。

3.催收階段

最后一個階段，一小部分用戶會逾期進入催收階段。

這個時期重點是失聯(lián)修復和催收評分卡，即刻畫用戶經過一定的催收動作后還款的可能性。

失聯(lián)修復很好理解，就是通過各種社交數(shù)據，建立起關系網絡找出與欠款人可能相關的人或者欠款人的其他聯(lián)系方式。而催收評分卡需要使用到催收數(shù)據，催收數(shù)據大多是文本音頻類型文件備份，因此對這種非結構類型數(shù)據的挖掘是這個階段的核心。

催收的時機，是催收成功最重要的因素。由于催收資源有限，我們需要按照一定的分配規(guī)則來分配催收資源。在逾期的較早時期，應該將更多的資源放在較難催收的用戶上，而其他的用戶可能由于是忘記還款或者其他的非惡意拖欠原因沒有還錢，可能給予一段時間會自我救贖；而在催收晚期，則需要放置更多催收資源在能夠催回的用戶上，盡最大可能降低損失。

二、模型在反欺詐風險方面的用途：

除了上述的信用風險，還有一塊較大的職責就是欺詐風險。

現(xiàn)階段，業(yè)界更多關注的是有組織參與的中介欺詐，常見的如批注、盜號、薅羊毛、養(yǎng)號、套現(xiàn)等諸多行為的識別。由于是團伙作案，更多是基于社交網絡的社團發(fā)現(xiàn)算法來對中介的識別，或者是利用套現(xiàn)中的地址集中性相似性等特點來識別中介，或使用時間序列算法來分析用戶的歷史行為軌跡，手機傳感器信息等生物指紋數(shù)據來核實身份。

欺詐風險的難點有別于信用風險，在較多場景下很難定義好壞用戶。因此關鍵在于標簽的獲得。通常需要同案件調查人員配合，因為他們能夠準確定義欺詐，同時能夠還原犯罪手法，針對于模型Y變量定義，X變量設計都很有幫助。

其次，由于對抗性強，因此如何檢測未發(fā)現(xiàn)的欺詐模式和模型的更新速度更加關鍵。目前這一塊工作業(yè)界發(fā)展都比較滯后。

最后，授信客群的變化或者欺詐團伙作案手法的變化導致原有模型可能失效，加上風險的滯后性，最新可用的訓練數(shù)據可能已經離目前較遠，如何從最新的數(shù)據獲取模式與舊的數(shù)據模式的遺忘是難點。

三、補充

最后，補充如下幾點模型評測的注意事項：

1. 由于線下訓練環(huán)境和線上真實用戶群體存在差異，模型的泛化能力很重要，需要確保模型學習到的是有區(qū)分度的模式而不是數(shù)據中的噪音。

2. 線下使用評測指標主要是刻畫準確度與區(qū)分度的ks、auc、洛倫茲曲線和Lift曲線等和模型穩(wěn)定性指標psi。

3. 客群逾期率的高低和公司產品的形態(tài)有重要關系，短期提升可以通過反欺詐技術得到改善、而中長期需要依托信用風險模型、但最終還得看產品的授信客群，面向不同客群的風控模型的指標對比試沒有意義的。

總結

以上是生活随笔為你收集整理的大数据风控用了什么模型？有效性如何？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安托协助美的，管控线上渠道
下一篇： azure 东南亚_为何东南亚应该拥抱开