【采用】无监督学习在反欺诈中的应用
一、反欺詐技術(shù)的發(fā)展歷程
反欺詐技術(shù)的的發(fā)展經(jīng)歷了四個階段,第一階段黑名單、信譽庫和設(shè)備指紋;第二階段規(guī)則系統(tǒng);第三階段有監(jiān)督的機器學(xué)習(xí);第四階段無監(jiān)督的大數(shù)據(jù)欺詐檢測。目前來說,前三種還是大家應(yīng)用最為普遍的,尤其對于小貸公司,黑名單和規(guī)則系統(tǒng)的投入是非常大的。
但是不得不承認的是,隨著騙子攻擊手法的不斷變化,實際上這樣的反欺詐手段僅僅只能對已知的欺詐形勢做一個攔截。那么對于一些新型的攻擊和欺詐方式,尤其是一些新業(yè)務(wù)上線的時候,我們沒有標(biāo)簽,該怎么辦?這實際上就是無監(jiān)督學(xué)習(xí)能夠解決的事情。
二、什么是聚類
下圖是一個經(jīng)典的機器學(xué)習(xí)的分類,分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),那么在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間又有一個半監(jiān)督學(xué)習(xí)。今天跟大家主要講解的是無監(jiān)督學(xué)習(xí)中聚類這塊的內(nèi)容。
反欺詐最常用的兩種方法,一種是聚類,一種是離群點檢測或者叫異常值檢測。離群點檢測有自己的優(yōu)勢,但是相比于聚類而言,就是它的誤傷比比較高。
那什么是聚類?
聚類是對大量未知標(biāo)注的數(shù)據(jù)集,按照數(shù)據(jù)內(nèi)部存在的數(shù)據(jù)特征將數(shù)據(jù)集劃分為多個不同的類別,使類別內(nèi)的數(shù)據(jù)比較相似/相關(guān),類別之間的數(shù)據(jù)相似度/相關(guān)度比較小,屬于無監(jiān)督學(xué)習(xí)。我們把聚類應(yīng)用在無監(jiān)督上的時候,會去看兩個性質(zhì),第一個性質(zhì)是一致性,第二個性質(zhì)是關(guān)聯(lián)性。
下圖中的左圖就是一個比較經(jīng)典的一致性的聚類圖。右圖是比較經(jīng)典的關(guān)聯(lián)性的一個圖。
三、無監(jiān)督學(xué)習(xí)應(yīng)用于反欺詐
下面我會給大家重點介紹無監(jiān)督學(xué)習(xí)應(yīng)用于反欺詐的原理,主要有四個步驟,第一是特征提取,第二是聚類分析,第三是圖分析,最后是結(jié)果排序評分。這其中特征提取是最為核心的一步。
1.第一步:特征提取
上圖是特征工程的一個流程圖。我們從下往上看,最下面是數(shù)據(jù)的輸入,將數(shù)據(jù)輸入hadoopde的一個平臺,然后通過初步的場景設(shè)定,我們會去定義要提取哪幾個事件,是注冊、申請、交易還是后面的其他環(huán)節(jié)?
接下來,我們會利用一些技術(shù),比如說最常用的統(tǒng)計分析、自然語言處理、圖形分析等等,去把行為特征提取出來,然后再到最上面是動態(tài)特征提取比較多。
那這張圖的右邊還有兩個框。其中業(yè)務(wù)知識是個我個人比較看重的。在做項目的過程中,你的業(yè)務(wù)知識會非常有效地幫助你做特征工程。因為當(dāng)你對業(yè)務(wù)知識比較熟悉的時候,你能很快地定位到你的風(fēng)險點在哪里,或者你會比較清楚現(xiàn)在整個業(yè)態(tài)、整個大的政策是什么樣的,你的比較相似的行業(yè)處于什么一種什么樣的風(fēng)險情況下,那他們現(xiàn)在處于這樣的風(fēng)險會不會轉(zhuǎn)移到我們目前的一個業(yè)務(wù)。所以對業(yè)務(wù)的了解,實際上對于我們特征工程是非常有幫助的。
2.第二步:聚類分析
在第一步特征工程結(jié)束后,我們會把一個基礎(chǔ)字段和特征工程衍生出來的這些字段,把它撞成一個大的長項量,來去映射到一個特征空間里面,然后再去做一個聚類分析。最后我們把這樣一個整體的特征向量輸入到關(guān)聯(lián)性分析的模塊中。
這個模塊有兩個作用,第一個作用是去做降維,如果維度特別高的話,實際上在做聚類的時候是非常困難的。我們要降低每一個元素之間的關(guān)聯(lián)性,讓它們盡量相互地獨立;第二個作用是定義它的距離函數(shù),
當(dāng)關(guān)聯(lián)性分析這個模塊做好之后,我們就會到下一個模塊去做一個聚類。那聚類結(jié)果輸入之后,我們會做一些回顧,去看這個聚類結(jié)果是什么樣的效果。如果說感覺不是特別好的話,我們還需返回到我們關(guān)聯(lián)性分析的模塊,重新進行分析。
其實這個循環(huán)是不斷去做的,我們在調(diào)整模型的過程中,其實就是在調(diào)整這個環(huán)節(jié),具體取決于用戶如何來使用這個結(jié)果。
3.第三步:圖分析
圖分析大家可以理解成是交互的分析,跟社交網(wǎng)絡(luò)分析不同的是,社交網(wǎng)絡(luò)分析的研究對象是一個人,而圖分析研究的對象則是一個小團體。
?
為什么要做這樣一個步驟?
主要有兩個目的,第一個目的是我們可以從更高的維度去看小團體和小團體之間是不是也有一定的分工或者相關(guān)性。大家知道黑產(chǎn)是有嚴(yán)格分工的,比如他們有情報中心、宣傳中心等等;第二就是有些小團體可以連接成更大團體的時候,我們可以從不一樣的視角去看他們其中的一個內(nèi)在,可以給到我們更多的信息。
4.第四步:結(jié)果排序評分
經(jīng)過聚類分析和圖分析之后,我們其實對這個群體有了一個大概的判別,那接下來我們對其結(jié)果做一個排序和評分。
?
在做評分的時候,我們會依照兩個因素,第一個因素是群組的大小,第二因素是群組的關(guān)聯(lián)性。群組的大小顧名思義就是說你人多,那么評分可能會比較高;關(guān)聯(lián)性則是說明,你所有這些比較壞的屬性或者比較詭異的行為都比較一致的時候,我們會認為你的平衡比較高。
總結(jié)
以上是生活随笔為你收集整理的【采用】无监督学习在反欺诈中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【采用】人工智能如何帮助银行反欺诈:银行
- 下一篇: 解析金融反欺诈技术的应用与实践