欺诈检测相关论文
欺詐檢測相關(guān)論文
- 一、分類
- 1、GEM
- 2、HACUD
- 3、MAHINDER
- 4、Semi-GNN
- 5、MvMoE
- 6、AMG-DP
- 7、AddGraph
- 8、NetWalk
- 9、DOMINANT
- 10、GraphConsis
- 11、PC-GNN
- 12、TRUST
- 二、類別不平衡
一、分類
1、GEM
來自螞蟻金服的論文,他們提出GEM模型,是一個異質(zhì)圖神經(jīng)網(wǎng)絡(luò)方法,用于支付寶中惡意賬戶的檢測。數(shù)據(jù)量有4.5億個用戶。
作者從數(shù)據(jù)中總結(jié)了來自攻擊者的兩個主要特征:
1、攻擊者要承受計算資源帶來的成本,所以大多數(shù)攻擊者只在少數(shù)計算資源上注冊或頻繁地登錄。(x:設(shè)備id,y:賬戶id,左:正常,右:異常)
2、攻擊者受攻擊時間的限制,通常要在很短的時間內(nèi)完成既定目標(biāo),所以惡意賬戶的行為可能在有限的時間內(nèi)爆發(fā)。(x:時間,y:賬戶id,左:正常,右:異常)
異質(zhì)圖構(gòu)建:
設(shè)備聚集:從不同設(shè)備角度(如ip地址,電話等)提取D個子圖,每個子圖都包含G中所有節(jié)點。
行為聚集:矩陣X=[N,p+|D|], 前p維 表示賬戶i行為,0~T時間劃分p個時間段,每個時間段有一個行為次數(shù),最后D為表示所屬設(shè)備(子圖)的one-hot編碼
2、HACUD
來自螞蟻金服的論文,他們提出HACUD模型,將實際場景建模為屬性異質(zhì)信息網(wǎng)絡(luò)。用于信用支付中套現(xiàn)用戶的檢測。數(shù)據(jù)量級5百萬用戶
數(shù)據(jù):
三類節(jié)點:用戶U、商家M、設(shè)備D,每個節(jié)點都有豐富的屬性
兩種元路徑:UU(用戶和用戶有資金交易)、UMU(用戶和用戶有相同的交易商家)
作者從數(shù)據(jù)中觀測到兩個現(xiàn)象:
1、套現(xiàn)率高的用戶往往有更多的套現(xiàn)鄰居。這意味著用戶的特征可以源于他們基于元路徑的鄰居的特征。
2、不同的基于元路徑的鄰居對用戶有不同的影響。這意味著不同元路徑對用戶重要程度不同,可以用注意力機制去捕獲。
模型:
初始數(shù)據(jù)是 用戶屬性 和 基于元路徑的用戶鄰居屬性。
然后使用分層注意力機制獲得在鄰居粒度和鄰居類型層面的向量表示。
最后將用戶表示送入分類器訓(xùn)練模型。
3、MAHINDER
來自阿里的論文,他們提出MAHINDER模型,將實際場景建模為多視圖屬性異質(zhì)信息網(wǎng)絡(luò)。用于信用支付中違約用戶的檢測。數(shù)據(jù)量189萬用戶
屬性異質(zhì)網(wǎng)絡(luò)劃分為三種視圖:社交視圖、資金視圖、設(shè)備視圖
作者從數(shù)據(jù)中觀測到的現(xiàn)象:
1、不同視圖下不同直接違約鄰居數(shù)量下,違約者的概率和提升有明顯差異。(說明1、用戶的特征可以用鄰居的特征來表示,2、不同的path重要性不同,使用attention機制進行捕獲)
2、同一視圖不同鏈接類型下,違約者的概率有明顯差異。(所以對meta-path編碼的時候,鏈接類型也進行了編碼)
模型:
首先人工選取元路徑;
其次使用LSTM建模元路徑的細粒度語義;
最后使用注意力整合不同的元路徑獲取用戶表示送入后續(xù)分類器。
4、Semi-GNN
來自螞蟻金服的論文,他們提出Semi-GNN模型,將實際場景建模為異質(zhì)圖。用于花唄中欺詐用戶的檢測,是第一篇使用半監(jiān)督圖神經(jīng)網(wǎng)絡(luò)進行欺騙檢測的論文。
作者收集了4百萬個有l(wèi)abel的用戶,然后從有l(wèi)abel的用戶的一跳朋友/同學(xué)/同事 中采樣沒有l(wèi)abel的用戶,所以一共是1億用戶。
從關(guān)系(朋友/同學(xué)/同事)、app、昵稱、地址四個角度分別構(gòu)建視圖。
數(shù)據(jù)現(xiàn)象: 欺詐常呈團伙聚集, 標(biāo)注為負樣本的用戶, 其鄰居節(jié)點也可疑.
基于上述假設(shè), 受DeepWalk啟發(fā), 作者設(shè)計的無監(jiān)督部分Loss希望:鄰近節(jié)點的表示相似, 不同節(jié)點的表示差異較大。
模型:
模型分為兩部分:監(jiān)督學(xué)習(xí)部分(左)和無監(jiān)督學(xué)習(xí)部分(右),兩部分模型結(jié)構(gòu)相同。
使用層次注意機制聚合視圖內(nèi)特征和視圖間特征,得到用戶表示。
監(jiān)督學(xué)習(xí):利用預(yù)測的標(biāo)簽和實際標(biāo)簽計算損失
無監(jiān)督學(xué)習(xí):利用鄰近節(jié)點的表示相似, 不同節(jié)點的表示差異較大,來計算損失。
5、MvMoE
這篇是來自阿里的論文,他們提出MvMoE模型,將實際場景建模為多視圖異構(gòu)網(wǎng)絡(luò)。在阿里電商數(shù)據(jù)上實驗,是一個信用風(fēng)險預(yù)測和信用限額設(shè)置的雙任務(wù)模型。數(shù)據(jù)量544萬用戶
三種視圖:user profiles、user sequential behaviors、user relationship
他們的數(shù)據(jù)不缺label,下個月就可以拿到這個月實驗用戶的label
采樣: 對正樣例向上采樣,使正樣例率在10%左右。(這里的正樣例 就是 違約用戶)
模型:
1、將異構(gòu)多視圖數(shù)據(jù)源,進行全面的用戶建模。
2、分別采用多層感知器(MLP)、雙向長短期記憶(BiLSTM)和圖神經(jīng)網(wǎng)絡(luò)(GNN)對每個視圖的特征進行編碼。
3、使用層次注意機制按重要性聚合視圖內(nèi)特征和視圖間特征。
4、使用視圖感知專家混合結(jié)構(gòu),來捕獲不同任務(wù)的更好的信息。
5、利用CRF任務(wù)的輸出,根據(jù)財務(wù)先驗知識,通過每個任務(wù)塔之間的漸進網(wǎng)絡(luò)來引導(dǎo)CLS任務(wù)。
6、AMG-DP
來自螞蟻金服的論文,他們提出AMG-DP模型,將實際場景建模為多重圖。用于信用支付中還款拖欠用戶的檢測。每個月有150萬用戶,一共用了10個月的數(shù)據(jù)
數(shù)據(jù)中觀測到兩個現(xiàn)象:
1、不同關(guān)系為刻畫違約用戶提供了不同的角度(所以作者將多重圖根據(jù)關(guān)系transfer/transaction/social/use劃分為不同的視圖,做聚合的時候把邊也考慮了進來)
2、有更多違約鄰居的用戶更可能是違約用戶(所以可以通過聚合鄰居的特征來表示用戶)
模型:
根據(jù)relation劃分multi-view graph,
分別在multi-view graph上做GAT聚合,聚合包括兩個點和兩點之間的邊的屬性,
再對不同的關(guān)系做attention聚合,得到用戶最終表示
最后預(yù)測用戶的違約概率
7、AddGraph
來自阿里的論文,他們提出Addgraph模型,將實際場景建模為同質(zhì)圖動態(tài)圖。在Digg數(shù)據(jù)集上進行異常邊的檢測,數(shù)據(jù)集包含3w節(jié)點、8w邊
假設(shè): 認為圖中存在的邊是正常的邊,對不存在的邊進行采樣認為是異常邊。
模型:
按時間段劃分 t 個快照圖
使用gcn學(xué)習(xí)快照圖中每個節(jié)點的表示
快照節(jié)點表示序列通過attention得到short embedding
當(dāng)前快照和最后一個快照表示得到current embedding
通過GRU整合short/current embedding得到最終每個節(jié)點表示
通過最大化正常邊和異常邊之間的margin來得到損失
8、NetWalk
來自高校的論文,他們提出NetWalk模型,模型的主要思路是提出一種動態(tài)圖embedding的方法,再用其節(jié)點表示進行異常檢測。
作者在4個數(shù)據(jù)集上進行異常節(jié)點的檢測,最大的數(shù)據(jù)集包含30w節(jié)點
假設(shè):不屬于某個圖聚類的點為異常點
模型:
由網(wǎng)絡(luò)中每個節(jié)點為起始節(jié)點,生成 walk
通過最小化每條walk的所有節(jié)點對距離和最小化自編碼器的重構(gòu)誤差,來學(xué)習(xí)每個節(jié)點的向量表示。
通過聚類得到聚類中心點,計算新來的邊/點到中心點的距離,來判斷該邊/點是否異常。
動態(tài)圖 增量維護:
Network為每個頂點維持一個reservoir,存放的是對頂點鄰居采樣的集合,集合大小是固定的。
新來邊的時候,針對里面的每個頂點,都會以概率p替換。刪除邊的時候只針對刪除了的頂點進行替換。
然后,通過reservior去產(chǎn)生新的walk更新網(wǎng)絡(luò)。
9、DOMINANT
來自高校的論文,他們提出DOMINANT模型,將實際場景建模為同質(zhì)圖,進行異常節(jié)點的檢測。
數(shù)據(jù):使用了三個數(shù)據(jù)集,最大數(shù)據(jù)集有1w個節(jié)點
假設(shè):圖重構(gòu)過程中屬性和結(jié)構(gòu)信息丟失多的節(jié)點為異常節(jié)點
模型:
使用gcn對圖中每個節(jié)點(帶有屬性)進行編碼,
通過解碼節(jié)點屬性和圖結(jié)構(gòu)來學(xué)習(xí)圖的結(jié)構(gòu)和屬性信息
最小化屬性重構(gòu)和結(jié)構(gòu)重構(gòu)的受損,得到每個用戶的表示
對每個用戶進行異常度打分 排序。
10、GraphConsis
來自高校的論文,他們提出GraphConsis模型,將實際場景建模為同質(zhì)圖,主要用來緩解圖神經(jīng)網(wǎng)絡(luò)進行欺詐檢測時的不一致問題。
數(shù)據(jù):在垃圾郵件評論數(shù)據(jù)集上進行實驗,包含4w多用戶和7百多萬邊。
不一致問題:
針對3個不一致的解決方法:
11、PC-GNN
這篇來自阿里的論文,他們提出PC-GNN模型,將實際場景建模為同質(zhì)圖,主要用來解決圖神經(jīng)網(wǎng)絡(luò)進行欺詐檢測時的類別不平衡問題。
數(shù)據(jù):在垃圾郵件評論數(shù)據(jù)集上進行實驗,包含4w多用戶和3百多萬邊。
類別不平衡時,如果欺詐用戶聚合的鄰居中有大量正常節(jié)點,就會將欺詐用戶隱藏。(和上篇論文中上下文不一致類似)
12、TRUST
來自阿里的論文,他們提出TRUST模型,進行信用風(fēng)險的預(yù)測,是一個基于元學(xué)習(xí)的半監(jiān)督方法的欠抽樣學(xué)習(xí),可以解決樣本不平衡問題。
數(shù)據(jù):在阿里在線電子商務(wù)消費貸款數(shù)據(jù)上進行實驗,有175萬用戶。
在該場景中,用戶被分為3類,違約用戶、良性用戶、不確定用戶(貸款了但還沒到還款日期)
訓(xùn)練:
采樣器W1從有標(biāo)記的數(shù)據(jù)集Dk中采樣一部分?jǐn)?shù)據(jù)V,通過訓(xùn)練得到一個基本分類器F;
未標(biāo)記的數(shù)據(jù)Du通過分類器F得到數(shù)據(jù)的label,再通過采樣器w2采樣部分?jǐn)?shù)據(jù)U;
用數(shù)據(jù) V 和 U 來訓(xùn)練模型 F;
通過驗證集Dv在模型F上的效果來進行反向傳播;
循環(huán)這個過程直到收斂,整個迭代學(xué)習(xí)的過程是元學(xué)習(xí)的思想。
二、類別不平衡
總結(jié)
- 上一篇: IntentService解析
- 下一篇: 论文笔记(eTrust: Underst