Imbalanced class problem(ROC, Confusion Matrix)
1 何為 Imbalanced class problem
在分類問題中,有時候一種類別的數(shù)據(jù)會遠(yuǎn)遠(yuǎn)的多于另外一種類別,
但正是這些少量的類別的數(shù)據(jù),往往又是極其重要的。
比如信用卡欺詐事件,該事件遠(yuǎn)遠(yuǎn)地小于信用卡未被欺詐的事件。
要從信用卡操作的數(shù)據(jù)中,識別出欺詐這一類別的事件,比例極其小,但確是及其重要的。
在大量的操作數(shù)據(jù)中找到欺詐事件,猶如大海撈針。
這個時候如果繼續(xù)使用精度來評估分類器就不準(zhǔn)確了。
因為即使把所有的信用卡操作數(shù)據(jù),都判斷為未欺詐類別,
其正確率也可以達(dá)到99.999......%,這種分類器明顯是無用的。
針對Imbalanced class problem, 研究者提出了許多其它的參數(shù)來評估模型。
?
2 Confusion Matrix
2.1 相關(guān)概念
在Confusion Matrix中,
? ??
由Confusion Matrix 定義一些參數(shù):
2.2 計算實例
實例中的分類器,雖然正確率達(dá)到了99.1%,但是Recall參數(shù)只有0.1, 對于class=Yes 類別的預(yù)測,
正確率只有10%,非常低。
2.3 分類問題的拓展參數(shù)
還是類似的的confusion matrix
?
3 ROC(Receiver Operating Characteristic)
ROC?發(fā)展于20世紀(jì)50年代的信號檢測理論, 用于顯示檢測率和誤報警率之間的權(quán)衡。
ROC曲線顯示TPR與FPR的關(guān)系,用ROC曲線上的一個點表示模型的性能,
改變分類器的閾值參數(shù)會改變點的位置
(TPR,FPR)
- (0,0):把所有數(shù)據(jù)判別為負(fù)類;
- (1,1):把所有數(shù)據(jù)判別為正類;
- (1,0):理想情況
對角線是一條假想線,低于該線表示于正確的類別相反。
?
4 基于ROC的模型比較
沒有一種模型總是好于另一種
上圖中,對于小的FPR值,M1 更好
對于大的FPR值,M12更好
?
5 如何構(gòu)建一個ROC曲線
- 為每個實例,使用分類器產(chǎn)生一個連續(xù)值的分?jǐn)?shù),該實例在+ class 的可能性越高,得分越高
- 根據(jù)分?jǐn)?shù),按照降序排列實例
- 應(yīng)用一個閾值在每個獨特價分?jǐn)?shù)值
- 在每個閾值計算TPFP, TN, FN的數(shù)量,
TPR = TP / (TP + FN)
FPR= FP / (FP + TN)
總結(jié)
以上是生活随笔為你收集整理的Imbalanced class problem(ROC, Confusion Matrix)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 函数参数传递、数组指针、二级指针、左值、
- 下一篇: 利用flask写的接口(base64,