日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Imbalanced class problem(ROC, Confusion Matrix)

發(fā)布時間:2024/7/23 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Imbalanced class problem(ROC, Confusion Matrix) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 何為 Imbalanced class problem

在分類問題中,有時候一種類別的數(shù)據(jù)會遠(yuǎn)遠(yuǎn)的多于另外一種類別,

但正是這些少量的類別的數(shù)據(jù),往往又是極其重要的。

比如信用卡欺詐事件,該事件遠(yuǎn)遠(yuǎn)地小于信用卡未被欺詐的事件。

要從信用卡操作的數(shù)據(jù)中,識別出欺詐這一類別的事件,比例極其小,但確是及其重要的。

在大量的操作數(shù)據(jù)中找到欺詐事件,猶如大海撈針。

這個時候如果繼續(xù)使用精度來評估分類器就不準(zhǔn)確了。

因為即使把所有的信用卡操作數(shù)據(jù),都判斷為未欺詐類別,

其正確率也可以達(dá)到99.999......%,這種分類器明顯是無用的。

針對Imbalanced class problem, 研究者提出了許多其它的參數(shù)來評估模型。

?

2 Confusion Matrix

2.1 相關(guān)概念

在Confusion Matrix中,

? ??

由Confusion Matrix 定義一些參數(shù):

2.2 計算實例

實例中的分類器,雖然正確率達(dá)到了99.1%,但是Recall參數(shù)只有0.1, 對于class=Yes 類別的預(yù)測,

正確率只有10%,非常低。

2.3 分類問題的拓展參數(shù)

還是類似的的confusion matrix


?

3 ROC(Receiver Operating Characteristic)

ROC?發(fā)展于20世紀(jì)50年代的信號檢測理論, 用于顯示檢測率和誤報警率之間的權(quán)衡。

ROC曲線顯示TPR與FPR的關(guān)系,用ROC曲線上的一個點表示模型的性能,

改變分類器的閾值參數(shù)會改變點的位置

(TPR,FPR)

  • (0,0):把所有數(shù)據(jù)判別為負(fù)類;
  • (1,1):把所有數(shù)據(jù)判別為正類;
  • (1,0):理想情況

對角線是一條假想線,低于該線表示于正確的類別相反。

?

4 基于ROC的模型比較

沒有一種模型總是好于另一種

上圖中,對于小的FPR值,M1 更好

對于大的FPR值,M12更好

?

5 如何構(gòu)建一個ROC曲線

  • 為每個實例,使用分類器產(chǎn)生一個連續(xù)值的分?jǐn)?shù),該實例在+ class 的可能性越高,得分越高
  • 根據(jù)分?jǐn)?shù),按照降序排列實例
  • 應(yīng)用一個閾值在每個獨特價分?jǐn)?shù)值
  • 在每個閾值計算TPFP, TN, FN的數(shù)量,

TPR = TP / (TP + FN)

FPR= FP / (FP + TN)

總結(jié)

以上是生活随笔為你收集整理的Imbalanced class problem(ROC, Confusion Matrix)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。