日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Binary classification - 聊聊评价指标的那些事儿【实战篇】

發(fā)布時間:2025/3/14 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Binary classification - 聊聊评价指标的那些事儿【实战篇】 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

分類問題就像披著羊皮的狼,看起來天真無害用起來天雷滾滾。比如在建模前你思考過下面的問題么?

  • 你的分類模型輸出的概率只是用來做樣本間的相對排序,還是概率本身?
  • 你的訓(xùn)練數(shù)據(jù)本身分布如何是否存在Imbalanced Sample?

要是您都想到了拜拜?。要是有1各您感興趣的問題,那就接著往下看吧。本來是想先回顧一下各個分類問題中可能用到的metric,但是又覺得讀的人可能覺得無聊,就分成了兩章。要是有的指標(biāo)斷片了就來這里回憶一下: 回憶篇

問題1 Rank or Probability?

分類問題可以根據(jù)對輸出形式的要求分成兩類

  • 一種我們只關(guān)心排序。比如電商場景下,用戶是否會回購某商品,我們更關(guān)心用戶回購商品A的概率是否高于用戶回購商品B的概率,然后把回購概率更高的商品放在推薦列表前面。這時分類問題其實(shí)是用來排序的。--樣本間的相對排序比較比絕對概率更重要
  • 另一種我們關(guān)心概率。比如現(xiàn)在大家都在談增長,我們想知道一個用戶明天在app活躍的概率,只知道用戶A比用戶B活躍的概率高并不夠,我們需要明確知道用戶A活躍的概率,究竟是90%還是50%,這樣才能對高/低于特定概率的用戶進(jìn)行一定(促活/喚醒)操作。這時分類問題是對真實(shí)概率的估計 --樣本的絕對概率需要接近真實(shí)概率,并且天極穩(wěn)定
  • 有人會問,上述兩種需求究竟對解決一個二分類問題有什么影響? 答案是損失函數(shù)/評價指標(biāo)

    讓我們來看一個直觀的例子,下圖我們嘗試用LightGBM解決一個二分類問題,我們選擇的擬合指標(biāo)是最大化AUC。

    X軸是預(yù)測概率,Y軸是真實(shí)概率,藍(lán)線是LGB的預(yù)測結(jié)果,綠線對應(yīng)真實(shí)概率=預(yù)測概率。為什么模型的AUC高達(dá)98.93%(這里還有ImbalancedSample的影響,讓我們先忽略這一點(diǎn)),但是預(yù)測概率和真實(shí)概率卻差到了姥姥家。

    讓我們對預(yù)測概率再做一層處理,黃線可以簡單理解為我們對LGB的預(yù)測結(jié)果做了一層映射 \(\hat{p} \to f(\hat{p})\),這時校準(zhǔn)后的預(yù)測概率和真實(shí)概率基本一致了。但是有趣的是校準(zhǔn)后的預(yù)測概率AUC = 98.94%和原始預(yù)測基本沒差別?!

    Duang Duang Duang!敲黑板!AUC是對相對概率排序的檢驗!其實(shí)只要用心(我學(xué)AUC的時候一定沒用心>_<)看一下AUC的計算方式就會發(fā)現(xiàn),AUC只關(guān)心給定各個閾值,把樣本按照預(yù)測概率分成0/1,并計算正負(fù)樣本預(yù)測的準(zhǔn)確率。

    舉個最夏天的例子,兩個瓜一個甜一個不甜,我們訓(xùn)練一個西瓜模型來預(yù)測它們甜(1)/不甜(0)。
    模型1: 甜的瓜預(yù)測概率是0.8,不甜的瓜預(yù)測概率是0.1,
    模型2: 甜的瓜預(yù)測概率是0.51,不甜的瓜預(yù)測概率是0.49
    兩個模型的AUC是相同的,因為它們都完美對兩個瓜進(jìn)行了分類。

    所以當(dāng)使用最大化AUC作為損失函數(shù)時,當(dāng)正負(fù)樣本的預(yù)測準(zhǔn)確率不再提高,模型就會停止學(xué)習(xí)。這時模型的預(yù)測概率并不是對真實(shí)概率的擬合。那如何才能得到對真實(shí)概率的預(yù)測? 答案是logloss/cros-entropy

    \[ \begin{align} L &= \sum_{i=1}^N y_i * log(p_i) + (1-y_i) *log(1-p_i)\\ \end{align} \]

    我們可以從兩個角度來理解為什么logloss是對真實(shí)概率的估計

  • 從極大似然估計的角度
    logloss可以由極大似然函數(shù)取對數(shù)得到,最小化logloss對應(yīng)的最大化似然函數(shù)。\(p_i\)是對\(p(y_i=1)\)的估計
    \[ argmax_p \prod_{i=1}^N {p_i}^{y_i} * {(1-p_i)}^{1-y_i} \]

  • 從信息論的角度
    不熟悉信息論的同學(xué)看這里 Intro to Information Theory
    logloss也叫cross-entropy(交叉熵),用來衡量兩個分布的相似程度。
    交叉熵本身可以分解為P本身的信息熵+分布P和分布q之間的距離。這里P是樣本的真實(shí)分布信息,信息熵一定。所以最小化交叉熵就變成了最小化分布p和q之間的距離,也就是樣本分布和模型估計間的距離,如下
    \[ \begin{align} crossentropy &= H(p,q)\\ &= -\sum_{c=1}^C p(c) * log(q(c))\\ & = - \sum_{c=1}^C p(c) * log(p(c)) + \sum_{c=1}^C p(c)[log(p(c) - log(q(c)))] \\ &= H(p) + KL(p||q)\\ \end{align} \]
    乍一看會覺得交叉熵和logloss長的不像一家人。因為在訓(xùn)練模型時分布p是從訓(xùn)練樣本的分布中抽象得到的。二分類問題中C=2, 讓我們把上述交叉熵再推一步
    \[ \begin{align} H(p,q) &= p *log(q) + (1-p) *log(1-q) \\ p& = \sum_{i=1}^N I(y_i=1)/N \\ H(p,q) &= \frac{1}{N} \sum_i I(y_i=1) *log(q)+ I(y_i=0) *log(1-q) \\ \end{align} \]
    所以下次解決分類問題,如果你的目標(biāo)是計算對真實(shí)概率的估計的話,別選錯指標(biāo)喲�

  • 興趣卡片- 預(yù)測概率校準(zhǔn)
    其實(shí)黃線用了Isotonic Regression來校準(zhǔn)預(yù)測概率。是一種事后將預(yù)測概率根據(jù)真實(shí)概率進(jìn)行校準(zhǔn)的方法。感興趣的可以看一下Reference里面的材料1,2。原理并不復(fù)雜,但在分析特定算法,尤其是boosting,bagging類的集合算法為什么使用loggloss對概率估計依舊會有偏的部分蠻有趣的

    問題2 Imbalanced Sample ?

    正負(fù)樣本分布不均大概是分類問題中最常遇到的問題。正確解決Imbalane問題需要注意的并不只是評價指標(biāo),往往還要注意采樣和訓(xùn)練集測試集的劃分。但這里我們只討論在解決樣本分布不均的問題時,我們應(yīng)該選擇什么指標(biāo)來評價模型表現(xiàn)。讓我們挨個來剔除不好用的指標(biāo)。

    舉個極端的例子,100個樣本里只有1個正樣本

    Accuracy

    這種情況下即便我們?nèi)款A(yù)測為負(fù),我們的準(zhǔn)確率依舊高達(dá)99%。所以Accuracy只適用于正負(fù)樣本均勻分布的情況,因為它把正負(fù)樣本的預(yù)測準(zhǔn)確率柔和在一起看了。

    AUC

    AUC是fpr和tpr(recall)組成的ROC的曲線下面積。還記得我們在【回憶篇】里面說過fpr,tpr是分別衡量在正負(fù)樣本上的準(zhǔn)確率的。

    而fpr和tpr之間的trade-off,在正樣本占比很小的情況下,這種trad-off會被樣本量更大的一方主導(dǎo)。所以當(dāng)正樣本占比很小的時候,AUC往往會看起來過于優(yōu)秀。

    但就像硬幣的正反面一樣,從另一個角度看這也是AUC的優(yōu)點(diǎn),就是AUC本身不會很大的受到樣本實(shí)際分布的影響,相同的模型相同的樣本,你把正樣本downsample /upsample 1倍,AUC不會有很大的改變。

    下圖來自An introduction to ROC analysis, 上面的AUC和PR是正負(fù)樣本1:1的預(yù)測表現(xiàn),下面是1:10的表現(xiàn)。我們會發(fā)現(xiàn)AUC基本沒有變化,但是precision-recall發(fā)生了劇烈變化。



    AP/AUCPR

    AP是recall和precision組成的PR的曲線下面積。這里recall和precision分別從真實(shí)分布和預(yù)測分布兩個角度衡量了對正樣本的預(yù)測準(zhǔn)確率。說到這里已經(jīng)有人反應(yīng)過來了。是的這一對trade-off指標(biāo)都是針對正樣本的,在計算中沒有用到True negative.所以當(dāng)你的數(shù)據(jù)集存在Imbalance的時候,AP一般會是更好的選擇。

    ...你還遇到過啥問題嘞?歡迎留言


    Reference

  • https://www.kaggle.com/residentmaio/notes-on-classification-probability-calibration/
  • Pedro G. Fonseca and Hugo D. Lopes. Calibration of Machine Learning Classifiers for Probability of Default Modelling
  • https://en.wikipedia.org/wiki/Confusion_matrix
  • Tom Fawcett,An introduction to ROC analysis
  • 轉(zhuǎn)載于:https://www.cnblogs.com/gogoSandy/p/11123688.html

    總結(jié)

    以上是生活随笔為你收集整理的Binary classification - 聊聊评价指标的那些事儿【实战篇】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 中国国语农村大片 | 亚洲天堂资源在线 | 亚洲日本精品视频 | 影音先锋男人资源网站 | 免费观看日韩av | 日批网站在线观看 | 日本啪啪啪一区二区 | 国内自拍av| 国产又粗又猛又黄又爽的视频 | 国产一区二区女内射 | 欧洲免费av| 黄色大片在线看 | 亚洲网站在线观看 | 日本一卡二卡在线 | 最新免费av| 久久视频一区 | 国产在线精品自拍 | 69视频在线看 | 日韩午夜毛片 | 亚洲蜜臀av一区二区三区 | 亚洲AV无码成人精品一区 | 黄色成人av| 青青操免费| 女裸全身无奶罩内裤内衣内裤 | 97人妻精品一区二区 | 欧美一级黄色网 | 狠久久 | 男生女生羞羞网站 | 成人欧美一区二区三区黑人动态图 | 高清久久久久久 | 天天舔日日操 | 国产亚洲网站 | 国产精品久久久久久一区 | 国产一区二区三区高清 | 翔田千里在线播放 | 国产91在线观看丝袜 | 91精品国产欧美一区二区 | 一区二区成人免费视频 | www黄色网址 | 国产老肥熟 | 麻豆成人91精品二区三区 | 中文字幕av有码 | 欧美中文字幕一区二区 | 中国美女乱淫免费看视频 | 国产精品三级久久久久久电影 | 夫妻啪啪呻吟x一88av | 日韩视频中文字幕在线观看 | 日日涩| 亚洲在线网站 | 美女啪啪网站 | 97超碰站 | 亚洲精品国产a | 精品一二三四区 | 日本妈妈3| 国产丰满农村老妇女乱 | 人人爽人人插 | 日本高清免费看 | 黑人巨大精品欧美黑白配亚洲 | 色网址在线| 欧美在线激情视频 | 狠狠的日 | 青青国产精品 | 欧美亚洲国产另类 | 久久夜靖品2区 | 短裙公车被强好爽h吃奶视频 | 黄色777| 精品国产无码一区二区三区 | 精产国产伦理一二三区 | 国产熟女一区二区丰满 | 91免费在线视频 | 糖心vlog精品一区二区 | 成年人免费在线视频 | 在线污视频 | 美女脱光内衣内裤 | 成人拍拍拍| 国产大片中文字幕在线观看 | 神秘马戏团在线观看免费高清中文 | 欧美福利视频在线观看 | 韩日av| 国产精品久久久精品三级 | 国产熟妇搡bbbb搡bbbb | 国产视频99 | 性色av蜜臀av| 人妻丰满熟妇av无码久久洗澡 | 99久久久无码国产 | 草碰在线 | 红桃一区二区三区 | 成人区人妻精品一区二 | 亚洲欧美日韩一区在线观看 | 香蕉国产片 | 亚欧中文字幕 | 亚洲在线观看一区 | 一级绝黄 | 亚洲一区精品视频在线观看 | 玖玖爱在线观看 | 久久久久亚洲av成人无码电影 | 国产精品久久在线 | 97影视 | 九九在线 |