日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

在机器学习分类中如何处理训练集中不平衡问题

發(fā)布時(shí)間:2025/3/21 编程问答 12 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在机器学习分类中如何处理训练集中不平衡问题 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄(?)[-]

  • 在分類中如何處理訓(xùn)練集中不平衡問題
  • Jason Brownlee的回答
  • 什么是類別不均衡問題
  • 類別不均衡問題是現(xiàn)實(shí)中很常見的問題
  • 八大解決方法
  • 選擇某一種方法并使用它
  • 總結(jié)
  • Further Reading
  • Sergey Feldman的回答
  • Kripa Chettiar的回答
  • Roar Nyb的回答
  • Dan Levin的回答
  • Kaushik Kasi的回答
  • Quora User的回答
  • Dayvid Victor的回答
  • Muktabh Mayank的回答
  • Sandeep Subramanian的回答
  • Quora User的回答
  • Sumit Soman 的回答
  • Abhishek Ghose的回答
  • 原文地址:一只鳥的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131

    在分類中如何處理訓(xùn)練集中不平衡問題

    ??在很多機(jī)器學(xué)習(xí)任務(wù)中,訓(xùn)練集中可能會存在某個或某些類別下的樣本數(shù)遠(yuǎn)大于另一些類別下的樣本數(shù)目。即類別不平衡,為了使得學(xué)習(xí)達(dá)到更好的效果,因此需要解決該類別不平衡問題。

    Jason Brownlee的回答:

    原文標(biāo)題:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset?
    ??當(dāng)你在對一個類別不均衡的數(shù)據(jù)集進(jìn)行分類時(shí)得到了90%的準(zhǔn)確度(Accuracy)。當(dāng)你進(jìn)一步分析發(fā)現(xiàn),數(shù)據(jù)集的90%的樣本是屬于同一個類,并且分類器將所有的樣本都分類為該類。在這種情況下,顯然該分類器是無效的。并且這種無效是由于訓(xùn)練集中類別不均衡而導(dǎo)致的。?
    ??首先舉幾個所收到的郵件中關(guān)于類別不均衡的例子:

    • 在一個二分類問題中,訓(xùn)練集中class 1的樣本數(shù)比class 2的樣本數(shù)是60:1。使用邏輯回歸進(jìn)行分類,最后結(jié)果是其忽略了class 2,即其將所有的訓(xùn)練樣本都分類為class 1。
    • 在分類任務(wù)的數(shù)據(jù)集中,有三個類別,分別為A,B,C。在訓(xùn)練集中,A類的樣本占70%,B類的樣本占25%,C類的樣本占5%。最后我的分類器對類A的樣本過擬合了,而對其它兩個類別的樣本欠擬合。

    什么是類別不均衡問題

    ??類別數(shù)據(jù)不均衡是分類任務(wù)中一個典型的存在的問題。簡而言之,即數(shù)據(jù)集中,每個類別下的樣本數(shù)目相差很大。例如,在一個二分類問題中,共有100個樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個樣本的表征),其中80個樣本屬于class 1,其余的20個樣本屬于class 2,class 1:class2=80:20=4:1,這便屬于類別不均衡。當(dāng)然,類別不均衡問同樣會發(fā)生在多分類任務(wù)中。它們的解決方法是一樣的。因此,為了便于討論與理解,我們從二分類任務(wù)入手進(jìn)行講解。

    類別不均衡問題是現(xiàn)實(shí)中很常見的問題

    ??大部分分類任務(wù)中,各類別下的數(shù)據(jù)個數(shù)基本上不可能完全相等,但是一點(diǎn)點(diǎn)差異是不會產(chǎn)生任何影響與問題的。?
    ??在現(xiàn)實(shí)中有很多類別不均衡問題,它是常見的,并且也是合理的,符合人們期望的。如,在欺詐交易識別中,屬于欺詐交易的應(yīng)該是很少部分,即絕大部分交易是正常的,只有極少部分的交易屬于欺詐交易。這就是一個正常的類別不均衡問題。又如,在客戶流失的數(shù)據(jù)集中,絕大部分的客戶是會繼續(xù)享受其服務(wù)的(非流失對象),只有極少數(shù)部分的客戶不會再繼續(xù)享受其服務(wù)(流失對象)。一般而已,如果類別不平衡比例超過4:1,那么其分類器會大大地因?yàn)閿?shù)據(jù)不平衡性而無法滿足分類要求的。因此在構(gòu)建分類模型之前,需要對分類不均衡性問題進(jìn)行處理。?
    ??在前面,我們使用準(zhǔn)確度這個指標(biāo)來評價(jià)分類質(zhì)量,可以看出,在類別不均衡時(shí),準(zhǔn)確度這個評價(jià)指標(biāo)并不能work。因?yàn)榉诸惼鲗⑺械臉颖径挤诸惖酱箢愊旅鏁r(shí),該指標(biāo)值仍然會很高。即,該分類器偏向了大類這個類別的數(shù)據(jù)。

    八大解決方法

    • 可以擴(kuò)大數(shù)據(jù)集嗎??
      ??當(dāng)遇到類別不均衡問題時(shí),首先應(yīng)該想到,是否可能再增加數(shù)據(jù)(一定要有小類樣本數(shù)據(jù)),更多的數(shù)據(jù)往往戰(zhàn)勝更好的算法。因?yàn)闄C(jī)器學(xué)習(xí)是使用現(xiàn)有的數(shù)據(jù)多整個數(shù)據(jù)的分布進(jìn)行估計(jì),因此更多的數(shù)據(jù)往往能夠得到更多的分布信息,以及更好分布估計(jì)。即使再增加小類樣本數(shù)據(jù)時(shí),又增加了大類樣本數(shù)據(jù),也可以使用放棄一部分大類數(shù)據(jù)(即對大類數(shù)據(jù)進(jìn)行欠采樣)來解決。
    • 嘗試其它評價(jià)指標(biāo)?
      ??從前面的分析可以看出,準(zhǔn)確度這個評價(jià)指標(biāo)在類別不均衡的分類任務(wù)中并不能work,甚至進(jìn)行誤導(dǎo)(分類器不work,但是從這個指標(biāo)來看,該分類器有著很好的評價(jià)指標(biāo)得分)。因此在類別不均衡分類任務(wù)中,需要使用更有說服力的評價(jià)指標(biāo)來對分類器進(jìn)行評價(jià)。如何對不同的問題選擇有效的評價(jià)指標(biāo)參見這里。?
      ??上面的超鏈接中的文章,講述了如何對乳腺癌患者復(fù)發(fā)類別不均衡數(shù)據(jù)進(jìn)行分類。在文中,推薦了幾個比傳統(tǒng)的準(zhǔn)確度更有效的評價(jià)指標(biāo):

      • 混淆矩陣(Confusion Matrix):使用一個表格對分類器所預(yù)測的類別與其真實(shí)的類別的樣本統(tǒng)計(jì),分別為:TP、FN、FP與TN。
      • 精確度(Precision)
      • 召回率(Recall)
      • F1得分(F1 Score):精確度與找召回率的加權(quán)平均。

      ??特別是:

      • Kappa (Cohen kappa)
      • ROC曲線(ROC Curves):見Assessing and Comparing Classifier Performance with ROC Curves
    • 對數(shù)據(jù)集進(jìn)行重采樣?
      ??可以使用一些策略該減輕數(shù)據(jù)的不平衡程度。該策略便是采樣(sampling),主要有兩種采樣方法來降低數(shù)據(jù)的不平衡性。

      • 對小類的數(shù)據(jù)樣本進(jìn)行采樣來增加小類的數(shù)據(jù)樣本個數(shù),即過采樣(over-sampling ,采樣的個數(shù)大于該類樣本的個數(shù))。
      • 對大類的數(shù)據(jù)樣本進(jìn)行采樣來減少該類數(shù)據(jù)樣本的個數(shù),即欠采樣(under-sampling,采樣的次數(shù)少于該類樣本的個素)。

      ??采樣算法往往很容易實(shí)現(xiàn),并且其運(yùn)行速度快,并且效果也不錯。更詳細(xì)的內(nèi)容參見這里。?
      ??一些經(jīng)驗(yàn)法則:

      • 考慮對大類下的樣本(超過1萬、十萬甚至更多)進(jìn)行欠采樣,即刪除部分樣本;
      • 考慮對小類下的樣本(不足1為甚至更少)進(jìn)行過采樣,即添加部分樣本的副本;
      • 考慮嘗試隨機(jī)采樣與非隨機(jī)采樣兩種采樣方法;
      • 考慮對各類別嘗試不同的采樣比例,比一定是1:1,有時(shí)候1:1反而不好,因?yàn)榕c現(xiàn)實(shí)情況相差甚遠(yuǎn);
      • 考慮同時(shí)使用過采樣與欠采樣。
    • 嘗試產(chǎn)生人工數(shù)據(jù)樣本?
      ??一種簡單的人工樣本數(shù)據(jù)產(chǎn)生的方法便是,對該類下的所有樣本每個屬性特征的取值空間中隨機(jī)選取一個組成新的樣本,即屬性值隨機(jī)采樣。你可以使用基于經(jīng)驗(yàn)對屬性值進(jìn)行隨機(jī)采樣而構(gòu)造新的人工樣本,或者使用類似樸素貝葉斯方法假設(shè)各屬性之間互相獨(dú)立進(jìn)行采樣,這樣便可得到更多的數(shù)據(jù),但是無法保證屬性之前的線性關(guān)系(如果本身是存在的)。?
      ??有一個系統(tǒng)的構(gòu)造人工數(shù)據(jù)樣本的方法SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一種過采樣算法,它構(gòu)造新的小類樣本而不是產(chǎn)生小類中已有的樣本的副本,即該算法構(gòu)造的數(shù)據(jù)是新樣本,原數(shù)據(jù)集中不存在的。該基于距離度量選擇小類別下兩個或者更多的相似樣本,然后選擇其中一個樣本,并隨機(jī)選擇一定數(shù)量的鄰居樣本對選擇的那個樣本的一個屬性增加噪聲,每次處理一個屬性。這樣就構(gòu)造了更多的新生數(shù)據(jù)。具體可以參見原始論文。?
      ??這里有SMOTE算法的多個不同語言的實(shí)現(xiàn)版本:?
      • Python:?UnbalancedDataset模塊提供了SMOTE算法的多種不同實(shí)現(xiàn)版本,以及多種重采樣算法。
      • R:?DMwR package。
      • Weka:?SMOTE supervised filter。
    • 嘗試不同的分類算法?
      ??強(qiáng)烈建議不要對待每一個分類都使用自己喜歡而熟悉的分類算法。應(yīng)該使用不同的算法對其進(jìn)行比較,因?yàn)椴煌乃惴ㄊ褂糜诓煌娜蝿?wù)與數(shù)據(jù)。具體可以參見“Why you should be Spot-Checking Algorithms on your Machine Learning Problems”。?
      ??決策樹往往在類別不均衡數(shù)據(jù)上表現(xiàn)不錯。它使用基于類變量的劃分規(guī)則去創(chuàng)建分類樹,因此可以強(qiáng)制地將不同類別的樣本分開。目前流行的決策樹算法有:C4.5、C5.0、CART和Random Forest等。基于R編寫的決策樹參見這里。基于Python的Scikit-learn的CART使用參見這里。
    • 嘗試對模型進(jìn)行懲罰?
      ??你可以使用相同的分類算法,但是使用一個不同的角度,比如你的分類任務(wù)是識別那些小類,那么可以對分類器的小類樣本數(shù)據(jù)增加權(quán)值,降低大類樣本的權(quán)值(這種方法其實(shí)是產(chǎn)生了新的數(shù)據(jù)分布,即產(chǎn)生了新的數(shù)據(jù)集,譯者注),從而使得分類器將重點(diǎn)集中在小類樣本身上。一個具體做法就是,在訓(xùn)練分類器時(shí),若分類器將小類樣本分錯時(shí)額外增加分類器一個小類樣本分錯代價(jià),這個額外的代價(jià)可以使得分類器更加“關(guān)心”小類樣本。如penalized-SVM和penalized-LDA算法。?
      ??Weka中有一個懲罰模型的通用框架CostSensitiveClassifier,它能夠?qū)θ魏畏诸惼鬟M(jìn)行封裝,并且使用一個自定義的懲罰矩陣對分錯的樣本進(jìn)行懲罰。?
      ??如果你鎖定一個具體的算法時(shí),并且無法通過使用重采樣來解決不均衡性問題而得到較差的分類結(jié)果。這樣你便可以使用懲罰模型來解決不平衡性問題。但是,設(shè)置懲罰矩陣是一個復(fù)雜的事,因此你需要根據(jù)你的任務(wù)嘗試不同的懲罰矩陣,并選取一個較好的懲罰矩陣。
    • 嘗試一個新的角度理解問題?
      ??我們可以從不同于分類的角度去解決數(shù)據(jù)不均衡性問題,我們可以把那些小類的樣本作為異常點(diǎn)(outliers),因此該問題便轉(zhuǎn)化為異常點(diǎn)檢測(anomaly detection)與變化趨勢檢測問題(change detection)。?
      ??異常點(diǎn)檢測即是對那些罕見事件進(jìn)行識別。如通過機(jī)器的部件的振動識別機(jī)器故障,又如通過系統(tǒng)調(diào)用序列識別惡意程序。這些事件相對于正常情況是很少見的。?
      ??變化趨勢檢測類似于異常點(diǎn)檢測,不同在于其通過檢測不尋常的變化趨勢來識別。如通過觀察用戶模式或銀行交易來檢測用戶行為的不尋常改變。?
      ??將小類樣本作為異常點(diǎn)這種思維的轉(zhuǎn)變,可以幫助考慮新的方法去分離或分類樣本。這兩種方法從不同的角度去思考,讓你嘗試新的方法去解決問題。
    • 嘗試創(chuàng)新?
      ??仔細(xì)對你的問題進(jìn)行分析與挖掘,是否可以將你的問題劃分成多個更小的問題,而這些小問題更容易解決。你可以從這篇文章In classification, how do you handle an unbalanced training set?中得到靈感。例如:?
      • 將你的大類壓縮成小類;
      • 使用One Class分類器(將小類作為異常點(diǎn));
      • 使用集成方式,訓(xùn)練多個分類器,然后聯(lián)合這些分類器進(jìn)行分類;
      • ….

    ??這些想法只是冰山一角,你可以想到更多的有趣的和有創(chuàng)意的想法去解決問題。更多的想法參加Reddit的文章http://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set。

    選擇某一種方法并使用它

    ??你不必成為一個精通所有算法的算法奇才或者一個建立準(zhǔn)確而可靠的處理數(shù)據(jù)不平衡的模型的統(tǒng)計(jì)學(xué)家,你只需要根據(jù)你的問題的實(shí)際情況從上述算法或方法中去選擇一種或兩種方法去使用。希望上述的某些方法能夠解決你的問題。例如使用其它評價(jià)指標(biāo)或重采樣算法速度快并且有效。

    總結(jié)

    ??記住,其實(shí)并不知道哪種方法最適合你的任務(wù)與數(shù)據(jù),你可以使用一些啟發(fā)式規(guī)則或經(jīng)驗(yàn)去選擇某一個較優(yōu)算法。當(dāng)然最好的方法測試每一種算法,然后選擇最好的方法。最重要的是,從點(diǎn)滴開始做起,根據(jù)自己現(xiàn)有的知識,并不斷學(xué)習(xí)去一步步完善。

    Further Reading…

    ??這里有一些我認(rèn)為有價(jià)值的可供參考的相關(guān)資料,讓你進(jìn)一步去認(rèn)識與研究數(shù)據(jù)不平衡問題:

    • 相關(guān)書籍?
      • Imbalanced Learning: Foundations, Algorithms, and Applications
    • 相關(guān)論文?
      • Data Mining for Imbalanced Datasets: An Overview
      • Learning from Imbalanced Data
      • Addressing the Curse of Imbalanced Training Sets: One-Sided Selection (PDF)
      • A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data

    Sergey Feldman的回答:

    • 設(shè)超大類中樣本的個數(shù)是極小類中樣本個數(shù)的L倍,那么在隨機(jī)梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一個極小類中樣本進(jìn)行訓(xùn)練時(shí),訓(xùn)練L次。
    • 將大類中樣本劃分到L個聚類中,然后訓(xùn)練L個分類器,每個分類器使用大類中的一個簇與所有的小類樣本進(jìn)行訓(xùn)練得到。最后對這L個分類器采取少數(shù)服從多數(shù)對未知類別數(shù)據(jù)進(jìn)行分類,如果是連續(xù)值(預(yù)測),那么采用平均值。
    • 設(shè)小類中有N個樣本。將大類聚類成N個簇,然后使用每個簇的中心組成大類中的N個樣本,加上小類中所有的樣本進(jìn)行訓(xùn)練。
    • 無論你使用前面的何種方法,都對某個或某些類進(jìn)行了損害。為了不進(jìn)行損害,那么可以使用全部的訓(xùn)練集采用多種分類方法分別建立分類器而得到多個分類器,采用投票的方式對未知類別的數(shù)據(jù)進(jìn)行分類,如果是連續(xù)值(預(yù)測),那么采用平均值。
    • 在最近的ICML論文中,表明增加數(shù)據(jù)量使得已知分布的訓(xùn)練集的誤差增加了,即破壞了原有訓(xùn)練集的分布,從而可以提高分類器的性能。這篇論文與類別不平衡問題不相關(guān),因?yàn)樗[式地使用數(shù)學(xué)方式增加數(shù)據(jù)而使得數(shù)據(jù)集大小不變。但是,我認(rèn)為破壞原有的分布是有益的。
    • More details than you need: imho, the most interesting of the corrupting distributions is the blankout distribution, where you just zero out a random subset of features. Why is it interesting? Because you are helping your classifier be sturdier/hardier by giving it variations of your data that have essentially missing features. So it has to learn to classify correctly even in adverse conditions. 一個相關(guān)的想法是,在神經(jīng)網(wǎng)絡(luò)中,隨機(jī)選擇部分隱藏層單元來繼續(xù)訓(xùn)練(即,隨機(jī)去掉一部分隱藏層單元,(zeroed-out))。具體見http://web.stanford.edu/~sidaw/cgi-bin/home/lib/exe/fetch.php?media=papers:fastdropout.pdf

    Kripa Chettiar的回答:

    • 增加新數(shù)據(jù),可以使用SMOTE或SMOTEBoost產(chǎn)生人造數(shù)據(jù)。
    • 將大類壓縮。壓縮比例需要具體情況具體分析,取決于你所擁有的數(shù)據(jù)。例如,A類中有30個樣本,B類中有4000個樣本,那么你可以將B類壓縮成1000(進(jìn)行采樣)。
    • 可以結(jié)合1與2
    • 對于那種極小類是異常點(diǎn)的分類任務(wù),因此分類器需要學(xué)習(xí)到大類的決策分界面,即分類器是一個單個類分類器(One Class Classifier)。Weka中有相關(guān)的庫。
    • 獲得更多的數(shù)據(jù)。

    Roar Nyb?的回答:

    • 對小類進(jìn)行過采樣。并且使用集成模式會獲得更好的效果。

    Dan Levin的回答:

    • 一個很好的方法去處理非平衡數(shù)據(jù)問題,并且在理論上證明了。這個方法便是由Robert E. Schapire于1990年在Machine Learning提出的”The strength of weak learnability” ,該方法是一個boosting算法,它遞歸地訓(xùn)練三個弱學(xué)習(xí)器,然后將這三個弱學(xué)習(xí)器結(jié)合起形成一個強(qiáng)的學(xué)習(xí)器。我們可以使用這個算法的第一步去解決數(shù)據(jù)不平衡問題。?
      ??首先使用原始數(shù)據(jù)集訓(xùn)練第一個學(xué)習(xí)器L1。?
      ??然后使用50%在L1學(xué)習(xí)正確和50%學(xué)習(xí)錯誤的的那些樣本訓(xùn)練得到學(xué)習(xí)器L2,即從L1中學(xué)習(xí)錯誤的樣本集與學(xué)習(xí)正確的樣本集中,循環(huán)一邊采樣一個。?
      ??接著,使用L1與L2不一致的那些樣本去訓(xùn)練得到學(xué)習(xí)器L3。?
      ??最后,使用投票方式作為最后輸出。?
      ??那么如何使用該算法來解決類別不平衡問題呢??
      ??假設(shè)是一個二分類問題,大部分的樣本都是true類。讓L1輸出始終為true。使用50%在L1分類正確的與50%分類錯誤的樣本訓(xùn)練得到L2,即從L1中學(xué)習(xí)錯誤的樣本集與學(xué)習(xí)正確的樣本集中,循環(huán)一邊采樣一個。因此,L2的訓(xùn)練樣本是平衡的。L使用L1與L2分類不一致的那些樣本訓(xùn)練得到L3,即在L2中分類為false的那些樣本。最后,結(jié)合這三個分類器,采用投票的方式來決定分類結(jié)果,因此只有當(dāng)L2與L3都分類為false時(shí),最終結(jié)果才為false,否則true。?
      ??自己已經(jīng)在實(shí)踐中使用過很多次,并且效果都不錯。

    Kaushik Kasi的回答:

    • 對小類中的樣本進(jìn)行復(fù)制以增加該類中的樣本數(shù),但是可能會增加bias。
    • 對小類中的樣本通過調(diào)整特征值來人工生成樣本,而使得該類中樣本個數(shù)增多。如在圖像中,對一幅圖像進(jìn)行扭曲得到另一幅圖像,即改變了原圖像的某些特征值。但是該方法可能會產(chǎn)生現(xiàn)實(shí)中并存在的樣本。

    Quora User的回答:

    • 簡單快速的方法:對大類欠采樣或者對小類過采樣。
    • 更有效的方法:使用代價(jià)函數(shù)學(xué)習(xí)得到每個類的權(quán)值,大類的權(quán)值小,小類的權(quán)值大。剛開始,可以設(shè)置每個類別的權(quán)值與樣本個數(shù)比例的倒數(shù),然后可以使用過采樣進(jìn)行調(diào)優(yōu)。

    Dayvid Victor的回答:

    ??在類別不平衡中,以下幾個點(diǎn)需要注意:

    • 常規(guī)的分類評價(jià)指標(biāo)可能會失效,比如將所有的樣本都分類成大類,那么準(zhǔn)確率、精確率等都會很高。這種情況下,AUC時(shí)最好的評價(jià)指標(biāo)。
    • 你能夠使用原型選擇技術(shù)去降低不平衡水平。選擇那些重要的樣本。One-Sided Selection (OSS) 是一個預(yù)處理技術(shù)(模型訓(xùn)練之前使用),能夠處理類別不平衡問題。
    • 從另一個角度,可以增加小類的樣本個數(shù),可以使用過采樣與原型生成技術(shù)(prototype-generation techniques)。
    • 在K-Fold 校驗(yàn)中,每一份數(shù)據(jù)集中原則上應(yīng)該保持類別樣本比例一樣或者近似,如果每份數(shù)據(jù)集中小類樣本數(shù)目過少,那么應(yīng)該降低K的值,知道小類樣本的個數(shù)足夠。?
      ??一般來說,如果事前不對不平衡問題進(jìn)行處理,那么對于小類別的樣本則會錯誤率很高,即大部分甚至全部小類樣本都會分錯。

    Muktabh Mayank的回答:

    • 這里有一個類似SVM的方法來處理不平衡問題。具體參見這里。

    Sandeep Subramanian的回答:

    • 使用SMOTE(Synthetic Minority Oversampling TEchnique)方法人工生成小類數(shù)據(jù)。其類似于最近鄰算法。

    Quora User的回答:

    • 賦予小類樣本更高的訓(xùn)練權(quán)值
    • 對小類進(jìn)行過采樣
    • 某些時(shí)候,高不平衡性下仍然可以得到效果較好的訓(xùn)練結(jié)果。我認(rèn)為對于某些評價(jià)指標(biāo)是有意義的,如AUC。

    Sumit Soman?的回答:

    • 如果你使用SVM分類器進(jìn)行分類,那么可以使用Twin SVM(Twin Support Vector Machines for Pattern Classification),其能夠應(yīng)付類別不平衡問題。

    Abhishek Ghose的回答:

    ??參見:Abhishek Ghose’s answer to What’s the most efficient classification algorithm for unbalanced data sets? And what pre-processing could be done to optimize the score?

    原文:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

    總結(jié)

    以上是生活随笔為你收集整理的在机器学习分类中如何处理训练集中不平衡问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。