日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多分类器算法的思想

發(fā)布時間:2025/3/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多分类器算法的思想 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一. 基本思想

在之前的博客中,我們討論了邏輯回歸模型(Logistic Regression)解決分類問題。但是我們發(fā)現(xiàn),邏輯回歸模型解決的是二分問題。但是在現(xiàn)實情境下,我們的訓練集往往包含多個類,那我們可不可以把把多分類問題轉化為二分類問題呢?答案是肯定的。多分類問題的基本思想就是,將多分類任務拆解為若干個二分類任務求解

二. 拆分策略

假設樣本數(shù)據(jù)中有N個類別。

1. 一對一拆分(OvO)

  • 基本思想:
    將N個類別兩兩匹配,每次使用2個類別的數(shù)據(jù)訓練分類器,從而產(chǎn)生N(N?1)/2個二分類器。使用時,將樣本提交給所有的分類器,得到了N(N?1)/2個結果,最終屬于哪個類別通過投票產(chǎn)生。
  • 分類器個數(shù):
    N(N?1)/2個
  • 特點:
    分類器較多,且每個分類器在訓練時只使用了2個類別的樣本數(shù)據(jù)。

2. 一對多拆分(OvR)

  • 基本思想:
    每次將一個類作為樣例的正例,其他所有均作為反例,得到N個分類器。也就是說,每個分類器能識別一個固定類別。使用時,若有一個分類器為正類,則就為該類別;若有多個分類器為正類,則選擇置信度最高的分類器識別的類別。
  • 分類器個數(shù):
    N個
  • 特點:
    相比OvO分類器較少,且每個分類器在訓練時使用了所有樣本數(shù)據(jù)。

3. 多對多拆分(MvM)

  • 基本思想:
    每次將若干個類作為正例、若干個類作為反例。顯然OvO、OvR都是其特例。MvM的正、反類設計必須有特殊的設計,常用的一種技術:”糾錯輸出碼”,簡稱ECOC。
    ECOC是將編碼的思想引入類別的劃分,并可能在解碼過程中具有容錯性。ECOC工作過程主要分為兩步:
    1.對N個類做M次劃分,每次劃分將一部分作為正類,一部分劃分反類,從而形成一個二分類訓練集。一共產(chǎn)生M個訓練集,訓練出M個分類器。
    2.M個分類器分別對測試樣本進行預測,這些預測標記組成一個編碼。將這個預測編碼與每個類各自的編碼進行比較,返回其中距離最小的類別作為最終結果。

  • 分類器個數(shù):
    M個
  • 特點:
    對同一個學習任務來說,ECOC編碼越長,糾錯能力越強。然而編碼越長所需要的訓練的分類器越多,計算存儲開銷都會增大;另一方面對于有限類別碼長超過一定范圍就沒有意義了。對于同等長度的編碼,理論上來說,任務兩個類別之間的編碼距離越遠,則糾錯能力越強。

三. 類別不平衡問題

我們在之前討論的分類問題中,往往都是假設樣本是平衡的,也就是正類與反類的樣本個數(shù)相近。但實際中,很有可能正類與反類個數(shù)差別懸殊。我們假設有這種情況,訓練數(shù)據(jù)有反例998個,正例2個,模型是一個永遠將新樣本預測為反例的學習器,就能達到99.8%的精度,這樣顯然是不合理的。
解決這個問題,主要有3種方法:(假設反類個數(shù)大于正類)

1.欠采樣法

對訓練集里的反例樣本進行“欠采樣”,即去除一些反例使得正反例數(shù)目接近,再進行學習。由于丟棄很多反例,會使得訓練集遠小于初始訓練集,所以有可能導致欠擬合。所以提出以下策略

代表算法:EasyEnsemble

利用集成學習機制,每次從大多數(shù)類中抽取和少數(shù)類數(shù)目差不多的重新組合,總共構成n個新的訓練集,基于每個訓練集訓練出一個AdaBoost分類器(帶閾值),最后結合之前訓練分類器結果加權求和減去閾值確定最終分類類別。

2. 過采樣法

增加一些正例使得正反例數(shù)目接近,然后再學習。需要注意的是不能只是對初始正例樣本重復采樣,否則導致嚴重的過擬合。所以提出以下策略

代表算法:SMOTE

合成新的少數(shù)樣本的策略是,對每個少類a樣本,從最近鄰中隨機選一個樣本b,在a、b之間連線上隨機選一點作為合成新樣本。

3. 再縮放思想

一般我們在訓練模型時,正反樣本數(shù)目是相近的,所以在邏輯回歸中,φ(z)≥0.5判斷為1類,反之為0類。

但如果訓練集中正反例數(shù)目相差懸殊,令m+表示正例數(shù)目,m-表示反例數(shù)目,假設訓練集是無偏采樣,觀測幾率就代表了真實幾率,只要分類器的預測幾率高于觀測幾率就判定為正例,即

?

即判定為正例,實際上想想也很簡單,本來是假設正負例各占一半,所以是0.5,現(xiàn)在類別樣本數(shù)目不均衡,所以需要大于實際正例數(shù)目所占比
實際上,再縮放實際操作起來不現(xiàn)實,因為假設的前提訓練集是真實的樣本總體的無偏采樣往往不成立,所以觀測幾率未必反映真實幾率。



作者:躺在稻田里的小白菜
鏈接:https://www.jianshu.com/p/70a842f327c0
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯(lián)系作者獲得授權并注明出處。

總結

以上是生活随笔為你收集整理的多分类器算法的思想的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。