日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【图像分类】 标签噪声对分类性能会有什么样的影响?

發(fā)布時(shí)間:2025/3/20 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【图像分类】 标签噪声对分类性能会有什么样的影响? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

不同類(lèi)型的噪聲會(huì)對(duì)模型的分類(lèi)性能產(chǎn)生什么樣的影響呢,讓我們一同進(jìn)行實(shí)驗(yàn),來(lái)探索那暗中作祟的標(biāo)簽噪聲!

作者&編輯 | 郭冰洋

1 簡(jiǎn)介

在數(shù)據(jù)集制作過(guò)程中,由于主觀、客觀的原因,會(huì)導(dǎo)致標(biāo)簽噪聲的出現(xiàn),其存在會(huì)對(duì)最終的分類(lèi)模型性能造成一定的影響。因此,在實(shí)際應(yīng)用過(guò)程中,總是要對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行清洗,以避免標(biāo)簽噪聲的干擾。

常見(jiàn)的標(biāo)簽噪聲包括跨類(lèi)別噪聲和隨機(jī)噪聲兩種。跨類(lèi)別噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片,被誤分至屬于數(shù)據(jù)集的另一確定類(lèi)別。隨機(jī)噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片中,有大量與類(lèi)別標(biāo)簽不相關(guān)的圖片,同時(shí)這些圖片不屬于數(shù)據(jù)集中的任何一類(lèi)。

本篇文章我們將以Cifar 10、Cifar 100數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),對(duì)標(biāo)簽噪聲進(jìn)行探究,以測(cè)試不同類(lèi)型、不同比例的噪聲對(duì)分類(lèi)模型的影響。

2 實(shí)驗(yàn)記錄

2.1 無(wú)標(biāo)簽噪聲的訓(xùn)練結(jié)果

首先我們通過(guò)構(gòu)建最基本的CNN網(wǎng)絡(luò)對(duì)兩個(gè)數(shù)據(jù)進(jìn)行分類(lèi),在正常圖片且無(wú)標(biāo)簽噪聲的情況下,Cifar 10和Cifar 100分別取得了89.2%和65.8%的準(zhǔn)確率,以此作為基礎(chǔ)結(jié)果,我們將分別添加不同的噪聲進(jìn)行對(duì)比。

2.2 含標(biāo)簽噪聲的訓(xùn)練結(jié)果

通過(guò)設(shè)置不同的噪聲類(lèi)別和比例,對(duì)其進(jìn)行訓(xùn)練后我們得出相應(yīng)的準(zhǔn)確率,可以發(fā)現(xiàn)隨著噪聲比例的增加,分類(lèi)模型的準(zhǔn)確率會(huì)受到相應(yīng)的影響,跨類(lèi)噪聲的影響明顯更大。

對(duì)比實(shí)驗(yàn)的結(jié)果告訴我們,標(biāo)簽噪聲的存在會(huì)對(duì)模型產(chǎn)生一定的影響,這一影響在數(shù)據(jù)集容量相對(duì)較少時(shí)會(huì)更加明顯,這是目前急需解決的一個(gè)問(wèn)題。

3 解決方案

3.1 混淆矩陣推理

為了減少噪聲的影響,最直接的方法是人工對(duì)數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽進(jìn)行一一篩選,但這樣會(huì)耗費(fèi)大量的人力和時(shí)間,并非最可取的方法。

在評(píng)價(jià)分類(lèi)模型的準(zhǔn)確率時(shí),我們往往會(huì)通過(guò)分析混淆矩陣以查看不同類(lèi)別的預(yù)測(cè)結(jié)果,通過(guò)混淆矩陣我們可以得到每個(gè)類(lèi)別預(yù)測(cè)正確和錯(cuò)誤的個(gè)數(shù),近似的認(rèn)為預(yù)測(cè)錯(cuò)誤的類(lèi)別屬于跨類(lèi)標(biāo)簽噪聲。

在跨類(lèi)噪聲比例20%的情況下,我們得出相應(yīng)的混淆矩陣結(jié)果如上表所示,可以看出每個(gè)類(lèi)別中均有預(yù)測(cè)錯(cuò)誤的樣本出現(xiàn)。

針對(duì)這些錯(cuò)誤的預(yù)測(cè)樣本,隨機(jī)將其劃入其他類(lèi)別,并進(jìn)行重新訓(xùn)練,若混淆矩陣的預(yù)測(cè)結(jié)果可以得到進(jìn)一步的提升,則保留圖像至該正確樣本。

通過(guò)3次的迭代訓(xùn)練,我們對(duì)模型的結(jié)果進(jìn)行重新評(píng)估,可以發(fā)現(xiàn)其準(zhǔn)確率得到的非常大的提升。

3.2 數(shù)據(jù)統(tǒng)計(jì)分析

除了上述根據(jù)混淆矩陣的結(jié)果進(jìn)行迭代修正的方法,目前主流的方法還包括數(shù)據(jù)統(tǒng)計(jì)分析,即通過(guò)對(duì)現(xiàn)有的圖像數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,借助回歸分析、分箱分析等傳統(tǒng)的機(jī)器學(xué)習(xí)算法,事先剔除不屬于某一類(lèi)別的圖像,然后進(jìn)行訓(xùn)練。隨后再對(duì)剔除的圖像進(jìn)行測(cè)試,得到對(duì)應(yīng)的預(yù)測(cè)類(lèi)別后重新劃分?jǐn)?shù)據(jù)集,再進(jìn)行重新訓(xùn)練。

總結(jié)

迭代訓(xùn)練的方式可以減少人工修改標(biāo)簽的時(shí)間,但同樣會(huì)消耗一定的訓(xùn)練時(shí)間,目前還沒(méi)有一個(gè)完全高效妥善的方式可以解決這一問(wèn)題,因此還需要各位去發(fā)掘更多更有效的算法去解決這一問(wèn)題。

有三AI夏季劃

有三AI夏季劃進(jìn)行中,歡迎了解并加入,系統(tǒng)性成長(zhǎng)為中級(jí)CV算法工程師。

轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系

侵權(quán)必究

往期精選

總結(jié)

以上是生活随笔為你收集整理的【图像分类】 标签噪声对分类性能会有什么样的影响?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。