當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【图像分类】标签噪声对分类性能会有什么样的影响？

發(fā)布時(shí)間：2025/3/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了【图像分类】标签噪声对分类性能会有什么样的影响？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

不同類(lèi)型的噪聲會(huì)對(duì)模型的分類(lèi)性能產(chǎn)生什么樣的影響呢，讓我們一同進(jìn)行實(shí)驗(yàn)，來(lái)探索那暗中作祟的標(biāo)簽噪聲！

作者&編輯 | 郭冰洋

1 簡(jiǎn)介

在數(shù)據(jù)集制作過(guò)程中，由于主觀、客觀的原因，會(huì)導(dǎo)致標(biāo)簽噪聲的出現(xiàn)，其存在會(huì)對(duì)最終的分類(lèi)模型性能造成一定的影響。因此，在實(shí)際應(yīng)用過(guò)程中，總是要對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行清洗，以避免標(biāo)簽噪聲的干擾。

常見(jiàn)的標(biāo)簽噪聲包括跨類(lèi)別噪聲和隨機(jī)噪聲兩種。跨類(lèi)別噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片，被誤分至屬于數(shù)據(jù)集的另一確定類(lèi)別。隨機(jī)噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片中，有大量與類(lèi)別標(biāo)簽不相關(guān)的圖片，同時(shí)這些圖片不屬于數(shù)據(jù)集中的任何一類(lèi)。

本篇文章我們將以Cifar 10、Cifar 100數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)，對(duì)標(biāo)簽噪聲進(jìn)行探究，以測(cè)試不同類(lèi)型、不同比例的噪聲對(duì)分類(lèi)模型的影響。

2 實(shí)驗(yàn)記錄

2.1 無(wú)標(biāo)簽噪聲的訓(xùn)練結(jié)果

首先我們通過(guò)構(gòu)建最基本的CNN網(wǎng)絡(luò)對(duì)兩個(gè)數(shù)據(jù)進(jìn)行分類(lèi)，在正常圖片且無(wú)標(biāo)簽噪聲的情況下，Cifar 10和Cifar 100分別取得了89.2%和65.8%的準(zhǔn)確率，以此作為基礎(chǔ)結(jié)果，我們將分別添加不同的噪聲進(jìn)行對(duì)比。

2.2 含標(biāo)簽噪聲的訓(xùn)練結(jié)果

通過(guò)設(shè)置不同的噪聲類(lèi)別和比例，對(duì)其進(jìn)行訓(xùn)練后我們得出相應(yīng)的準(zhǔn)確率，可以發(fā)現(xiàn)隨著噪聲比例的增加，分類(lèi)模型的準(zhǔn)確率會(huì)受到相應(yīng)的影響，跨類(lèi)噪聲的影響明顯更大。

對(duì)比實(shí)驗(yàn)的結(jié)果告訴我們，標(biāo)簽噪聲的存在會(huì)對(duì)模型產(chǎn)生一定的影響，這一影響在數(shù)據(jù)集容量相對(duì)較少時(shí)會(huì)更加明顯，這是目前急需解決的一個(gè)問(wèn)題。

3 解決方案

3.1 混淆矩陣推理

為了減少噪聲的影響，最直接的方法是人工對(duì)數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽進(jìn)行一一篩選，但這樣會(huì)耗費(fèi)大量的人力和時(shí)間，并非最可取的方法。

在評(píng)價(jià)分類(lèi)模型的準(zhǔn)確率時(shí)，我們往往會(huì)通過(guò)分析混淆矩陣以查看不同類(lèi)別的預(yù)測(cè)結(jié)果，通過(guò)混淆矩陣我們可以得到每個(gè)類(lèi)別預(yù)測(cè)正確和錯(cuò)誤的個(gè)數(shù)，近似的認(rèn)為預(yù)測(cè)錯(cuò)誤的類(lèi)別屬于跨類(lèi)標(biāo)簽噪聲。

在跨類(lèi)噪聲比例20%的情況下，我們得出相應(yīng)的混淆矩陣結(jié)果如上表所示，可以看出每個(gè)類(lèi)別中均有預(yù)測(cè)錯(cuò)誤的樣本出現(xiàn)。

針對(duì)這些錯(cuò)誤的預(yù)測(cè)樣本，隨機(jī)將其劃入其他類(lèi)別，并進(jìn)行重新訓(xùn)練，若混淆矩陣的預(yù)測(cè)結(jié)果可以得到進(jìn)一步的提升，則保留圖像至該正確樣本。

通過(guò)3次的迭代訓(xùn)練，我們對(duì)模型的結(jié)果進(jìn)行重新評(píng)估，可以發(fā)現(xiàn)其準(zhǔn)確率得到的非常大的提升。

3.2 數(shù)據(jù)統(tǒng)計(jì)分析

除了上述根據(jù)混淆矩陣的結(jié)果進(jìn)行迭代修正的方法，目前主流的方法還包括數(shù)據(jù)統(tǒng)計(jì)分析，即通過(guò)對(duì)現(xiàn)有的圖像數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理，借助回歸分析、分箱分析等傳統(tǒng)的機(jī)器學(xué)習(xí)算法，事先剔除不屬于某一類(lèi)別的圖像，然后進(jìn)行訓(xùn)練。隨后再對(duì)剔除的圖像進(jìn)行測(cè)試，得到對(duì)應(yīng)的預(yù)測(cè)類(lèi)別后重新劃分?jǐn)?shù)據(jù)集，再進(jìn)行重新訓(xùn)練。

總結(jié)

迭代訓(xùn)練的方式可以減少人工修改標(biāo)簽的時(shí)間，但同樣會(huì)消耗一定的訓(xùn)練時(shí)間，目前還沒(méi)有一個(gè)完全高效妥善的方式可以解決這一問(wèn)題，因此還需要各位去發(fā)掘更多更有效的算法去解決這一問(wèn)題。

有三AI夏季劃

有三AI夏季劃進(jìn)行中，歡迎了解并加入，系統(tǒng)性成長(zhǎng)為中級(jí)CV算法工程師。

轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系

侵權(quán)必究

往期精選

總結(jié)

以上是生活随笔為你收集整理的【图像分类】标签噪声对分类性能会有什么样的影响？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【知识星球】剪枝量化初完结，蒸馏学习又上
下一篇：【每周CV论文推荐】深度学习人脸检测入

编程问答

【图像分类】 标签噪声对分类性能会有什么样的影响？

總結(jié)

【图像分类】标签噪声对分类性能会有什么样的影响？