【图像分类】 标签噪声对分类性能会有什么样的影响?
不同類(lèi)型的噪聲會(huì)對(duì)模型的分類(lèi)性能產(chǎn)生什么樣的影響呢,讓我們一同進(jìn)行實(shí)驗(yàn),來(lái)探索那暗中作祟的標(biāo)簽噪聲!
作者&編輯 | 郭冰洋
1 簡(jiǎn)介
在數(shù)據(jù)集制作過(guò)程中,由于主觀、客觀的原因,會(huì)導(dǎo)致標(biāo)簽噪聲的出現(xiàn),其存在會(huì)對(duì)最終的分類(lèi)模型性能造成一定的影響。因此,在實(shí)際應(yīng)用過(guò)程中,總是要對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行清洗,以避免標(biāo)簽噪聲的干擾。
常見(jiàn)的標(biāo)簽噪聲包括跨類(lèi)別噪聲和隨機(jī)噪聲兩種。跨類(lèi)別噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片,被誤分至屬于數(shù)據(jù)集的另一確定類(lèi)別。隨機(jī)噪聲是指屬于數(shù)據(jù)集某一確定類(lèi)別的圖片中,有大量與類(lèi)別標(biāo)簽不相關(guān)的圖片,同時(shí)這些圖片不屬于數(shù)據(jù)集中的任何一類(lèi)。
本篇文章我們將以Cifar 10、Cifar 100數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),對(duì)標(biāo)簽噪聲進(jìn)行探究,以測(cè)試不同類(lèi)型、不同比例的噪聲對(duì)分類(lèi)模型的影響。
2 實(shí)驗(yàn)記錄
2.1 無(wú)標(biāo)簽噪聲的訓(xùn)練結(jié)果
首先我們通過(guò)構(gòu)建最基本的CNN網(wǎng)絡(luò)對(duì)兩個(gè)數(shù)據(jù)進(jìn)行分類(lèi),在正常圖片且無(wú)標(biāo)簽噪聲的情況下,Cifar 10和Cifar 100分別取得了89.2%和65.8%的準(zhǔn)確率,以此作為基礎(chǔ)結(jié)果,我們將分別添加不同的噪聲進(jìn)行對(duì)比。
2.2 含標(biāo)簽噪聲的訓(xùn)練結(jié)果
通過(guò)設(shè)置不同的噪聲類(lèi)別和比例,對(duì)其進(jìn)行訓(xùn)練后我們得出相應(yīng)的準(zhǔn)確率,可以發(fā)現(xiàn)隨著噪聲比例的增加,分類(lèi)模型的準(zhǔn)確率會(huì)受到相應(yīng)的影響,跨類(lèi)噪聲的影響明顯更大。
對(duì)比實(shí)驗(yàn)的結(jié)果告訴我們,標(biāo)簽噪聲的存在會(huì)對(duì)模型產(chǎn)生一定的影響,這一影響在數(shù)據(jù)集容量相對(duì)較少時(shí)會(huì)更加明顯,這是目前急需解決的一個(gè)問(wèn)題。
3 解決方案
3.1 混淆矩陣推理
為了減少噪聲的影響,最直接的方法是人工對(duì)數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽進(jìn)行一一篩選,但這樣會(huì)耗費(fèi)大量的人力和時(shí)間,并非最可取的方法。
在評(píng)價(jià)分類(lèi)模型的準(zhǔn)確率時(shí),我們往往會(huì)通過(guò)分析混淆矩陣以查看不同類(lèi)別的預(yù)測(cè)結(jié)果,通過(guò)混淆矩陣我們可以得到每個(gè)類(lèi)別預(yù)測(cè)正確和錯(cuò)誤的個(gè)數(shù),近似的認(rèn)為預(yù)測(cè)錯(cuò)誤的類(lèi)別屬于跨類(lèi)標(biāo)簽噪聲。
在跨類(lèi)噪聲比例20%的情況下,我們得出相應(yīng)的混淆矩陣結(jié)果如上表所示,可以看出每個(gè)類(lèi)別中均有預(yù)測(cè)錯(cuò)誤的樣本出現(xiàn)。
針對(duì)這些錯(cuò)誤的預(yù)測(cè)樣本,隨機(jī)將其劃入其他類(lèi)別,并進(jìn)行重新訓(xùn)練,若混淆矩陣的預(yù)測(cè)結(jié)果可以得到進(jìn)一步的提升,則保留圖像至該正確樣本。
通過(guò)3次的迭代訓(xùn)練,我們對(duì)模型的結(jié)果進(jìn)行重新評(píng)估,可以發(fā)現(xiàn)其準(zhǔn)確率得到的非常大的提升。
3.2 數(shù)據(jù)統(tǒng)計(jì)分析
除了上述根據(jù)混淆矩陣的結(jié)果進(jìn)行迭代修正的方法,目前主流的方法還包括數(shù)據(jù)統(tǒng)計(jì)分析,即通過(guò)對(duì)現(xiàn)有的圖像數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,借助回歸分析、分箱分析等傳統(tǒng)的機(jī)器學(xué)習(xí)算法,事先剔除不屬于某一類(lèi)別的圖像,然后進(jìn)行訓(xùn)練。隨后再對(duì)剔除的圖像進(jìn)行測(cè)試,得到對(duì)應(yīng)的預(yù)測(cè)類(lèi)別后重新劃分?jǐn)?shù)據(jù)集,再進(jìn)行重新訓(xùn)練。
總結(jié)
迭代訓(xùn)練的方式可以減少人工修改標(biāo)簽的時(shí)間,但同樣會(huì)消耗一定的訓(xùn)練時(shí)間,目前還沒(méi)有一個(gè)完全高效妥善的方式可以解決這一問(wèn)題,因此還需要各位去發(fā)掘更多更有效的算法去解決這一問(wèn)題。
有三AI夏季劃
有三AI夏季劃進(jìn)行中,歡迎了解并加入,系統(tǒng)性成長(zhǎng)為中級(jí)CV算法工程師。
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
往期精選
總結(jié)
以上是生活随笔為你收集整理的【图像分类】 标签噪声对分类性能会有什么样的影响?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【知识星球】剪枝量化初完结,蒸馏学习又上
- 下一篇: 【每周CV论文推荐】 深度学习人脸检测入