论文精读:用于少样本目标检测的元调整损失函数和数据增强(Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection)
論文鏈接:Meta-Tuning Loss Functions and Data Augmentation for Few-Shot Object Detection
Abstract
現(xiàn)階段的少樣本學(xué)習(xí)技術(shù)可以分為兩類:基于微調(diào)(fine-tuning)方法和基于元學(xué)習(xí)(meta-learning)方法。
基于元學(xué)習(xí)的方法旨在學(xué)習(xí)專用的元模型,使用學(xué)到的先驗(yàn)知識(shí)處理新的類,而基于微調(diào)的方法以更簡(jiǎn)單的方式處理少樣本檢測(cè),通過(guò)基于梯度的優(yōu)化將檢測(cè)模型適應(yīng)新領(lǐng)域的目標(biāo)。基于微調(diào)的方法相對(duì)簡(jiǎn)單,但通常能夠獲得更好的檢測(cè)結(jié)果。
基于此,作者將重點(diǎn)關(guān)注損失函數(shù)和數(shù)據(jù)增強(qiáng)對(duì)微調(diào)的影響,并使用元學(xué)習(xí)的思想去動(dòng)態(tài)調(diào)整參數(shù)。因此,提出的訓(xùn)練方案允許學(xué)習(xí)能促進(jìn)少樣本檢測(cè)的歸納偏置,從而增強(qiáng)少樣本檢測(cè),同時(shí)保持微調(diào)方法的優(yōu)點(diǎn)。
歸納偏置:為了實(shí)現(xiàn)泛化,一定的偏好(或者稱為歸納偏置)是必要的,也就說(shuō)在新數(shù)據(jù)集上實(shí)現(xiàn)泛化需要對(duì)最優(yōu)解做出合理假設(shè)。引入歸納偏置的方式有很多,例如在目標(biāo)函數(shù)中加入正則項(xiàng)。
1. Introduction
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的問(wèn)題之一,依賴于大規(guī)模注釋數(shù)據(jù)集,但由于數(shù)據(jù)集的收集和標(biāo)注成本,催生出了一系列對(duì)標(biāo)注數(shù)據(jù)要求較低的目標(biāo)檢測(cè)方法,例如結(jié)合弱監(jiān)督學(xué)習(xí)、點(diǎn)注釋(point annotations)和混合監(jiān)督學(xué)習(xí)。類似的還有少樣本目標(biāo)檢測(cè)(Few-Shot Object Detection, FSOD)。
在FSOD問(wèn)題上,目標(biāo)是通過(guò)遷移學(xué)習(xí),用在大規(guī)模圖像上訓(xùn)練的模型,為具有少量樣本標(biāo)記的新類構(gòu)建檢測(cè)模型。還有就是廣義少樣本目標(biāo)檢測(cè)(Generalized-FSOD, G-FSOD),目標(biāo)是要構(gòu)建在基礎(chǔ)類和新類都表現(xiàn)良好的少樣本檢測(cè)模型。
FSOD分為元學(xué)習(xí)的方法與微調(diào)的方法。現(xiàn)階段,微調(diào)的方法在這一問(wèn)題上表現(xiàn)更為出色。微調(diào)的方法是典型的遷移學(xué)習(xí),基于梯度優(yōu)化進(jìn)行對(duì)正則化損失最小化,使預(yù)訓(xùn)練模型適應(yīng)少樣本類別。
雖然能夠?qū)iT的參數(shù)進(jìn)行訓(xùn)練的FSOD的元學(xué)習(xí)方法很有吸引力,但有兩個(gè)重要的缺點(diǎn):1、由于模型復(fù)雜性,有著過(guò)擬合訓(xùn)練類的風(fēng)險(xiǎn);2、難以解釋學(xué)到的內(nèi)容。相對(duì)的,基于微調(diào)的FSOD方法簡(jiǎn)單且通用。
為什么說(shuō)“難以解釋學(xué)到的內(nèi)容”:除了廣為詬病的“神經(jīng)網(wǎng)絡(luò)模型是黑盒子”說(shuō)法,還可能是因?yàn)樵獙W(xué)習(xí)涉及多個(gè)任務(wù)的訓(xùn)練,任務(wù)之間亦有差異,這使得難以找到的通用的解釋方法。
但是,基于微調(diào)的FSOD方法的最大優(yōu)點(diǎn)也可能是最大缺點(diǎn):它們普遍保留基類的知識(shí),沒(méi)有在很少的樣本上學(xué)習(xí)到歸納偏置。為了解決這些問(wèn)題,許多方法在微調(diào)的細(xì)節(jié)切入,例如:Frustratingly Simple Few-Shot Object Detection提出凍結(jié)一部分參數(shù)然后微調(diào)檢測(cè)模型的最后一層;FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding修改了損失函數(shù)。然而這些這些針對(duì)少樣本類的特定優(yōu)化方式,由于都是手工完成,所以并不一定是最優(yōu)的。
還是為了解決這些問(wèn)題,作者引入元學(xué)習(xí)的思想,在FSOD的微調(diào)階段調(diào)整損失函數(shù)和數(shù)據(jù)增強(qiáng),這個(gè)過(guò)程稱為元微調(diào)(meta-tuning),如圖1所示。
具體來(lái)說(shuō),就像元學(xué)習(xí)訓(xùn)練元模型一樣,以數(shù)據(jù)驅(qū)動(dòng)的方式逐步發(fā)現(xiàn)適合FSOD的最佳損失函數(shù)和數(shù)據(jù)(細(xì)節(jié))增強(qiáng)。使用強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的技術(shù)調(diào)整損失函數(shù)與數(shù)據(jù)增強(qiáng),最大化微調(diào)后的FSOD模型質(zhì)量。作者通過(guò)對(duì)設(shè)置的損失項(xiàng)和增強(qiáng)列表進(jìn)行調(diào)整,將搜索限制在有效的函數(shù)族內(nèi)。最后將元學(xué)習(xí)調(diào)整的損失函數(shù)和增強(qiáng)以及FSOD特定的歸納偏置與微調(diào)方法相結(jié)合。
為了探索meta-tuning對(duì)于FSOD的潛力,作者將重點(diǎn)關(guān)注分類損失的細(xì)節(jié)(FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding展示了,在目標(biāo)檢測(cè)問(wèn)題中,分類和定位中,分類更容易出錯(cuò))。此外,作者首先關(guān)注了softmax的溫度參數(shù),設(shè)定了兩個(gè)版本:1、簡(jiǎn)單的恒定溫度參數(shù);2、隨微調(diào)迭代變化的動(dòng)態(tài)溫度,用指數(shù)多項(xiàng)式表示。
在所有情況下,通過(guò)meta-tuning學(xué)習(xí)的參數(shù)都會(huì)產(chǎn)生可解釋的損失函數(shù),與復(fù)雜的元模型相比,在基類上過(guò)擬合的風(fēng)險(xiǎn)可以忽略不計(jì)。作者還在meta-tuning過(guò)程中對(duì)數(shù)據(jù)增強(qiáng)的進(jìn)行建模,作者還引入了分?jǐn)?shù)縮放器,用于平衡學(xué)習(xí)基類和新類的分?jǐn)?shù)。
2. Related Word(略)
3. Method
每張訓(xùn)練圖片對(duì)應(yīng)元組\((x,y)\),包括圖像\(x\)和標(biāo)注\(y=\{y_0,\dots,y_M\}\),每個(gè)對(duì)象的標(biāo)注\(y_i=\{c_i,b_i\}\)表示類別標(biāo)簽\(c_i\)和檢測(cè)邊界\(b_i=\{x_i,y_i,w_i,h_i\}\)。當(dāng)FSOD模型訓(xùn)練完成,評(píng)估階段使用k張圖片,圖像的類來(lái)自新的類集合\(C_n\)。
對(duì)于基礎(chǔ)模型,作者使用MPSR FSOD方法 作為損失函數(shù)和數(shù)據(jù)增強(qiáng)搜索方法的基礎(chǔ)。為了使Faster-RCNN適應(yīng)基于微調(diào)的FSOD,引入了多尺度位置采樣調(diào)整(Multi-Scale Positive Sample Refinement, MPSR)分支來(lái)處理尺度稀疏問(wèn)題
圖像中的對(duì)象被裁剪并調(diào)整為多種尺寸以創(chuàng)建對(duì)象金字塔。MPSR對(duì)區(qū)域提議網(wǎng)絡(luò)(Region Prosed Network, RPN)和檢測(cè)頭使用兩組損失函數(shù),并將不同比例的正樣本與主檢測(cè)分支檢測(cè)結(jié)果一起反饋到損失函數(shù)中。最后,作者認(rèn)為所提出的方法原則上可以應(yīng)用于幾乎任何基于微調(diào)的 FSOD 模型。
3.1 Meta-Tuning損失函數(shù)
對(duì)于元調(diào)整的FSOD,將重點(diǎn)關(guān)注分類損失函數(shù)(正如上文所述,分類比檢測(cè)更容易出錯(cuò))。對(duì)于MPSR的損失函數(shù)表示為:
\[\mathcal{l}_{cls}(x,y)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)}}{\sum_y=e^{f(x_i,y)}}) \tag{1} \]其中\(N_{ROI}\)是圖像的候選區(qū)域,\(y_i\)是第i個(gè)ROI的真實(shí)標(biāo)簽,\(f(x_i,y)\)是對(duì)應(yīng)y的預(yù)測(cè)分?jǐn)?shù)。為了使損失函數(shù)更靈活,重新定了損失函數(shù):\(\mathcal{l}_{cls}(x,y;\rho)\),其中\(\rho\)表示損失函數(shù)的參數(shù)。首先引入了溫度標(biāo)量\(\rho_\tau\),即\(\rho=(\rho_\tau)\)。
\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)/\rho_\tau}}{\sum_{y'}=e^{f(x_i,y')/\rho_\tau}}) \tag{2} \]引入的動(dòng)機(jī)是來(lái)自溫度縮放在其他問(wèn)題的表現(xiàn),例如知識(shí)蒸餾。對(duì)比手動(dòng)調(diào)整的方式,這里引入元調(diào)整,通過(guò)定義動(dòng)態(tài)溫度函數(shù)\(f_p\)和新類縮放器\(\alpha\)使損失函數(shù)更復(fù)雜:
\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{\alpha(y_i)e^{f(x_i,y_i)/f_p(t)}}{\sum_{y'}=e^{\alpha(y')f(x_i,y')/f_p(t)}}) \tag{3} \]其中\(f_p(t)=\exp(\rho_at^2+\rho_bt+\rho_c)\),這里\(\rho=(\rho_a,\rho_b,\rho_c)\)是多項(xiàng)式系數(shù)三元組,\(t\in[0,1]\)為歸一化后的微調(diào)迭代索引。\(y\in C_b\)時(shí),\(\alpha(y)=1\);否則用縮放系數(shù)\(\rho_\alpha\)平衡基類和新類的學(xué)習(xí)。
3.2 Meta-tuning增強(qiáng)
對(duì)于元調(diào)整的數(shù)據(jù)增強(qiáng)部分,考慮到在基類學(xué)習(xí)的結(jié)果要遷移到新類,作者專注于光度增強(qiáng)。作者使用共享的增強(qiáng)幅度參數(shù)\(\rho_{aug}\)對(duì)亮度、飽和度和色調(diào)進(jìn)行建模。在Randaugment: Practical Automated Data Augmentation With a Reduced Search Space證明了這是有效的。
3.3 Meta-tuning過(guò)程
作者使用基于強(qiáng)化學(xué)習(xí)的REINFORCE去搜索最佳損失函數(shù)和增強(qiáng)。
為了提高泛化能力,設(shè)置了代理任務(wù):在基類訓(xùn)練數(shù)據(jù)上,模范新類的FSOD任務(wù)。為此,基類被分為兩個(gè)子集,代理基類\(C_{p-base}\)和代理新類\(C_{p-novel}\)。同時(shí),使用基類訓(xùn)練集分割構(gòu)造3個(gè)不重疊的數(shù)據(jù)集:
- \(D_{p-pretrain}\),僅包含\(C_{p-base}\)的樣本,用來(lái)訓(xùn)練臨時(shí)的目標(biāo)檢測(cè)模型進(jìn)行元調(diào)整;
- \(D_{p-support}\),包含\(C_{p-base}\cup C_{p-novel}\),在元調(diào)整期間充當(dāng)微調(diào)數(shù)據(jù);
- \(D_{p-query}\),包含\(C_{p-base}\cup C_{p-novel}\),在元調(diào)整期間評(píng)估廣義FSOD性能。
就像元學(xué)習(xí)的task,本文設(shè)置了一系列FSOD代理任務(wù):在每個(gè)代理任務(wù)T,從\(D_{p-support}\)選擇訓(xùn)練數(shù)據(jù)。此外,還有對(duì)損失函數(shù)/增強(qiáng)幅度的參數(shù)組合\(\rho\),這里每個(gè)\(\rho_j\in\rho\)服從高斯分布:\(\rho_j\sim\mathcal{N}(\mu_j,\sigma^2)\)。
使用采樣的\(\rho\)對(duì)應(yīng)的損失函數(shù)或數(shù)據(jù)增強(qiáng),在支持圖像上基于梯度優(yōu)化微調(diào)初始模型,并在\(D_{p-query}\)計(jì)算平均精度(mean Average Precision, mAP)。通過(guò)在多個(gè)代理任務(wù)支持樣本上多次重復(fù)該過(guò)程獲得多個(gè)mAP分?jǐn)?shù),然后在每一次訓(xùn)練之后,通過(guò)REFORCE規(guī)則更新\(\mu\)進(jìn)行元調(diào)整,以找到表現(xiàn)良好的\(\rho\)。
\[\mu'_j\leftarrow\mu_j+\eta R(\rho)\nabla_\mu\log(p(\rho_j;\mu_j,\sigma))\tag{4} \]其中\(p(\rho;\mu,\sigma)\)是高斯密度函數(shù),\(\eta\)是RL學(xué)習(xí)率。
我們以每次訓(xùn)練得到獎(jiǎng)勵(lì)最高的\(\rho\)作為REFORCE更新規(guī)則。\(R(\rho)\)是通過(guò)白化后的mAP分?jǐn)?shù)獲得的歸一化獎(jiǎng)勵(lì)函數(shù).
白化:白化的目的是使得預(yù)處理后的數(shù)據(jù)具有以下特性:1、特征之間的相關(guān)性盡可能小;2、所有特征具有相同的方差;3、所有特征具有相同的均值。
最后,從\(\sigma=0.1\)開(kāi)始,在RL迭代中減小\(\sigma\),通過(guò)更保守的采樣逐步減小探索,從而提高收斂性,最終方案如圖2所示(作者真正的工作是“ROI Cls Loss”和下方根據(jù)AP更新\(\mu\)的部分,Refinement Branch與Object Detection來(lái)自MPSR):
4. Experiments
對(duì)于指標(biāo)的設(shè)置,作者選擇mAP分別評(píng)估基礎(chǔ)類和新類的檢測(cè)結(jié)果。在廣義FSOD評(píng)估中,選擇調(diào)和平均值(Harmony Mean, HM)來(lái)計(jì)算性能,HM定義為\(\mathrm{mAP_{base}}\)和\(\mathrm{mAP_{novel}}\)的均值。
對(duì)于數(shù)據(jù)集。在Pascal VOC上存在3個(gè)獨(dú)立的基類/新類,其中每個(gè)由15個(gè)基類和5個(gè)新類組成。在每次分割,選擇5個(gè)基類模仿代理任務(wù)上的新類。在MS-COCO上,選擇15個(gè)基類模仿代理任務(wù)上的新類,并評(píng)估10-shot和30-shot的情況。
對(duì)于Baseline,作者使用了MPSR和DeFRCN,兩種FSOD上的SOTA算法
4.1 主要結(jié)果
作者首先將元調(diào)整結(jié)果與MPSR基線進(jìn)行比較,如表1所示。
- Meta-Static:使用固定的溫度參數(shù);
- Meta-Dynamic:使用動(dòng)態(tài)溫度參數(shù)(公式(3)無(wú)\(\alpha\));
- Meta-ScaledDynamic:使用新類縮放動(dòng)態(tài)溫度函數(shù)(公式(3));
- Aug:表示數(shù)據(jù)增強(qiáng)。
可以看到,隨著算法改進(jìn)和數(shù)據(jù)增強(qiáng)參數(shù)的添加,整體的表現(xiàn)得到了提高。
表2中展示不同算法在Pascal VOC上的對(duì)比,可以看到作者的方法在FSOD和G-FSOD上都取得了最高的得分。結(jié)果表明,將元學(xué)習(xí)的得到的歸納偏置與微調(diào)相結(jié)合是有效的。
4.2 消融研究
消融研究設(shè)計(jì)了元微調(diào)的三個(gè)細(xì)節(jié):
- 代理任務(wù)的模仿:在代理任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí),用來(lái)模仿測(cè)試時(shí)的FSOD。
- 模型重新初始化:在每個(gè)代理任務(wù)上重新初始化模型,以避免累積的模型更新對(duì)獎(jiǎng)勵(lì)的不良影響。
- 獎(jiǎng)勵(lì)歸一化:通過(guò)標(biāo)準(zhǔn)化單個(gè)任務(wù)中獲得的獎(jiǎng)勵(lì)來(lái)進(jìn)一步減少任務(wù)間方差的影響,從而允許對(duì)采樣的損失函數(shù)和增強(qiáng)進(jìn)行更獨(dú)立的評(píng)估。
在表4中展示使用Pascal VOC Split-1 和 MPSR+Meta-Dynamic和5-shot在G-FSOD上的表現(xiàn)。
圖4中展示了公式(2)和公式(3)使用的損失函數(shù)的相關(guān)參數(shù)訓(xùn)練變化。
5. Conclusion
基于微調(diào)的少樣本目標(biāo)檢測(cè)模型簡(jiǎn)單可靠。但現(xiàn)有的微調(diào)改進(jìn)都是使用手工的方式,作者提出引入元學(xué)習(xí)和強(qiáng)化學(xué)習(xí),為小樣本學(xué)習(xí)引入歸納偏置,使損失函數(shù)和數(shù)據(jù)增強(qiáng)幅度的學(xué)習(xí)變化可解釋。最后,提出的元調(diào)整方式在數(shù)據(jù)集上取得較好的性能提升。
參考文獻(xiàn)
- 【深度學(xué)習(xí)】歸納偏置(Inductive Biases)
- 知識(shí)蒸餾(Knowledge Distillation)簡(jiǎn)述(一)
- Model-Agnostic Meta-Learning (MAML)模型介紹及算法詳解
總結(jié)
以上是生活随笔為你收集整理的论文精读:用于少样本目标检测的元调整损失函数和数据增强(Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: van-dialog弹窗异步关闭-校验表
- 下一篇: 从一道题来看看golang中的slice