當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

论文精读：用于少样本目标检测的元调整损失函数和数据增强（Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection）

發(fā)布時(shí)間：2023/11/16 windows 134 coder

生活随笔收集整理的這篇文章主要介紹了论文精读：用于少样本目标检测的元调整损失函数和数据增强（Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文鏈接：Meta-Tuning Loss Functions and Data Augmentation for Few-Shot Object Detection

Abstract

現(xiàn)階段的少樣本學(xué)習(xí)技術(shù)可以分為兩類：基于微調(diào)（fine-tuning）方法和基于元學(xué)習(xí)（meta-learning）方法。

基于元學(xué)習(xí)的方法旨在學(xué)習(xí)專用的元模型，使用學(xué)到的先驗(yàn)知識(shí)處理新的類，而基于微調(diào)的方法以更簡(jiǎn)單的方式處理少樣本檢測(cè)，通過(guò)基于梯度的優(yōu)化將檢測(cè)模型適應(yīng)新領(lǐng)域的目標(biāo)。基于微調(diào)的方法相對(duì)簡(jiǎn)單，但通常能夠獲得更好的檢測(cè)結(jié)果。

基于此，作者將重點(diǎn)關(guān)注損失函數(shù)和數(shù)據(jù)增強(qiáng)對(duì)微調(diào)的影響，并使用元學(xué)習(xí)的思想去動(dòng)態(tài)調(diào)整參數(shù)。因此，提出的訓(xùn)練方案允許學(xué)習(xí)能促進(jìn)少樣本檢測(cè)的歸納偏置，從而增強(qiáng)少樣本檢測(cè)，同時(shí)保持微調(diào)方法的優(yōu)點(diǎn)。

歸納偏置：為了實(shí)現(xiàn)泛化，一定的偏好（或者稱為歸納偏置）是必要的，也就說(shuō)在新數(shù)據(jù)集上實(shí)現(xiàn)泛化需要對(duì)最優(yōu)解做出合理假設(shè)。引入歸納偏置的方式有很多，例如在目標(biāo)函數(shù)中加入正則項(xiàng)。

1. Introduction

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的問(wèn)題之一，依賴于大規(guī)模注釋數(shù)據(jù)集，但由于數(shù)據(jù)集的收集和標(biāo)注成本，催生出了一系列對(duì)標(biāo)注數(shù)據(jù)要求較低的目標(biāo)檢測(cè)方法，例如結(jié)合弱監(jiān)督學(xué)習(xí)、點(diǎn)注釋（point annotations）和混合監(jiān)督學(xué)習(xí)。類似的還有少樣本目標(biāo)檢測(cè)（Few-Shot Object Detection, FSOD）。

在FSOD問(wèn)題上，目標(biāo)是通過(guò)遷移學(xué)習(xí)，用在大規(guī)模圖像上訓(xùn)練的模型，為具有少量樣本標(biāo)記的新類構(gòu)建檢測(cè)模型。還有就是廣義少樣本目標(biāo)檢測(cè)（Generalized-FSOD, G-FSOD），目標(biāo)是要構(gòu)建在基礎(chǔ)類和新類都表現(xiàn)良好的少樣本檢測(cè)模型。

FSOD分為元學(xué)習(xí)的方法與微調(diào)的方法。現(xiàn)階段，微調(diào)的方法在這一問(wèn)題上表現(xiàn)更為出色。微調(diào)的方法是典型的遷移學(xué)習(xí)，基于梯度優(yōu)化進(jìn)行對(duì)正則化損失最小化，使預(yù)訓(xùn)練模型適應(yīng)少樣本類別。

雖然能夠?qū)ｉT的參數(shù)進(jìn)行訓(xùn)練的FSOD的元學(xué)習(xí)方法很有吸引力，但有兩個(gè)重要的缺點(diǎn)：1、由于模型復(fù)雜性，有著過(guò)擬合訓(xùn)練類的風(fēng)險(xiǎn)；2、難以解釋學(xué)到的內(nèi)容。相對(duì)的，基于微調(diào)的FSOD方法簡(jiǎn)單且通用。

為什么說(shuō)“難以解釋學(xué)到的內(nèi)容”：除了廣為詬病的“神經(jīng)網(wǎng)絡(luò)模型是黑盒子”說(shuō)法，還可能是因?yàn)樵獙W(xué)習(xí)涉及多個(gè)任務(wù)的訓(xùn)練，任務(wù)之間亦有差異，這使得難以找到的通用的解釋方法。

但是，基于微調(diào)的FSOD方法的最大優(yōu)點(diǎn)也可能是最大缺點(diǎn)：它們普遍保留基類的知識(shí)，沒(méi)有在很少的樣本上學(xué)習(xí)到歸納偏置。為了解決這些問(wèn)題，許多方法在微調(diào)的細(xì)節(jié)切入，例如：Frustratingly Simple Few-Shot Object Detection提出凍結(jié)一部分參數(shù)然后微調(diào)檢測(cè)模型的最后一層；FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding修改了損失函數(shù)。然而這些這些針對(duì)少樣本類的特定優(yōu)化方式，由于都是手工完成，所以并不一定是最優(yōu)的。

還是為了解決這些問(wèn)題，作者引入元學(xué)習(xí)的思想，在FSOD的微調(diào)階段調(diào)整損失函數(shù)和數(shù)據(jù)增強(qiáng)，這個(gè)過(guò)程稱為元微調(diào)（meta-tuning），如圖1所示。

具體來(lái)說(shuō)，就像元學(xué)習(xí)訓(xùn)練元模型一樣，以數(shù)據(jù)驅(qū)動(dòng)的方式逐步發(fā)現(xiàn)適合FSOD的最佳損失函數(shù)和數(shù)據(jù)（細(xì)節(jié)）增強(qiáng)。使用強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）的技術(shù)調(diào)整損失函數(shù)與數(shù)據(jù)增強(qiáng)，最大化微調(diào)后的FSOD模型質(zhì)量。作者通過(guò)對(duì)設(shè)置的損失項(xiàng)和增強(qiáng)列表進(jìn)行調(diào)整，將搜索限制在有效的函數(shù)族內(nèi)。最后將元學(xué)習(xí)調(diào)整的損失函數(shù)和增強(qiáng)以及FSOD特定的歸納偏置與微調(diào)方法相結(jié)合。

為了探索meta-tuning對(duì)于FSOD的潛力，作者將重點(diǎn)關(guān)注分類損失的細(xì)節(jié)（FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding展示了，在目標(biāo)檢測(cè)問(wèn)題中，分類和定位中，分類更容易出錯(cuò)）。此外，作者首先關(guān)注了softmax的溫度參數(shù)，設(shè)定了兩個(gè)版本：1、簡(jiǎn)單的恒定溫度參數(shù)；2、隨微調(diào)迭代變化的動(dòng)態(tài)溫度，用指數(shù)多項(xiàng)式表示。

在所有情況下，通過(guò)meta-tuning學(xué)習(xí)的參數(shù)都會(huì)產(chǎn)生可解釋的損失函數(shù)，與復(fù)雜的元模型相比，在基類上過(guò)擬合的風(fēng)險(xiǎn)可以忽略不計(jì)。作者還在meta-tuning過(guò)程中對(duì)數(shù)據(jù)增強(qiáng)的進(jìn)行建模，作者還引入了分?jǐn)?shù)縮放器，用于平衡學(xué)習(xí)基類和新類的分?jǐn)?shù)。

3. Method

每張訓(xùn)練圖片對(duì)應(yīng)元組\((x,y)\)，包括圖像\(x\)和標(biāo)注\(y=\{y_0,\dots,y_M\}\)，每個(gè)對(duì)象的標(biāo)注\(y_i=\{c_i,b_i\}\)表示類別標(biāo)簽\(c_i\)和檢測(cè)邊界\(b_i=\{x_i,y_i,w_i,h_i\}\)。當(dāng)FSOD模型訓(xùn)練完成，評(píng)估階段使用k張圖片，圖像的類來(lái)自新的類集合\(C_n\)。

對(duì)于基礎(chǔ)模型，作者使用MPSR FSOD方法作為損失函數(shù)和數(shù)據(jù)增強(qiáng)搜索方法的基礎(chǔ)。為了使Faster-RCNN適應(yīng)基于微調(diào)的FSOD，引入了多尺度位置采樣調(diào)整（Multi-Scale Positive Sample Refinement, MPSR）分支來(lái)處理尺度稀疏問(wèn)題

圖像中的對(duì)象被裁剪并調(diào)整為多種尺寸以創(chuàng)建對(duì)象金字塔。MPSR對(duì)區(qū)域提議網(wǎng)絡(luò)（Region Prosed Network, RPN）和檢測(cè)頭使用兩組損失函數(shù)，并將不同比例的正樣本與主檢測(cè)分支檢測(cè)結(jié)果一起反饋到損失函數(shù)中。最后，作者認(rèn)為所提出的方法原則上可以應(yīng)用于幾乎任何基于微調(diào)的 FSOD 模型。

3.1 Meta-Tuning損失函數(shù)

對(duì)于元調(diào)整的FSOD，將重點(diǎn)關(guān)注分類損失函數(shù)（正如上文所述，分類比檢測(cè)更容易出錯(cuò)）。對(duì)于MPSR的損失函數(shù)表示為：

\[\mathcal{l}_{cls}(x,y)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)}}{\sum_y=e^{f(x_i,y)}}) \tag{1} \]

其中\(N_{ROI}\)是圖像的候選區(qū)域，\(y_i\)是第i個(gè)ROI的真實(shí)標(biāo)簽，\(f(x_i,y)\)是對(duì)應(yīng)y的預(yù)測(cè)分?jǐn)?shù)。為了使損失函數(shù)更靈活，重新定了損失函數(shù)：\(\mathcal{l}_{cls}(x,y;\rho)\)，其中\(\rho\)表示損失函數(shù)的參數(shù)。首先引入了溫度標(biāo)量\(\rho_\tau\)，即\(\rho=(\rho_\tau)\)。

\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)/\rho_\tau}}{\sum_{y'}=e^{f(x_i,y')/\rho_\tau}}) \tag{2} \]

引入的動(dòng)機(jī)是來(lái)自溫度縮放在其他問(wèn)題的表現(xiàn)，例如知識(shí)蒸餾。對(duì)比手動(dòng)調(diào)整的方式，這里引入元調(diào)整，通過(guò)定義動(dòng)態(tài)溫度函數(shù)\(f_p\)和新類縮放器\(\alpha\)使損失函數(shù)更復(fù)雜：

\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{\alpha(y_i)e^{f(x_i,y_i)/f_p(t)}}{\sum_{y'}=e^{\alpha(y')f(x_i,y')/f_p(t)}}) \tag{3} \]

其中\(f_p(t)=\exp(\rho_at^2+\rho_bt+\rho_c)\)，這里\(\rho=(\rho_a,\rho_b,\rho_c)\)是多項(xiàng)式系數(shù)三元組，\(t\in[0,1]\)為歸一化后的微調(diào)迭代索引。\(y\in C_b\)時(shí)，\(\alpha(y)=1\)；否則用縮放系數(shù)\(\rho_\alpha\)平衡基類和新類的學(xué)習(xí)。

3.2 Meta-tuning增強(qiáng)

對(duì)于元調(diào)整的數(shù)據(jù)增強(qiáng)部分，考慮到在基類學(xué)習(xí)的結(jié)果要遷移到新類，作者專注于光度增強(qiáng)。作者使用共享的增強(qiáng)幅度參數(shù)\(\rho_{aug}\)對(duì)亮度、飽和度和色調(diào)進(jìn)行建模。在Randaugment: Practical Automated Data Augmentation With a Reduced Search Space證明了這是有效的。

3.3 Meta-tuning過(guò)程

作者使用基于強(qiáng)化學(xué)習(xí)的REINFORCE去搜索最佳損失函數(shù)和增強(qiáng)。

為了提高泛化能力，設(shè)置了代理任務(wù)：在基類訓(xùn)練數(shù)據(jù)上，模范新類的FSOD任務(wù)。為此，基類被分為兩個(gè)子集，代理基類\(C_{p-base}\)和代理新類\(C_{p-novel}\)。同時(shí)，使用基類訓(xùn)練集分割構(gòu)造3個(gè)不重疊的數(shù)據(jù)集：

\(D_{p-pretrain}\)，僅包含\(C_{p-base}\)的樣本，用來(lái)訓(xùn)練臨時(shí)的目標(biāo)檢測(cè)模型進(jìn)行元調(diào)整；
\(D_{p-support}\)，包含\(C_{p-base}\cup C_{p-novel}\)，在元調(diào)整期間充當(dāng)微調(diào)數(shù)據(jù)；
\(D_{p-query}\)，包含\(C_{p-base}\cup C_{p-novel}\)，在元調(diào)整期間評(píng)估廣義FSOD性能。

就像元學(xué)習(xí)的task，本文設(shè)置了一系列FSOD代理任務(wù)：在每個(gè)代理任務(wù)T，從\(D_{p-support}\)選擇訓(xùn)練數(shù)據(jù)。此外，還有對(duì)損失函數(shù)/增強(qiáng)幅度的參數(shù)組合\(\rho\)，這里每個(gè)\(\rho_j\in\rho\)服從高斯分布：\(\rho_j\sim\mathcal{N}(\mu_j,\sigma^2)\)。

使用采樣的\(\rho\)對(duì)應(yīng)的損失函數(shù)或數(shù)據(jù)增強(qiáng)，在支持圖像上基于梯度優(yōu)化微調(diào)初始模型，并在\(D_{p-query}\)計(jì)算平均精度（mean Average Precision, mAP）。通過(guò)在多個(gè)代理任務(wù)支持樣本上多次重復(fù)該過(guò)程獲得多個(gè)mAP分?jǐn)?shù)，然后在每一次訓(xùn)練之后，通過(guò)REFORCE規(guī)則更新\(\mu\)進(jìn)行元調(diào)整，以找到表現(xiàn)良好的\(\rho\)。

\[\mu'_j\leftarrow\mu_j+\eta R(\rho)\nabla_\mu\log(p(\rho_j;\mu_j,\sigma))\tag{4} \]

其中\(p(\rho;\mu,\sigma)\)是高斯密度函數(shù)，\(\eta\)是RL學(xué)習(xí)率。

我們以每次訓(xùn)練得到獎(jiǎng)勵(lì)最高的\(\rho\)作為REFORCE更新規(guī)則。\(R(\rho)\)是通過(guò)白化后的mAP分?jǐn)?shù)獲得的歸一化獎(jiǎng)勵(lì)函數(shù).

白化：白化的目的是使得預(yù)處理后的數(shù)據(jù)具有以下特性：1、特征之間的相關(guān)性盡可能小；2、所有特征具有相同的方差；3、所有特征具有相同的均值。

最后，從\(\sigma=0.1\)開(kāi)始，在RL迭代中減小\(\sigma\)，通過(guò)更保守的采樣逐步減小探索，從而提高收斂性，最終方案如圖2所示（作者真正的工作是“ROI Cls Loss”和下方根據(jù)AP更新\(\mu\)的部分，Refinement Branch與Object Detection來(lái)自MPSR）：

4. Experiments

對(duì)于指標(biāo)的設(shè)置，作者選擇mAP分別評(píng)估基礎(chǔ)類和新類的檢測(cè)結(jié)果。在廣義FSOD評(píng)估中，選擇調(diào)和平均值（Harmony Mean, HM）來(lái)計(jì)算性能，HM定義為\(\mathrm{mAP_{base}}\)和\(\mathrm{mAP_{novel}}\)的均值。

對(duì)于數(shù)據(jù)集。在Pascal VOC上存在3個(gè)獨(dú)立的基類/新類，其中每個(gè)由15個(gè)基類和5個(gè)新類組成。在每次分割，選擇5個(gè)基類模仿代理任務(wù)上的新類。在MS-COCO上，選擇15個(gè)基類模仿代理任務(wù)上的新類，并評(píng)估10-shot和30-shot的情況。

對(duì)于Baseline，作者使用了MPSR和DeFRCN，兩種FSOD上的SOTA算法

4.1 主要結(jié)果

作者首先將元調(diào)整結(jié)果與MPSR基線進(jìn)行比較,如表1所示。

Meta-Static：使用固定的溫度參數(shù)；
Meta-Dynamic：使用動(dòng)態(tài)溫度參數(shù)（公式（3）無(wú)\(\alpha\)）；
Meta-ScaledDynamic：使用新類縮放動(dòng)態(tài)溫度函數(shù)（公式（3））；
Aug：表示數(shù)據(jù)增強(qiáng)。

可以看到，隨著算法改進(jìn)和數(shù)據(jù)增強(qiáng)參數(shù)的添加，整體的表現(xiàn)得到了提高。

表2中展示不同算法在Pascal VOC上的對(duì)比，可以看到作者的方法在FSOD和G-FSOD上都取得了最高的得分。結(jié)果表明，將元學(xué)習(xí)的得到的歸納偏置與微調(diào)相結(jié)合是有效的。

圖3第一行、第二行分別展示了沒(méi)有元調(diào)整和有元調(diào)整（帶縮放動(dòng)態(tài)溫度和數(shù)據(jù)增強(qiáng)）的視覺(jué)檢測(cè)實(shí)例。可以看到誤報(bào)減少、框更準(zhǔn)確。表3中展示了在MS-COCO上的對(duì)比，除了遜色于DeFRCN和LVC-PL，較其他算法都有改進(jìn)。

4.2 消融研究

消融研究設(shè)計(jì)了元微調(diào)的三個(gè)細(xì)節(jié)：

代理任務(wù)的模仿：在代理任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)，用來(lái)模仿測(cè)試時(shí)的FSOD。
模型重新初始化：在每個(gè)代理任務(wù)上重新初始化模型，以避免累積的模型更新對(duì)獎(jiǎng)勵(lì)的不良影響。
獎(jiǎng)勵(lì)歸一化：通過(guò)標(biāo)準(zhǔn)化單個(gè)任務(wù)中獲得的獎(jiǎng)勵(lì)來(lái)進(jìn)一步減少任務(wù)間方差的影響，從而允許對(duì)采樣的損失函數(shù)和增強(qiáng)進(jìn)行更獨(dú)立的評(píng)估。

在表4中展示使用Pascal VOC Split-1 和 MPSR+Meta-Dynamic和5-shot在G-FSOD上的表現(xiàn)。

圖4中展示了公式（2）和公式（3）使用的損失函數(shù)的相關(guān)參數(shù)訓(xùn)練變化。

5. Conclusion

基于微調(diào)的少樣本目標(biāo)檢測(cè)模型簡(jiǎn)單可靠。但現(xiàn)有的微調(diào)改進(jìn)都是使用手工的方式，作者提出引入元學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，為小樣本學(xué)習(xí)引入歸納偏置，使損失函數(shù)和數(shù)據(jù)增強(qiáng)幅度的學(xué)習(xí)變化可解釋。最后，提出的元調(diào)整方式在數(shù)據(jù)集上取得較好的性能提升。

參考文獻(xiàn)

【深度學(xué)習(xí)】歸納偏置（Inductive Biases）
知識(shí)蒸餾（Knowledge Distillation）簡(jiǎn)述（一）
Model-Agnostic Meta-Learning （MAML）模型介紹及算法詳解

總結(jié)

以上是生活随笔為你收集整理的论文精读：用于少样本目标检测的元调整损失函数和数据增强（Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： van-dialog弹窗异步关闭-校验表
下一篇：从一道题来看看golang中的slice