日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NeurIPS 2021 | 通过寻找平坦最小值,克服小样本增量学习中的灾难性遗忘

發(fā)布時(shí)間:2024/10/8 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NeurIPS 2021 | 通过寻找平坦最小值,克服小样本增量学习中的灾难性遗忘 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 | FlyingBug

單位 | 哈爾濱工業(yè)大學(xué)(深圳)

研究方向 | 小樣本學(xué)習(xí)

寫在篇首

本文分享的這篇論文是 NeurIPS?2021的一篇 Few-Shot 增量學(xué)習(xí) (FSCIL) 文章,這篇文章通過固定 backbone 和 prototype 得到一個(gè)簡單的 baseline,發(fā)現(xiàn)這個(gè) baseline 已經(jīng)可以打敗當(dāng)前 IL 和 IFSL 的很多 SOTA 方法,基于此通過借鑒 robust optimize 的方法,提出了在 base training 訓(xùn)練時(shí)通過 flat local minima 來對后面的 session 進(jìn)行 fine-tune novel classes,解決災(zāi)難性遺忘問題。

論文標(biāo)題:

Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima

收錄會議:

NeurIPS 2021

論文鏈接:

https://arxiv.org/pdf/2111.01549.pdf

代碼鏈接:

https://github.com/moukamisama/F2M

Motivation

不同于現(xiàn)有方法在學(xué)習(xí)新任務(wù)時(shí)嘗試克服災(zāi)難性遺忘問題,這篇文章提出在訓(xùn)練 base classes 時(shí)就提出策略來解決這個(gè)問題。作者提出找到 base training function 的 flat local minima,最小值附近 loss 小,作者認(rèn)為 base classes 分離地更好(直覺上,flat local minima 會比 sharp 的泛化效果更好,參閱下圖 [2])。

1.2 Contribution

作者發(fā)現(xiàn)一個(gè)簡單的 baseline model,只要在 base classes 上訓(xùn)練,不在 new tasks 上進(jìn)行適應(yīng),就超過了現(xiàn)有的 SOTA 方法,說明災(zāi)難性遺忘問題非常嚴(yán)重。作者提出在 primitive stage 來解決災(zāi)難性遺忘問題,通過在 base classes 上訓(xùn)練時(shí)找到 flat minima region 并在該 region 內(nèi)學(xué)習(xí)新任務(wù),模型能夠更好地克服遺忘問題。

1.3 A Simple Baseline?

作者提出了一個(gè)簡單的 baseline,模型只在 base classes 上進(jìn)行訓(xùn)練,在后續(xù)的 session 上直接進(jìn)行推理。

Training(t=1)

在session 1上對特征提取器進(jìn)行訓(xùn)練,并使用一個(gè)全連接層作為分類器,使用 CE Loss 作為損失函數(shù),從session 2 () 開始將特征提取器固定住,不使用 novel classes 進(jìn)行任何 fine-tune 操作。

Inference(test)

使用均值方式獲得每個(gè)類的 prototype,然后通過歐氏距離 采用最近鄰方式進(jìn)行分類。分類器的公式如下:

其中 表示類別 的 prototype, 表示類別 的訓(xùn)練圖片數(shù)量。同時(shí)作者將 中所有類的 prototypes 保存下來用于后續(xù)的 evaluation。

作者表示通過這種保存 old prototype 的方式就打敗了現(xiàn)有的 SOTA 方法,證明了災(zāi)難性遺忘非常嚴(yán)重。

1.4 Method

核心想法就是在 base training 的過程中找到函數(shù)的 flat local minima ,并在后續(xù)的 few-shot session 中在 flat region 進(jìn)行 fine-tune,這樣可以最大限度地保證在 novel classes 上進(jìn)行 fine-tune 時(shí)避免遺忘知識。在后續(xù)增量 few-shot sessions () 中,在這個(gè) flat region 進(jìn)行 fine-tune 模型參數(shù)來學(xué)習(xí) new classes。

1.4.1 尋找Base Training的flat local minima

為了找到 base training function 的近似 flat local minima,作者提出添加一些隨機(jī)噪聲到模型參數(shù),噪聲可以被多次添加以獲得相似但不同的 loss function,直覺上,flat local minima 附近的參數(shù)向量有小的函數(shù)值。

假設(shè)模型的參數(shù) , 表示特征提取網(wǎng)絡(luò)的參數(shù), 表示分類器的參數(shù)。 表示一個(gè)有類標(biāo)訓(xùn)練樣本,損失函數(shù) 。我們的目標(biāo)就是最小化期望損失函數(shù)。

?是數(shù)據(jù)分布 是噪聲分布, 和 是相互獨(dú)立的。

因此最小化期望損失是不可能的,所以這里我們最小化他的近似,empirical loss:

?是 , 是采樣次數(shù)。這個(gè) loss 的前半部分是為了找到 flat region,它的特征提取網(wǎng)絡(luò)參數(shù) 可以很好地區(qū)分 base classes。第二部分是通過 MSE Loss 的設(shè)計(jì)為了讓 prototype 盡量保持不變, 避免模型遺忘過去的知識。

1.4.2 在Flat Region內(nèi)進(jìn)行IFSL?

作者認(rèn)為雖然 flat region 很小,但對于 few-shot 的少量樣本來說,足夠?qū)δP瓦M(jìn)行迭代更新。

通過歐氏距離使用基于度量的分類算法來 fine-tune 模型參數(shù)。

1.4.3 收斂性分析?

我們的目標(biāo)是找到一個(gè) flat region 使模型效果較好。然后,通過最小化期望損失(噪聲 和數(shù)據(jù) 的聯(lián)合分布)。為了近似這個(gè)期望損失,我們在每次迭代中多次從 采樣,并使用隨機(jī)梯度下降 (SGD) 優(yōu)化目標(biāo)函數(shù)。后面是相關(guān)的理論證明,感興趣的可以自行閱讀分析。

參考文獻(xiàn)

[1] Shi G, Chen J, Zhang W, et al. Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima[J]. Advances in Neural Information Processing Systems, 2021, 34.?

[2] He H, Huang G, Yuan Y. Asymmetric valleys: Beyond sharp and flat local minima[J]. arXiv preprint arXiv:1902.00744, 2019.

更多閱讀



#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的NeurIPS 2021 | 通过寻找平坦最小值,克服小样本增量学习中的灾难性遗忘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。