日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2019 Oral | 把Cross Entropy梯度分布拉‘平’,就能轻松超越Focal Loss

發(fā)布時(shí)間:2024/10/8 ChatGpt 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AAAI 2019 Oral | 把Cross Entropy梯度分布拉‘平’,就能轻松超越Focal Loss 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


單階段物體檢測(cè)(One-stage Object Detection)方法在模型訓(xùn)練過程中始終面臨著樣本分布嚴(yán)重不均衡的問題,來自香港中文大學(xué)的研究者們?cè)谡撐?Gradient Harmonized Single-stage Detector 提出了一個(gè)新的視角——梯度分布上看待樣本數(shù)量和難易不均衡。直接把 cross entropy 產(chǎn)生的 gradient distribution 標(biāo)準(zhǔn)化到 uniform 就可以輕松訓(xùn)練單階段物體檢測(cè)模型。


該論文已經(jīng)被 AAAI 2019 會(huì)議接受為 Oral 論文,基于 PyTorch+MMDet 的代碼已經(jīng)放出。


作者丨Lovely Zeng

學(xué)校丨CUHK

研究方向丨Detection




引言


物體檢測(cè)的方法主要分為單階段與兩階段兩大類。雖然兩階段的物體檢測(cè)器在準(zhǔn)確率上的表現(xiàn)往往更優(yōu),但單階段檢測(cè)器因其簡(jiǎn)潔的結(jié)構(gòu)和相對(duì)更快的速度同樣得到了研究者們的重視。


在 2017 年,Focal Loss 的作者指出了單階段檢測(cè)器中樣本類別(前景與背景)嚴(yán)重不均衡(class imbalance)的問題,并通過設(shè)計(jì)一個(gè)新的損失函數(shù)來抑制大量的簡(jiǎn)單背景樣本對(duì)模型訓(xùn)練的影響,從而改善了訓(xùn)練效果。


而在這篇論文中,研究者對(duì)樣本不均衡的本質(zhì)影響進(jìn)行了進(jìn)一步探討,找到了梯度分布這個(gè)更為深入的角度,并以此入手改進(jìn)了單階段檢測(cè)器的訓(xùn)練過程。?


實(shí)際上,不同類別樣本數(shù)不同并不是影響單階段檢測(cè)器的訓(xùn)練的本質(zhì)問題,因?yàn)楸尘皹颖倦m然大部分非常容易識(shí)別(well classified),但其中也會(huì)存在著比較像某類物體的難樣本(hard negative),而前景類中也有許多網(wǎng)絡(luò)很容易正確判斷的樣本(easy positive)。所以產(chǎn)生本質(zhì)影響的問題是不同難度樣本的分布不均衡。


更進(jìn)一步來看,每個(gè)樣本對(duì)模型訓(xùn)練的實(shí)質(zhì)作用是產(chǎn)生一個(gè)梯度用以更新模型的參數(shù),不同樣本對(duì)參數(shù)更新會(huì)產(chǎn)生不同的貢獻(xiàn)。


在單階段檢測(cè)器的訓(xùn)練中,簡(jiǎn)單樣本的數(shù)量非常大,它們產(chǎn)生的累計(jì)貢獻(xiàn)就在模型更新中就會(huì)有巨大的影響力甚至占據(jù)主導(dǎo)作用,而由于它們本身已經(jīng)被模型很好的判別,所以這部分的參數(shù)更新并不會(huì)改善模型的判斷能力,也就使整個(gè)訓(xùn)練變得低效。


基于這一點(diǎn),研究者對(duì)樣本梯度的分布進(jìn)行了統(tǒng)計(jì),并根據(jù)這個(gè)分布設(shè)計(jì)了一個(gè)梯度均衡機(jī)制(Gradient Harmonizing mechanism),使得模型訓(xùn)練更加高效與穩(wěn)健,并可以收斂到更好的結(jié)果(實(shí)驗(yàn)中取得了好于 Focal Loss 的表現(xiàn))。


梯度均衡機(jī)制


首先我們要定義統(tǒng)計(jì)對(duì)象——梯度模長(zhǎng)(gradient norm)。考慮簡(jiǎn)單的二分類交叉熵?fù)p失函數(shù)(binary cross entropy loss):



其中 p=sigmoid(x) 為模型所預(yù)測(cè)的樣本類別的概率,p* 是對(duì)應(yīng)的監(jiān)督。則其對(duì) x 的梯度(導(dǎo)數(shù))為:



于是我們可以定義一個(gè)梯度模長(zhǎng),g=|p-p*|。


對(duì)一個(gè)交叉熵?fù)p失函數(shù)訓(xùn)練收斂的單階段檢測(cè)模型,樣本梯度模長(zhǎng)的分布統(tǒng)計(jì)如下圖:



可以看到,絕大多數(shù)樣本都是十分容易預(yù)測(cè)的(well-classified),這些可以被準(zhǔn)確預(yù)測(cè)的樣本所占的比重非常大,正因如此圖中采用對(duì)數(shù)坐標(biāo)來更清楚地展示分布。


此外,還可以發(fā)現(xiàn)在 g 接近 1 的時(shí)候,樣本比例也相對(duì)較大,研究者認(rèn)為這是一些離群樣本(outlier),可能是由于數(shù)據(jù)標(biāo)注本身不夠準(zhǔn)確或是樣本比較特殊極難學(xué)習(xí)而造成的。對(duì)一個(gè)已收斂的模型來說,強(qiáng)行學(xué)好這些離群樣本可能會(huì)導(dǎo)致模型參數(shù)的較大偏差,反而會(huì)影響大多數(shù)已經(jīng)可以較好識(shí)別的樣本的判斷準(zhǔn)確率。


基于以上現(xiàn)象與分析,研究者提出了梯度均衡機(jī)制,即根據(jù)樣本梯度模長(zhǎng)分布的比例,進(jìn)行一個(gè)相應(yīng)的標(biāo)準(zhǔn)化(normalization),使得各種類型的樣本對(duì)模型參數(shù)更新有更均衡的貢獻(xiàn),進(jìn)而讓模型訓(xùn)練更加高效可靠。


由于梯度均衡本質(zhì)上是對(duì)不同樣本產(chǎn)生的梯度進(jìn)行一個(gè)加權(quán),進(jìn)而改變它們的貢獻(xiàn)量,而這個(gè)權(quán)重加在損失函數(shù)上也可以達(dá)到同樣的效果,此研究中,梯度均衡機(jī)制便是通過重構(gòu)損失函數(shù)來實(shí)現(xiàn)的。


為了清楚地描述新的損失函數(shù),我們需要先定義梯度密度(gradient density)這一概念。仿照物理上對(duì)于密度的定義(單位體積內(nèi)的質(zhì)量),我們把梯度密度定義為單位取值區(qū)域內(nèi)分布的樣本數(shù)量。


具體來說,我們將梯度模長(zhǎng)的取值范圍劃分為若干個(gè)單位區(qū)域(unit region)。對(duì)于一個(gè)樣本,若它的梯度模長(zhǎng)為 g,它的密度就定義為處于它所在的單位區(qū)域內(nèi)的樣本數(shù)量除以這個(gè)單位區(qū)域的長(zhǎng)度 ε:



而梯度密度的倒數(shù)就是樣本計(jì)算 loss?后要乘的權(quán)值:



這里乘樣本數(shù)量 N,是為了保證均勻分布或只劃分一個(gè)單位區(qū)域時(shí),該權(quán)值為 1,即 loss 不變。?


由于這個(gè)損失函數(shù)是為分類設(shè)計(jì)的,所以記為 GHM-C Loss。下面我們通過與傳統(tǒng)交叉熵算是函數(shù)以及 Focal Loss 的比較,來進(jìn)一步解釋 GHM 的作用:



左圖為樣本梯度模長(zhǎng)的分布。中圖為不同損失函數(shù)對(duì)樣本梯度產(chǎn)生的作用,橫坐標(biāo)為在交叉熵(CE)損失函數(shù)下樣本的梯度模長(zhǎng),縱坐標(biāo)為新的損失函數(shù)下同樣的樣本新的梯度模長(zhǎng),由于范圍較大所以依然采用對(duì)數(shù)坐標(biāo)展示。其中淺藍(lán)色的線為交叉熵函數(shù)本身,作為參考線。


可以看到,Focal Loss 本質(zhì)上是對(duì)簡(jiǎn)單樣本進(jìn)行相對(duì)的抑制,越簡(jiǎn)單的樣本受抑制的程度越大,這一點(diǎn)和 GHM-C 所做的均衡是十分相似的。此外,GHM-C 還對(duì)一些離群樣本進(jìn)行了相對(duì)的抑制,這可以使得模型訓(xùn)練更具穩(wěn)定性。


右圖為不同損失函數(shù)下,各種難度樣本的累計(jì)貢獻(xiàn)大小。由此可以看出,梯度均衡機(jī)制的作用就是讓各種難度類型的樣本有均衡的累計(jì)貢獻(xiàn)。


在分類之外,研究者還對(duì)于候選框的回歸問題做了類似的統(tǒng)計(jì)并設(shè)計(jì)了相應(yīng)的 GHM-R Loss。


需要指出的是,由于常用的 Smooth L1 Loss 是個(gè)分段函數(shù),在 L1 的這部分倒數(shù)的模長(zhǎng)恒定為 1,也就是偏差超過臨界值的樣本都會(huì)落到 g=1 這一點(diǎn)上,沒有難度的區(qū)分,這樣的統(tǒng)計(jì)并不合理。為了解決這個(gè)問題,研究者引入了 ASL1 Loss:



在此基礎(chǔ)上對(duì)梯度模長(zhǎng)的分布進(jìn)行統(tǒng)計(jì)并實(shí)施均衡化的操作。


實(shí)驗(yàn)結(jié)果


在 COCO 的 minival 集上,GHM-C Loss 與標(biāo)準(zhǔn) Cross Entropy Loss,使用 OHEM 采樣下 Cross Entropy,以及 Focal Loss 的比較如下:



GHM-R 與 Smooth L1 Loss 以及 ASL1 Loss 的 baseline 比較如下:



在 COCO test 集上,GHM 與其他 state-of-the-art 的方法比較如下:



此外,在 AAAI 2019 的演示文稿中,研究者還展示了在 pascal voc 2007 這樣的小數(shù)據(jù)集上,GHM 相對(duì)于 Focal Loss 不需要過多的 warmup iteration 就可以保持訓(xùn)練的穩(wěn)定:



討論


這篇研究的主要貢獻(xiàn)是提供了一個(gè)新視角,較為深入地探討了單階段檢測(cè)中樣本分布不均衡所產(chǎn)生的影響及解決方案。


此研究對(duì)梯度模長(zhǎng)的分布進(jìn)行統(tǒng)計(jì)并劃分單位區(qū)域的方式,實(shí)際上可以看作是依據(jù)梯度貢獻(xiàn)大小對(duì)樣本進(jìn)行聚類的過程。而這里的梯度只是模型頂部獲得的偏導(dǎo)數(shù)的大小,并不是全部參數(shù)對(duì)應(yīng)的梯度向量,所以聚類依據(jù)可能有更嚴(yán)謹(jǐn)更有區(qū)分度的選取方式,然而統(tǒng)計(jì)整體參數(shù)的梯度分布會(huì)極大增加計(jì)算量,所以本研究中的統(tǒng)計(jì)方式仍是一種快速且有效的選擇。


此研究進(jìn)行均衡化操作實(shí)際上是以各梯度模長(zhǎng)的樣本產(chǎn)生均勻的累計(jì)貢獻(xiàn)為目標(biāo)的,但是這個(gè)目標(biāo)是否就是最優(yōu)的梯度分布,暫時(shí)無法給出理論上的證明。從實(shí)驗(yàn)結(jié)果上,我們可以認(rèn)為這個(gè)目標(biāo)是明顯優(yōu)于無均衡的分布的。然而研究者認(rèn)為,真正的最優(yōu)分布難以定義,并需要后續(xù)的深入研究。




點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?


  • 自動(dòng)機(jī)器學(xué)習(xí)(AutoML)最新綜述

  • 圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用

  • 近期值得讀的10篇GAN進(jìn)展論文

  • 自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法

  • 從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力

  • 兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量

  • AI Challenger 2018 機(jī)器翻譯參賽總結(jié)

  • TensorSpace:超酷炫3D神經(jīng)網(wǎng)絡(luò)可視化框架

  • 深度長(zhǎng)文:NLP的巨人肩膀(上)

  • NLP的巨人肩膀(下):從CoVe到BERT




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識(shí)的人。


總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?


PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。


??來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通




?


現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧



關(guān)于PaperWeekly


PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼

總結(jié)

以上是生活随笔為你收集整理的AAAI 2019 Oral | 把Cross Entropy梯度分布拉‘平’,就能轻松超越Focal Loss的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。