CenterNet算法快速入门
目錄
1 簡(jiǎn)介
2 網(wǎng)絡(luò)結(jié)構(gòu)
3 損失函數(shù)
3.1 heatmap loss(改造的Focal Loss)
3.2 長(zhǎng)寬預(yù)測(cè)loss(L1損失函數(shù))
3.3 中心點(diǎn)偏移值loss(L1損失函數(shù))
4 擴(kuò)展:關(guān)節(jié)點(diǎn)預(yù)測(cè)和3D任務(wù)
4.1 人體關(guān)節(jié)點(diǎn)預(yù)測(cè)
4.2 3D目標(biāo)檢測(cè)
1 簡(jiǎn)介
- 時(shí)間:2019年論文《Objects as Points》
- 特點(diǎn):
- 不需要anchor、也不需要NMS,模型結(jié)構(gòu)簡(jiǎn)單、速度快、精度高(比yolo3高4個(gè)點(diǎn))!
- 只需少量修改head,就可以改造成3D目標(biāo)檢測(cè)和人體關(guān)節(jié)點(diǎn)檢測(cè)。
2 網(wǎng)絡(luò)結(jié)構(gòu)
輸入:3 x 512 x 512。
backbone:特征提取器(32倍下采樣) + 反卷積(8倍上采樣)。
head:3個(gè)分支進(jìn)行預(yù)測(cè),每個(gè)分支用2個(gè)卷積實(shí)現(xiàn)。
輸出:
- 80 x 128 x 128:目標(biāo)分類信息和中心點(diǎn)位置信息,每個(gè)類單獨(dú)在一個(gè)熱圖中,熱圖中最亮的一些點(diǎn)就是坐標(biāo)信息。
- 2 x 128 x 128:所有目標(biāo)的w和h信息,一個(gè)預(yù)測(cè)w,另一個(gè)預(yù)測(cè)h。每個(gè)網(wǎng)格與熱圖中目標(biāo)網(wǎng)格一一對(duì)應(yīng)。
- 2 x 128 x 128:所有目標(biāo)中心點(diǎn)的x和y偏移量信息。
3 損失函數(shù)
因?yàn)榫W(wǎng)絡(luò)輸出3個(gè)部分,所以損失函數(shù)也有3個(gè)部分:
- heatmap的loss(改造的Focal Loss)
- 目標(biāo)長(zhǎng)寬預(yù)測(cè)loss(L1損失)
- 目標(biāo)中心點(diǎn)偏移值loss(L1損失)
以下參考:https://www.cnblogs.com/silence-cho/p/13955766.html
3.1 heatmap loss(改造的Focal Loss)
備注:一個(gè)目標(biāo)正樣本就一個(gè),負(fù)樣本指的是熱圖中心點(diǎn)附近的點(diǎn)。
關(guān)于熱圖,看一個(gè)官方源碼中生成的一個(gè)高斯分布:
每個(gè)點(diǎn)的范圍是0-1,而1則代表這個(gè)目標(biāo)的中心點(diǎn),也就是我們要預(yù)測(cè)要學(xué)習(xí)的點(diǎn)。
3.2 長(zhǎng)寬預(yù)測(cè)loss(L1損失函數(shù))
3.3 中心點(diǎn)偏移值loss(L1損失函數(shù))
4 擴(kuò)展:關(guān)節(jié)點(diǎn)預(yù)測(cè)和3D任務(wù)
4.1 人體關(guān)節(jié)點(diǎn)預(yù)測(cè)
這個(gè)問(wèn)題,本質(zhì)上,就相當(dāng)于把人的每類肢體關(guān)節(jié)點(diǎn),定義為一個(gè)類。
如下圖,假如要識(shí)別一張圖上,所有人的5個(gè)關(guān)節(jié)點(diǎn),那么網(wǎng)絡(luò)輸出head定義如下:
輸入:一張2D圖像。
輸出:
- 5 x 128 x 128:5個(gè)熱圖,每類關(guān)節(jié)點(diǎn)單獨(dú)在一個(gè)熱圖中。
- 2 x 128 x 128:所有關(guān)節(jié)點(diǎn)的w和h信息。
- 2 x 128 x 128:所有關(guān)節(jié)點(diǎn)的x和y偏移量信息。
備注:也可以訓(xùn)練centernet直接檢測(cè)85類目標(biāo)(80個(gè)coco物體類+5個(gè)人體關(guān)節(jié)點(diǎn)類)。
4.2 3D目標(biāo)檢測(cè)
3D目標(biāo)檢測(cè),需要在3D數(shù)據(jù)中,預(yù)測(cè)出目標(biāo)(相對(duì)拍攝相機(jī))的depth距離、目標(biāo)的3D bbox框的長(zhǎng)寬高信息、bbox的朝向信息。
輸入:2D圖(但標(biāo)簽包含2D圖的3D信息,如自動(dòng)駕駛KITTI數(shù)據(jù)集)
輸出:
- class x 128 x 128:每類目標(biāo)單獨(dú)在一個(gè)熱圖中。
- 3 x 128 x 128:長(zhǎng)、寬、高信息。
- 1 x 128 x 128:depth距離信息。
- 8 x 128 x 128:3D bbox的朝向信息。
效果類似如下:
?具體方法參考:https://zhuanlan.zhihu.com/p/350610859
總結(jié)
以上是生活随笔為你收集整理的CenterNet算法快速入门的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 度量学习:ArcFace算法和工程应用总
- 下一篇: 什么是self-attention、Mu