Simple Baselines for Human Pose Estimation 阅读笔记
SimpleBaseline姿態(tài)估計(jì)閱讀筆記
ECCV2018
論文鏈接
代碼鏈接
摘要: 近年來(lái),姿態(tài)估計(jì)在取得重大進(jìn)展的同時(shí),總體算法和系統(tǒng)復(fù)雜性也日益增加,加劇了算法分析和比較的難度,本項(xiàng)工作提供了一個(gè)簡(jiǎn)單有效的baseline,來(lái)幫助激發(fā)并評(píng)估該領(lǐng)域的新想法。
文章目錄
- SimpleBaseline姿態(tài)估計(jì)閱讀筆記
- 1 Introduction
- 2 Pose Estimation Using A Deconvolution Head Network
- 3 姿態(tài)估計(jì)實(shí)驗(yàn)
- 3.1 Pose Estimation on COCO
- 4 Conclusions
1 Introduction
得益于深度學(xué)習(xí)的發(fā)展,人體姿態(tài)估計(jì)任務(wù)已取得很大提升。自先驅(qū)工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以來(lái),MPII基準(zhǔn)的性能在三年內(nèi)達(dá)到飽和(從約80% PCKH@0.5 提升至 90%以上)。挑戰(zhàn)性的COCO人體姿態(tài)基準(zhǔn)的進(jìn)展更快,其mAP指標(biāo)在一年內(nèi)從60.5(COCO 2016挑戰(zhàn)賽冠軍)提升至72.1(COCO 2017挑戰(zhàn)賽冠軍)。隨著姿態(tài)估計(jì)的迅速成熟,最近引入了一項(xiàng)更具挑戰(zhàn)性的任務(wù):“在野外同時(shí)進(jìn)行姿態(tài)檢測(cè)和跟蹤”
與此同時(shí),姿態(tài)估計(jì)的網(wǎng)絡(luò)架構(gòu)和實(shí)驗(yàn)也日趨復(fù)雜,加劇了算法分析和比較的難度。,例如,MPII上的領(lǐng)先方法 [Stacked hourglass,Multi-context attention for human pose estimation,Adversarial posenet,Learning feature pyramids for human pose estimation] 在許多細(xì)節(jié)上差異較大,其準(zhǔn)確性相當(dāng)。此外,COCO上的代表性工作 [Associative embedding,Towards accurate multi-person pose estimation in the wild,Mask r-cnn,Cascaded pyramid network for multi-person pose estimation,Realtime multi-person 2d pose estimation using part affinity fields] 也很復(fù)雜且差異很大,但這些工作間主要在系統(tǒng)層面比較,信息量較少。雖然姿態(tài)跟蹤的相關(guān)工作不多,但由于問(wèn)題維度和解決方案空間的增加,其系統(tǒng)的復(fù)雜性會(huì)進(jìn)一步增加。
本文試圖從相反的角度簡(jiǎn)化此問(wèn)題:“簡(jiǎn)單的方法性能可以有多好呢?”,為回答此問(wèn)題,本項(xiàng)工作為姿態(tài)估計(jì)和跟蹤提供了一個(gè)簡(jiǎn)單有效的baseline,希望能激發(fā)新想法并簡(jiǎn)化評(píng)估。
本文提出的姿態(tài)估計(jì)器在ResNet backbone上添加了幾個(gè)轉(zhuǎn)置卷積層,這可能是從深度低分辨率特征圖中估計(jì)熱圖的最簡(jiǎn)單方法。我們的單一模型在COCO testdev split上實(shí)現(xiàn)了sota 73.7 mAP,較 COCO 2017關(guān)鍵點(diǎn)挑戰(zhàn)賽winner的單一模型及其集成模型分別提高了1.6%和0.7%
這項(xiàng)工作沒(méi)有任何理論依據(jù),它基于簡(jiǎn)單的技術(shù),并通過(guò)全面的消融實(shí)驗(yàn)進(jìn)行驗(yàn)證。請(qǐng)注意,盡管我們?nèi)〉昧烁玫慕Y(jié)果,但我們并沒(méi)有聲稱它優(yōu)于任何先前的算法。我們并未與之前的方法進(jìn)行完全公平比較,這也并非我們的意圖,本項(xiàng)工作的貢獻(xiàn)是堅(jiān)實(shí)的baseline。
2 Pose Estimation Using A Deconvolution Head Network
ResNet是最常用的特征提取backbone,我們僅在ResNet最后一的卷積層加了一些轉(zhuǎn)置卷積層:C5C_5C5?,整體網(wǎng)絡(luò)架構(gòu)如圖1?所示。這種結(jié)構(gòu)可以說(shuō)是從深度低分辨率特征生成熱圖的最簡(jiǎn)單方法,Mask R-CNN也采用了這種結(jié)構(gòu)。
默認(rèn)情況下,使用3個(gè)具有BN和ReLU激活的轉(zhuǎn)置卷積層,每層有256個(gè)4×4 kernel 的 filter,stride=2,最后加一個(gè) 1×1 卷積層來(lái)生成 k個(gè)關(guān)鍵點(diǎn)預(yù)測(cè)熱圖 {H1…Hk}。使用 MSE 作預(yù)測(cè)熱圖和GT熱圖間的損失,第 k 關(guān)節(jié)GT位置作中心生成2D高斯來(lái)生成關(guān)節(jié) k 的目標(biāo)熱圖 H^k\hat{H}_kH^k?。
討論: 如圖1所示,為理解 baseline 的簡(jiǎn)單合理性,將其與 Hourglass 和 CPN對(duì)比。
- Hourglass 是MPII上的主要方法,采用 multi-stage 架構(gòu),具有重復(fù)的bottom-up、top-down處理和skip layer feature concatenation。
- Cascaded Pyramid network(CPN)是COCO 2017 keypoint challenge上的主要方法,它包括 skip layer feature concatenation 和一個(gè) online hard keypoint mining step。
相比于Hourglass 和 CPN,SBL的不同之處在于如何生成高分辨率特征圖。Hourglass 和 CPN 都使用上采樣來(lái)提高特征圖分辨率,并將卷積參數(shù)放入其他 block 中。相反,SBL 以更簡(jiǎn)單的方式將上采樣和卷積參數(shù)組合到反卷積層(原文是 deconvolutional ,但其實(shí)使用轉(zhuǎn)置卷積更妥帖)中,而不使用跳躍層連接。
3 姿態(tài)估計(jì)實(shí)驗(yàn)
3.1 Pose Estimation on COCO
COCO Keypoint Challenge 要求在不可控條件下定位多人關(guān)鍵點(diǎn)。COCO train,validation 和 test sets 包含超過(guò)20萬(wàn)張圖像和25萬(wàn)個(gè)具有關(guān)鍵點(diǎn)標(biāo)注的人體實(shí)例,其中的15萬(wàn)個(gè)人體實(shí)例用于訓(xùn)練和驗(yàn)證。SBL 僅在 COCO train 2017 set(包括57K張圖像和150K個(gè)人體實(shí)例)上進(jìn)行訓(xùn)練,在val2017 set進(jìn)行消融實(shí)驗(yàn),最后報(bào)告了test-dev2017 set上的最終結(jié)果,并與其他模型進(jìn)行比較。
COCO 評(píng)估定義了對(duì)象關(guān)鍵點(diǎn)相似性(OKS),并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS與目標(biāo)檢測(cè)中的IoU作用相同,根據(jù)預(yù)測(cè)點(diǎn)和由人體尺度正則化得到的GT點(diǎn)之間的距離進(jìn)行計(jì)算。
訓(xùn)練: 延長(zhǎng)gt human box的長(zhǎng)或?qū)挒楣潭ū嚷?#xff1a;height : width = 4 : 3,然后將其從圖像中 crop下來(lái),并resize為固定分辨率,默認(rèn)分辨率:256:192,數(shù)據(jù)增強(qiáng)包括:scale(±30%),rotation(±40 degrees) 和 flip。
ResNet backbone 通過(guò)在ImageNet分類任務(wù)預(yù)訓(xùn)練初始化,姿態(tài)估計(jì)的訓(xùn)練中,基本學(xué)習(xí)率為1e-3,在第90個(gè) epoch 降至1e-4,在第120個(gè) epoch 降至1e-5,共訓(xùn)練140個(gè)epoch,Mini-batch size = 128,使用 Adam 優(yōu)化器,四個(gè)GPU。默認(rèn)使用ResNet-50。
測(cè)試: 采用 two-stage 的 top-down 范式,默認(rèn)使用Faster-rcnn(COCO val2017 上的人體檢測(cè)精度為 56.4 AP)作人體檢測(cè)器,根據(jù)原始圖像和翻轉(zhuǎn)圖像的平均熱圖預(yù)測(cè)關(guān)節(jié)位置,從最高響應(yīng)到第二高響應(yīng)方向上 1/4 的offset用于獲得最終位置。
消融實(shí)驗(yàn):表2對(duì)第2節(jié)baseline中的各種選項(xiàng)進(jìn)行了消融實(shí)驗(yàn)。
COCO val2017上與其他方法比較:
COCO test-dev set上的比較:
表4.COCO test-dev set的比較。top:僅在COCO train set上訓(xùn)練。middle:提交給COCO test-dev 排行榜的結(jié)果,其中有額外的訓(xùn)練數(shù)據(jù)(*)或模型(+)。bottom:SBL單一模型結(jié)果,僅在COCO train set上訓(xùn)練。4 Conclusions
本文提出了一個(gè)簡(jiǎn)單有效的的姿態(tài)估計(jì)和跟蹤 baseline,并在具有挑戰(zhàn)性的基準(zhǔn)上取得了 sota。該研究希望 SimpleBaseLine 通過(guò)簡(jiǎn)化 idea development 和 evaluation 使該領(lǐng)域受益。
總結(jié)
以上是生活随笔為你收集整理的Simple Baselines for Human Pose Estimation 阅读笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: kali虚拟机中没有ip或者检测不到网卡
- 下一篇: win10 wsappx禁用问题