當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Simple Baselines for Human Pose Estimation 阅读笔记

發(fā)布時(shí)間：2024/1/1 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Simple Baselines for Human Pose Estimation 阅读笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SimpleBaseline姿態(tài)估計(jì)閱讀筆記

ECCV2018

論文鏈接
代碼鏈接

摘要： 近年來(lái)，姿態(tài)估計(jì)在取得重大進(jìn)展的同時(shí)，總體算法和系統(tǒng)復(fù)雜性也日益增加，加劇了算法分析和比較的難度，本項(xiàng)工作提供了一個(gè)簡(jiǎn)單有效的baseline，來(lái)幫助激發(fā)并評(píng)估該領(lǐng)域的新想法。

文章目錄

SimpleBaseline姿態(tài)估計(jì)閱讀筆記
1 Introduction
2 Pose Estimation Using A Deconvolution Head Network
3 姿態(tài)估計(jì)實(shí)驗(yàn)
- 3.1 Pose Estimation on COCO
4 Conclusions

1 Introduction

得益于深度學(xué)習(xí)的發(fā)展，人體姿態(tài)估計(jì)任務(wù)已取得很大提升。自先驅(qū)工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以來(lái)，MPII基準(zhǔn)的性能在三年內(nèi)達(dá)到飽和（從約80% PCKH@0.5 提升至 90%以上）。挑戰(zhàn)性的COCO人體姿態(tài)基準(zhǔn)的進(jìn)展更快，其mAP指標(biāo)在一年內(nèi)從60.5（COCO 2016挑戰(zhàn)賽冠軍）提升至72.1（COCO 2017挑戰(zhàn)賽冠軍）。隨著姿態(tài)估計(jì)的迅速成熟，最近引入了一項(xiàng)更具挑戰(zhàn)性的任務(wù)：“在野外同時(shí)進(jìn)行姿態(tài)檢測(cè)和跟蹤”
與此同時(shí)，姿態(tài)估計(jì)的網(wǎng)絡(luò)架構(gòu)和實(shí)驗(yàn)也日趨復(fù)雜，加劇了算法分析和比較的難度。，例如，MPII上的領(lǐng)先方法 [Stacked hourglass，Multi-context attention for human pose estimation，Adversarial posenet，Learning feature pyramids for human pose estimation] 在許多細(xì)節(jié)上差異較大，其準(zhǔn)確性相當(dāng)。此外，COCO上的代表性工作 [Associative embedding，Towards accurate multi-person pose estimation in the wild，Mask r-cnn，Cascaded pyramid network for multi-person pose estimation，Realtime multi-person 2d pose estimation using part affinity fields] 也很復(fù)雜且差異很大，但這些工作間主要在系統(tǒng)層面比較，信息量較少。雖然姿態(tài)跟蹤的相關(guān)工作不多，但由于問(wèn)題維度和解決方案空間的增加，其系統(tǒng)的復(fù)雜性會(huì)進(jìn)一步增加。
本文試圖從相反的角度簡(jiǎn)化此問(wèn)題：“簡(jiǎn)單的方法性能可以有多好呢？”，為回答此問(wèn)題，本項(xiàng)工作為姿態(tài)估計(jì)和跟蹤提供了一個(gè)簡(jiǎn)單有效的baseline，希望能激發(fā)新想法并簡(jiǎn)化評(píng)估。
本文提出的姿態(tài)估計(jì)器在ResNet backbone上添加了幾個(gè)轉(zhuǎn)置卷積層，這可能是從深度低分辨率特征圖中估計(jì)熱圖的最簡(jiǎn)單方法。我們的單一模型在COCO testdev split上實(shí)現(xiàn)了sota 73.7 mAP，較 COCO 2017關(guān)鍵點(diǎn)挑戰(zhàn)賽winner的單一模型及其集成模型分別提高了1.6%和0.7%
這項(xiàng)工作沒(méi)有任何理論依據(jù)，它基于簡(jiǎn)單的技術(shù)，并通過(guò)全面的消融實(shí)驗(yàn)進(jìn)行驗(yàn)證。請(qǐng)注意，盡管我們?nèi)〉昧烁玫慕Y(jié)果，但我們并沒(méi)有聲稱它優(yōu)于任何先前的算法。我們并未與之前的方法進(jìn)行完全公平比較，這也并非我們的意圖，本項(xiàng)工作的貢獻(xiàn)是堅(jiān)實(shí)的baseline。

2 Pose Estimation Using A Deconvolution Head Network

ResNet是最常用的特征提取backbone，我們僅在ResNet最后一的卷積層加了一些轉(zhuǎn)置卷積層： $C_5$ ，整體網(wǎng)絡(luò)架構(gòu)如圖1?所示。這種結(jié)構(gòu)可以說(shuō)是從深度低分辨率特征生成熱圖的最簡(jiǎn)單方法，Mask R-CNN也采用了這種結(jié)構(gòu)。
默認(rèn)情況下，使用3個(gè)具有BN和ReLU激活的轉(zhuǎn)置卷積層，每層有256個(gè)4×4 kernel 的 filter，stride=2，最后加一個(gè) 1×1 卷積層來(lái)生成 k個(gè)關(guān)鍵點(diǎn)預(yù)測(cè)熱圖 {H1…Hk}。使用 MSE 作預(yù)測(cè)熱圖和GT熱圖間的損失，第 k 關(guān)節(jié)GT位置作中心生成2D高斯來(lái)生成關(guān)節(jié) k 的目標(biāo)熱圖 $H^k\hat{H}_k$ 。
討論：如圖1所示，為理解 baseline 的簡(jiǎn)單合理性，將其與 Hourglass 和 CPN對(duì)比。

圖1：（a）Hourglass 中的一個(gè) stage，（b）CPN，(c) SimpleBaseLine

Hourglass 是MPII上的主要方法，采用 multi-stage 架構(gòu)，具有重復(fù)的bottom-up、top-down處理和skip layer feature concatenation。
Cascaded Pyramid network（CPN）是COCO 2017 keypoint challenge上的主要方法，它包括 skip layer feature concatenation 和一個(gè) online hard keypoint mining step。
相比于Hourglass 和 CPN，SBL的不同之處在于如何生成高分辨率特征圖。Hourglass 和 CPN 都使用上采樣來(lái)提高特征圖分辨率，并將卷積參數(shù)放入其他 block 中。相反，SBL 以更簡(jiǎn)單的方式將上采樣和卷積參數(shù)組合到反卷積層（原文是 deconvolutional ，但其實(shí)使用轉(zhuǎn)置卷積更妥帖）中，而不使用跳躍層連接。

3 姿態(tài)估計(jì)實(shí)驗(yàn)

3.1 Pose Estimation on COCO

COCO Keypoint Challenge 要求在不可控條件下定位多人關(guān)鍵點(diǎn)。COCO train，validation 和 test sets 包含超過(guò)20萬(wàn)張圖像和25萬(wàn)個(gè)具有關(guān)鍵點(diǎn)標(biāo)注的人體實(shí)例，其中的15萬(wàn)個(gè)人體實(shí)例用于訓(xùn)練和驗(yàn)證。SBL 僅在 COCO train 2017 set（包括57K張圖像和150K個(gè)人體實(shí)例）上進(jìn)行訓(xùn)練，在val2017 set進(jìn)行消融實(shí)驗(yàn)，最后報(bào)告了test-dev2017 set上的最終結(jié)果，并與其他模型進(jìn)行比較。
COCO 評(píng)估定義了對(duì)象關(guān)鍵點(diǎn)相似性（OKS），并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS與目標(biāo)檢測(cè)中的IoU作用相同，根據(jù)預(yù)測(cè)點(diǎn)和由人體尺度正則化得到的GT點(diǎn)之間的距離進(jìn)行計(jì)算。
訓(xùn)練： 延長(zhǎng)gt human box的長(zhǎng)或?qū)挒楣潭ū嚷?#xff1a;height : width = 4 : 3，然后將其從圖像中 crop下來(lái)，并resize為固定分辨率，默認(rèn)分辨率：256：192，數(shù)據(jù)增強(qiáng)包括：scale(±30%)，rotation(±40 degrees) 和 flip。
ResNet backbone 通過(guò)在ImageNet分類任務(wù)預(yù)訓(xùn)練初始化，姿態(tài)估計(jì)的訓(xùn)練中，基本學(xué)習(xí)率為1e-3，在第90個(gè) epoch 降至1e-4，在第120個(gè) epoch 降至1e-5，共訓(xùn)練140個(gè)epoch，Mini-batch size = 128，使用 Adam 優(yōu)化器，四個(gè)GPU。默認(rèn)使用ResNet-50。

測(cè)試： 采用 two-stage 的 top-down 范式，默認(rèn)使用Faster-rcnn（COCO val2017 上的人體檢測(cè)精度為 56.4 AP）作人體檢測(cè)器，根據(jù)原始圖像和翻轉(zhuǎn)圖像的平均熱圖預(yù)測(cè)關(guān)節(jié)位置，從最高響應(yīng)到第二高響應(yīng)方向上 1/4 的offset用于獲得最終位置。

消融實(shí)驗(yàn)：表2對(duì)第2節(jié)baseline中的各種選項(xiàng)進(jìn)行了消融實(shí)驗(yàn)。

COCO val2017 set 上的消融實(shí)驗(yàn)，被比較的組件以粗體顯示，例如(a,e,f)用于比較 backbone。

熱圖分辨率：方法（a）使用 3 個(gè)轉(zhuǎn)置卷積層生成64×48熱圖。方法（b）使用 2 個(gè)轉(zhuǎn)置卷積層生成32×24熱圖。在模型容量略有增加的情況下，（a）比（b）高2.5AP。默認(rèn)使用 3 個(gè)反褶積層。

kernel size：方法（a，c，d）表明，較小的 kernel size 略微降低AP，kernel size 從4到2減少了0.3個(gè)點(diǎn)。默認(rèn)轉(zhuǎn)置卷積 kernel size=4。

backbone：與大多數(shù)視覺(jué)任務(wù)一樣，較深的 backbone 性能更好。方法（a，e，f）從ResNet-50到ResNet-101，AP增加1.0，從ResNet50到ResNet-152，AP增加1.6。

Image size：方法（a，g，h）的結(jié)果表明圖像大小對(duì)性能至關(guān)重要。從方法（a）到（g），圖像尺寸減小一半，AP下降，但同時(shí)也節(jié)省了75%的相對(duì)計(jì)算量。使用較大圖像的方法（h）以較高的計(jì)算成本為代價(jià)，較方法（a）提升了1.8 AP。

COCO val2017上與其他方法比較：

表3.COCO val2017 set上與Hourglass和CPN[6] 的比較。OHKM是指 Online Hard Keypoints Mining。

COCO test-dev set上的比較：

表4.COCO test-dev set的比較。top：僅在COCO train set上訓(xùn)練。middle：提交給COCO test-dev 排行榜的結(jié)果，其中有額外的訓(xùn)練數(shù)據(jù)（*）或模型（+）。bottom：SBL單一模型結(jié)果，僅在COCO train set上訓(xùn)練。

4 Conclusions

本文提出了一個(gè)簡(jiǎn)單有效的的姿態(tài)估計(jì)和跟蹤 baseline，并在具有挑戰(zhàn)性的基準(zhǔn)上取得了 sota。該研究希望 SimpleBaseLine 通過(guò)簡(jiǎn)化 idea development 和 evaluation 使該領(lǐng)域受益。

總結(jié)

以上是生活随笔為你收集整理的Simple Baselines for Human Pose Estimation 阅读笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： kali虚拟机中没有ip或者检测不到网卡
下一篇： win10 wsappx禁用问题