日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Simple Baselines for Human Pose Estimation 阅读笔记

發(fā)布時(shí)間:2024/1/1 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Simple Baselines for Human Pose Estimation 阅读笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SimpleBaseline姿態(tài)估計(jì)閱讀筆記

ECCV2018

論文鏈接
代碼鏈接

摘要: 近年來(lái),姿態(tài)估計(jì)在取得重大進(jìn)展的同時(shí),總體算法和系統(tǒng)復(fù)雜性也日益增加,加劇了算法分析和比較的難度,本項(xiàng)工作提供了一個(gè)簡(jiǎn)單有效的baseline,來(lái)幫助激發(fā)并評(píng)估該領(lǐng)域的新想法。

文章目錄

  • SimpleBaseline姿態(tài)估計(jì)閱讀筆記
  • 1 Introduction
  • 2 Pose Estimation Using A Deconvolution Head Network
  • 3 姿態(tài)估計(jì)實(shí)驗(yàn)
    • 3.1 Pose Estimation on COCO
  • 4 Conclusions


1 Introduction

得益于深度學(xué)習(xí)的發(fā)展,人體姿態(tài)估計(jì)任務(wù)已取得很大提升。自先驅(qū)工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以來(lái),MPII基準(zhǔn)的性能在三年內(nèi)達(dá)到飽和(從約80% PCKH@0.5 提升至 90%以上)。挑戰(zhàn)性的COCO人體姿態(tài)基準(zhǔn)的進(jìn)展更快,其mAP指標(biāo)在一年內(nèi)從60.5(COCO 2016挑戰(zhàn)賽冠軍)提升至72.1(COCO 2017挑戰(zhàn)賽冠軍)。隨著姿態(tài)估計(jì)的迅速成熟,最近引入了一項(xiàng)更具挑戰(zhàn)性的任務(wù):“在野外同時(shí)進(jìn)行姿態(tài)檢測(cè)和跟蹤”
與此同時(shí),姿態(tài)估計(jì)的網(wǎng)絡(luò)架構(gòu)和實(shí)驗(yàn)也日趨復(fù)雜,加劇了算法分析和比較的難度。,例如,MPII上的領(lǐng)先方法 [Stacked hourglass,Multi-context attention for human pose estimation,Adversarial posenet,Learning feature pyramids for human pose estimation] 在許多細(xì)節(jié)上差異較大,其準(zhǔn)確性相當(dāng)。此外,COCO上的代表性工作 [Associative embedding,Towards accurate multi-person pose estimation in the wild,Mask r-cnn,Cascaded pyramid network for multi-person pose estimation,Realtime multi-person 2d pose estimation using part affinity fields] 也很復(fù)雜且差異很大,但這些工作間主要在系統(tǒng)層面比較,信息量較少。雖然姿態(tài)跟蹤的相關(guān)工作不多,但由于問(wèn)題維度和解決方案空間的增加,其系統(tǒng)的復(fù)雜性會(huì)進(jìn)一步增加。
本文試圖從相反的角度簡(jiǎn)化此問(wèn)題:“簡(jiǎn)單的方法性能可以有多好呢?”,為回答此問(wèn)題,本項(xiàng)工作為姿態(tài)估計(jì)和跟蹤提供了一個(gè)簡(jiǎn)單有效的baseline,希望能激發(fā)新想法并簡(jiǎn)化評(píng)估。
本文提出的姿態(tài)估計(jì)器在ResNet backbone上添加了幾個(gè)轉(zhuǎn)置卷積層,這可能是從深度低分辨率特征圖中估計(jì)熱圖的最簡(jiǎn)單方法。我們的單一模型在COCO testdev split上實(shí)現(xiàn)了sota 73.7 mAP,較 COCO 2017關(guān)鍵點(diǎn)挑戰(zhàn)賽winner的單一模型及其集成模型分別提高了1.6%和0.7%
這項(xiàng)工作沒(méi)有任何理論依據(jù),它基于簡(jiǎn)單的技術(shù),并通過(guò)全面的消融實(shí)驗(yàn)進(jìn)行驗(yàn)證。請(qǐng)注意,盡管我們?nèi)〉昧烁玫慕Y(jié)果,但我們并沒(méi)有聲稱它優(yōu)于任何先前的算法。我們并未與之前的方法進(jìn)行完全公平比較,這也并非我們的意圖,本項(xiàng)工作的貢獻(xiàn)是堅(jiān)實(shí)的baseline

2 Pose Estimation Using A Deconvolution Head Network

ResNet是最常用的特征提取backbone,我們僅在ResNet最后一的卷積層加了一些轉(zhuǎn)置卷積層:C5C_5C5?,整體網(wǎng)絡(luò)架構(gòu)如圖1?所示。這種結(jié)構(gòu)可以說(shuō)是從深度低分辨率特征生成熱圖的最簡(jiǎn)單方法,Mask R-CNN也采用了這種結(jié)構(gòu)。
默認(rèn)情況下,使用3個(gè)具有BN和ReLU激活的轉(zhuǎn)置卷積層,每層有256個(gè)4×4 kernel 的 filter,stride=2,最后加一個(gè) 1×1 卷積層來(lái)生成 k個(gè)關(guān)鍵點(diǎn)預(yù)測(cè)熱圖 {H1…Hk}。使用 MSE 作預(yù)測(cè)熱圖和GT熱圖間的損失,第 k 關(guān)節(jié)GT位置作中心生成2D高斯來(lái)生成關(guān)節(jié) k 的目標(biāo)熱圖 H^k\hat{H}_kH^k?
討論: 如圖1所示,為理解 baseline 的簡(jiǎn)單合理性,將其與 Hourglass 和 CPN對(duì)比。

圖1:(a)Hourglass 中的一個(gè) stage,(b)CPN,(c) SimpleBaseLine
  • Hourglass 是MPII上的主要方法,采用 multi-stage 架構(gòu),具有重復(fù)的bottom-up、top-down處理和skip layer feature concatenation。
  • Cascaded Pyramid network(CPN)是COCO 2017 keypoint challenge上的主要方法,它包括 skip layer feature concatenation 和一個(gè) online hard keypoint mining step。
    相比于Hourglass 和 CPN,SBL的不同之處在于如何生成高分辨率特征圖。Hourglass 和 CPN 都使用上采樣來(lái)提高特征圖分辨率,并將卷積參數(shù)放入其他 block 中。相反,SBL 以更簡(jiǎn)單的方式將上采樣和卷積參數(shù)組合到反卷積層(原文是 deconvolutional ,但其實(shí)使用轉(zhuǎn)置卷積更妥帖)中,而不使用跳躍層連接。

3 姿態(tài)估計(jì)實(shí)驗(yàn)

3.1 Pose Estimation on COCO

COCO Keypoint Challenge 要求在不可控條件下定位多人關(guān)鍵點(diǎn)。COCO train,validation 和 test sets 包含超過(guò)20萬(wàn)張圖像和25萬(wàn)個(gè)具有關(guān)鍵點(diǎn)標(biāo)注的人體實(shí)例,其中的15萬(wàn)個(gè)人體實(shí)例用于訓(xùn)練和驗(yàn)證。SBL 僅在 COCO train 2017 set(包括57K張圖像和150K個(gè)人體實(shí)例)上進(jìn)行訓(xùn)練,在val2017 set進(jìn)行消融實(shí)驗(yàn),最后報(bào)告了test-dev2017 set上的最終結(jié)果,并與其他模型進(jìn)行比較。
COCO 評(píng)估定義了對(duì)象關(guān)鍵點(diǎn)相似性(OKS),并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS與目標(biāo)檢測(cè)中的IoU作用相同,根據(jù)預(yù)測(cè)點(diǎn)和由人體尺度正則化得到的GT點(diǎn)之間的距離進(jìn)行計(jì)算。
訓(xùn)練: 延長(zhǎng)gt human box的長(zhǎng)或?qū)挒楣潭ū嚷?#xff1a;height : width = 4 : 3,然后將其從圖像中 crop下來(lái),并resize為固定分辨率,默認(rèn)分辨率:256:192,數(shù)據(jù)增強(qiáng)包括:scale(±30%),rotation(±40 degrees) 和 flip。
ResNet backbone 通過(guò)在ImageNet分類任務(wù)預(yù)訓(xùn)練初始化,姿態(tài)估計(jì)的訓(xùn)練中,基本學(xué)習(xí)率為1e-3,在第90個(gè) epoch 降至1e-4,在第120個(gè) epoch 降至1e-5,共訓(xùn)練140個(gè)epoch,Mini-batch size = 128,使用 Adam 優(yōu)化器,四個(gè)GPU。默認(rèn)使用ResNet-50。

測(cè)試: 采用 two-stage 的 top-down 范式,默認(rèn)使用Faster-rcnn(COCO val2017 上的人體檢測(cè)精度為 56.4 AP)作人體檢測(cè)器,根據(jù)原始圖像和翻轉(zhuǎn)圖像的平均熱圖預(yù)測(cè)關(guān)節(jié)位置,從最高響應(yīng)到第二高響應(yīng)方向上 1/4 的offset用于獲得最終位置。

消融實(shí)驗(yàn):表2對(duì)第2節(jié)baseline中的各種選項(xiàng)進(jìn)行了消融實(shí)驗(yàn)。

COCO val2017 set 上的消融實(shí)驗(yàn),被比較的組件以粗體顯示,例如(a,e,f)用于比較 backbone。
  • 熱圖分辨率:方法(a)使用 3 個(gè)轉(zhuǎn)置卷積層生成64×48熱圖。方法(b)使用 2 個(gè)轉(zhuǎn)置卷積層生成32×24熱圖。在模型容量略有增加的情況下,(a)比(b)高2.5AP。默認(rèn)使用 3 個(gè)反褶積層。
  • kernel size:方法(a,c,d)表明,較小的 kernel size 略微降低AP,kernel size 從4到2減少了0.3個(gè)點(diǎn)。默認(rèn)轉(zhuǎn)置卷積 kernel size=4。
  • backbone:與大多數(shù)視覺(jué)任務(wù)一樣,較深的 backbone 性能更好。方法(a,e,f) 從ResNet-50到ResNet-101,AP增加1.0,從ResNet50到ResNet-152,AP增加1.6。
  • Image size:方法(a,g,h)的結(jié)果表明圖像大小對(duì)性能至關(guān)重要。從方法(a)到(g),圖像尺寸減小一半,AP下降,但同時(shí)也節(jié)省了75%的相對(duì)計(jì)算量。使用較大圖像的方法(h)以較高的計(jì)算成本為代價(jià),較方法(a)提升了1.8 AP。
  • COCO val2017上與其他方法比較:

    表3.COCO val2017 set上與Hourglass和CPN[6] 的比較。OHKM是指 Online Hard Keypoints Mining。

    COCO test-dev set上的比較:

    表4.COCO test-dev set的比較。top:僅在COCO train set上訓(xùn)練。middle:提交給COCO test-dev 排行榜的結(jié)果,其中有額外的訓(xùn)練數(shù)據(jù)(*)或模型(+)。bottom:SBL單一模型結(jié)果,僅在COCO train set上訓(xùn)練。

    4 Conclusions

    本文提出了一個(gè)簡(jiǎn)單有效的的姿態(tài)估計(jì)和跟蹤 baseline,并在具有挑戰(zhàn)性的基準(zhǔn)上取得了 sota。該研究希望 SimpleBaseLine 通過(guò)簡(jiǎn)化 idea development 和 evaluation 使該領(lǐng)域受益。

    總結(jié)

    以上是生活随笔為你收集整理的Simple Baselines for Human Pose Estimation 阅读笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。