日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

人体姿态和形状估计的视频推理:CVPR2020论文解析

發(fā)布時間:2023/11/28 生活经验 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 人体姿态和形状估计的视频推理:CVPR2020论文解析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

人體姿態(tài)和形狀估計的視頻推理:CVPR2020論文解析

VIBE: Video Inference for Human Body Pose and
Shape Estimation

論文鏈接:https://arxiv.org/pdf/1912.05656.pdf

Code and pretrained models are available at: https://github.com/mkocabas/VIBE

摘要

人體運(yùn)動是理解行為的基礎(chǔ)。盡管在單圖像三維位姿和形狀估計方面取得了進(jìn)展,但由于缺乏用于訓(xùn)練的地面真實(shí)三維運(yùn)動數(shù)據(jù),現(xiàn)有的基于視頻的最新方法無法生成精確的自然運(yùn)動序列。為了解決這個問題,本文提出了“人體姿勢和形狀估計的視頻推理”(VIBE),它利用現(xiàn)有的大規(guī)模運(yùn)動捕捉數(shù)據(jù)集(AMASS)和未配對的、原始的二維關(guān)鍵點(diǎn)標(biāo)注。本文的主要創(chuàng)新點(diǎn)是一個對抗性學(xué)習(xí)框架,它利用AMASS來區(qū)分真實(shí)的人體運(yùn)動和由本文的時間姿勢和形狀回歸網(wǎng)絡(luò)產(chǎn)生的運(yùn)動。本文定義了一個時間網(wǎng)絡(luò)架構(gòu),并展示了對抗性訓(xùn)練 生成運(yùn)動上合理的運(yùn)動序列,而不使用原始地面真值3D標(biāo)簽。本文進(jìn)行了大量的實(shí)驗(yàn)來分析運(yùn)動的重要性,并證明了VIBE在挑戰(zhàn)性的三維姿態(tài)估計數(shù)據(jù)集上的有效性,從而獲得最先進(jìn)的性能。

Introduction

在測試時,給定一個視頻,本文使用預(yù)先訓(xùn)練的HMR[37]和本文的時間模塊來預(yù)測每個幀的姿勢和形狀參數(shù)。本文在多個數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),并優(yōu)于所有最先進(jìn)的方法;VIBE的輸出示例見圖1(底部)。重要的是,本文的基于視頻的方法在具有挑戰(zhàn)性的三維姿態(tài)估計基準(zhǔn)3DPW[66]和MPI-INF-3DHP[44]上總是比單幀方法有顯著的優(yōu)勢。這清楚地說明了在三維姿勢估計中使用視頻的好處。

總之,本文的主要貢獻(xiàn)是:

首先,本文擴(kuò)展了Kolotouros等人[37]基于模型的環(huán)內(nèi)訓(xùn)練過程。通過視頻獲得更準(zhǔn)確的監(jiān)控。

其次,本文收集了大量的運(yùn)動數(shù)據(jù),用于對抗性的振動訓(xùn)練。這鼓勵回歸者產(chǎn)生現(xiàn)實(shí)的和運(yùn)動上合理的運(yùn)動。

第三,本文定量比較了不同的時間結(jié)構(gòu)對三維人體運(yùn)動估計的影響。

第四,本文使用一個運(yùn)動捕捉數(shù)據(jù)的大數(shù)據(jù)集來訓(xùn)練鑒別器,從而獲得最新的結(jié)果。

  1. Related Work

從一個圖像的三維姿勢和形狀。參數(shù)化三維人體模型[4,42,50]由于能夠捕捉人體形狀的統(tǒng)計信息,并提供可用于多種任務(wù)的三維網(wǎng)格,因此被廣泛用作人體姿態(tài)估計的輸出目標(biāo)。早期的研究探索了“自下而上”的回歸方法、“自上而下”的優(yōu)化方法,以及使用關(guān)鍵點(diǎn)和輪廓作為輸入的多攝像機(jī)設(shè)置[1,8,19,57]。這些方法很脆弱,需要人工干預(yù),或者不能很好地推廣到野外的圖像。Bogo等人[11]開發(fā)了SMPLify,這是第一個端到端的方法之一,它利用CNN的關(guān)鍵點(diǎn)檢測器[53]將SMPL身體模型設(shè)置為圖像。Lassneret al.[39]使用剪影和關(guān)鍵點(diǎn)進(jìn)行定位算法。最近,深層神經(jīng)網(wǎng)絡(luò)被訓(xùn)練成直接從像素回歸SMPL體模型的參數(shù)[21,29,48,51,60,62]。由于缺乏原始的的3D地面真值標(biāo)簽,這些方法使用從2D關(guān)鍵點(diǎn)重新投影損失獲得的弱監(jiān)督信號[29、60、62],使用身體/部位分割作為中間表示[48、51],或使用人在回路中[39]。Kolotouros等人
[37]通過在訓(xùn)練循環(huán)中使用SMPLify,以協(xié)作的方式將基于回歸和基于優(yōu)化的方法結(jié)合起來。在訓(xùn)練的每個步驟中,深網(wǎng)絡(luò)[29]初始化SMPLify優(yōu)化方法,將身體模型設(shè)置為二維關(guān)節(jié),生成用于監(jiān)督網(wǎng)絡(luò)的改進(jìn)型fit。另外,還提出了幾種非參數(shù)體網(wǎng)格重建方法[38、54、64]。瓦羅爾等人
[64]使用體素作為輸出體表示。Kolotouros等人
[38]使用圖卷積網(wǎng)絡(luò)直接回歸模板體網(wǎng)格的頂點(diǎn)位置[34]。Saitoetal [54]使用像素對齊隱式函數(shù)預(yù)測身體形狀,然后進(jìn)行網(wǎng)格重建。盡管它們能夠從單個圖像中捕捉人體,但當(dāng)應(yīng)用于視頻時,上述方法會產(chǎn)生不穩(wěn)定的結(jié)果。

3D pose and shape from video

GANs for sequence modeling

  1. Approach

VIBE的總體框架如圖2所示。給定一個人的輸入視頻(長度T),本文使用預(yù)先訓(xùn)練的CNN提取每一幀的特征。本文訓(xùn)練一個由雙向門控遞歸單元(GRU)組成的時間編碼器,它輸出包含從前后幀合并的信息的潛在變量。

3.1. Temporal Encoder

使用當(dāng)前架構(gòu)背后的直覺是,后面的幀可以從前面關(guān)于人類姿勢的視頻信息中獲取。當(dāng)一個人的姿勢模棱兩可或身體在一個給定的框架中被部分遮擋時,這是有用的。在這里,過去的信息可以幫助解決和約束姿勢估計。時間編碼器充當(dāng)一個生成器,給定一系列幀,它在每一幀中輸出相應(yīng)的身體姿勢和形狀。T幀序列最初被饋送到卷積神經(jīng)網(wǎng)絡(luò)f,f作為特征生成函數(shù),并為每個幀輸出一個向量。這些是發(fā)送到門控遞歸單元(GRU)層[13],該層基于先前幀為每個幀g(f1),…,g(fT)生成潛在特征向量gi。然后,本文使用gi作為T回歸的輸入,迭代反饋如[29]所示。回歸器以平均姿態(tài)Θ初始化,并在每次迭代k中采用輸入電流參數(shù)Θk和特征gi。[37],本文使用6D連續(xù)旋轉(zhuǎn)表示[70]而不是軸角度。在回歸訓(xùn)練過程中,本文可以選擇采用類似于[37]的環(huán)內(nèi)設(shè)置方法。本文利用目標(biāo)函數(shù)中的形狀一致性和姿態(tài)平滑項(xiàng),擴(kuò)展了全幀匹配算法SMPLify[11]。總的來說,所提出的時間編碼器的損耗loss由2D(x)、3D(x)、姿態(tài)(θ)和形狀(β)損耗組成。

3.2. Motion Discriminator

在[29]中使用的身體鑒別器和重投影損失強(qiáng)制生成器生成與2D關(guān)節(jié)位置對齊的可行真實(shí)世界姿勢。然而,單個圖像約束不足以解釋姿勢序列。當(dāng)忽略運(yùn)動的時間連續(xù)性時,多個不精確的姿態(tài)可以被認(rèn)為是有效的。為了緩解這種情況,本文使用一個運(yùn)動鑒別器DM來判斷生成的姿勢序列是否與區(qū)域列表序列相對應(yīng)。將生成器的輸出?Θ作為圖3所示的多層GRU模型fM的輸入,該模型fM在hi=fM(?Θi)的每個時間步驟i估計潛在碼hi。最后,一個線性層預(yù)測一個值∈[0,1],表示?Θ屬于貌似人類運(yùn)動流形的概率。

3.3. Training Procedure

本文使用ResNet-50網(wǎng)絡(luò)[22]作為圖像編碼器,在單幀姿態(tài)和形狀估計任務(wù)[29,37]上預(yù)先訓(xùn)練,輸出fi∈R2048。與[30]類似,本文預(yù)先計算每個幀的fi,而不更新ResNet-50。本文使用T=16作為序列長度,最小批量大小為32,這使得本文的模型可以在單個Nvidia RTX2080ti GPU上訓(xùn)練。對于時間編碼器,本文使用一個隱藏大小為1024的2層GRU。SMPL回歸器有2個完全連接的層,每個層有1024個神經(jīng)元,然后是輸出?Θ∈R85的最終層,包含姿勢、形狀和相機(jī)參數(shù)。生成器的輸出作為假樣本輸入到DM中,同時將地真值運(yùn)動序列作為真值樣本。運(yùn)動鑒別器結(jié)構(gòu)與時態(tài)編碼器相同。對于自我注意,本文使用2個MLP層,每個層有1024個神經(jīng)元和tanh激活來學(xué)習(xí)注意權(quán)重。最終線性層預(yù)測每個樣本的單個假/真概率。與最近的環(huán)路內(nèi)設(shè)置方法[37]類似,時間SMPLify設(shè)置算法用?Θ初始化。臨時SMPLify使用L-BFGS優(yōu)化器和一個強(qiáng)大的Wolfe行搜索[47]。本文還使用Adam優(yōu)化器[32],G和DM的學(xué)習(xí)率分別為。最后,損失函數(shù)中的每個項(xiàng)都有不同的加權(quán)系數(shù)。

  1. Experiments Results

本文首先描述用于培訓(xùn)和評估的數(shù)據(jù)集。接下來,本文將本文的結(jié)果與以前基于幀和視頻的最新方法進(jìn)行比較。本文還進(jìn)行了融合實(shí)驗(yàn),以顯示本文的貢獻(xiàn)的效果。最后,本文在圖4中報告定性結(jié)果。

訓(xùn)練

在前面的工作[29,30,37]之后,本文使用了一批混合的二維和三維數(shù)據(jù)集。PennAction[69]和PoseTrack[3]是本文使用的唯一地面真值二維視頻數(shù)據(jù)集,而InstaVariety[30]和Kinetics-400[31]是使用二維關(guān)鍵點(diǎn)檢測器注釋的偽地面真值數(shù)據(jù)集[12,35]。本文使用Kinetics-400來補(bǔ)償InstaVariety數(shù)據(jù)集丟失的部分。對于3D注釋,本文使用MPI-INF3DHP[44]和Human3.6M[26]中的3D關(guān)節(jié)注釋。AMASS[43]用于對抗性訓(xùn)練,以獲得真實(shí)樣本。本文還使用3DPW[66]訓(xùn)練集進(jìn)行融合實(shí)驗(yàn)。請注意,本文更希望用3DPW數(shù)據(jù)集進(jìn)行融合實(shí)驗(yàn),以證明本文的模型在野外環(huán)境下的強(qiáng)度。沒有它的結(jié)果也被報告與以前的方法公平比較,這些方法沒有使用3DPW進(jìn)行訓(xùn)練。

評估

本文對3DPW[66]、MPI-INF3DHP[44]和人類3.6M[26]進(jìn)行了評估。本文報告有或沒有3DPW訓(xùn)練集的結(jié)果,以便與以前的工作直接比較。報告了Procrustes對齊的平均每關(guān)節(jié)位置誤差(PA-MPJPE)、平均每關(guān)節(jié)位置誤差(MPJPE)、正確關(guān)鍵點(diǎn)百分比(PCK)和逐頂點(diǎn)誤差(PVE),并與基于幀和時間的最新方法進(jìn)行了比較。還報告了3DPW的加速度誤差,該誤差是根據(jù)地面真實(shí)值與預(yù)測的各關(guān)節(jié)三維加速度之差計算的,單位為mm/s2。

4.1. Comparison to state-of-the-art-results

在表1中,本文將本文的模型(VIBE)與以前基于幀和時間的最新方法進(jìn)行了比較。VIBE(direct comp.)對應(yīng)于本文的模型,使用的數(shù)據(jù)集與Temporal HMR[30]相同。另一方面,VIBE使用3DPW訓(xùn)練集。作為標(biāo)準(zhǔn)實(shí)踐,以前的方法不使用3DPW,但是本文想證明使用3DPW進(jìn)行訓(xùn)練有助于提高本文模型的野外性能。表1中的模型使用SPIN[37]中的預(yù)訓(xùn)練HMR作為特征提取器。本文觀察到本文的方法改進(jìn)了自旋的結(jié)果,這是以前的最新技術(shù)。此外,VIBE在具有挑戰(zhàn)性的野生3DPW和MPIINF-3DHP數(shù)據(jù)集中的性能顯著優(yōu)于所有以前的基于幀和時間的方法,同時取得了與人類最先進(jìn)的方法3.6M相同的結(jié)果。請注意,Human3.6M是一個室內(nèi)數(shù)據(jù)集,受試者數(shù)量有限,背景變化最小,而3DPW和MPI-INF-3DHP則包含具有挑戰(zhàn)性的野生視頻。本文觀察到MPJPE和PVE指標(biāo)的顯著改進(jìn),因?yàn)楸疚牡哪P凸膭顣r間姿勢和形狀的一致性。這些結(jié)果驗(yàn)證了本文的假設(shè),即人體運(yùn)動學(xué)的開發(fā)對于改進(jìn)視頻中的姿態(tài)和形狀估計是非常重要的。除了重建指標(biāo),例如MPJPE、PA-MPJPE,本文還報告加速誤差(表1)。與基于基線幀的HMR[29,37]方法相比,本文獲得了更平滑的結(jié)果,而時間HMR[30]產(chǎn)生了更平滑的預(yù)測。然而,本文注意到時間HMR應(yīng)用了侵略性平滑,導(dǎo)致在快速運(yùn)動的視頻上精度差。本文在圖5中對振動和時間HMR的定性比較中證明了這一發(fā)現(xiàn)。這張圖描述了如何通過時間HMR平滑姿態(tài)預(yù)測,同時骶骨的準(zhǔn)確性。圖4中所示的交替視點(diǎn)可視化清楚地表明,本文的模型能夠恢復(fù)正確的全局旋轉(zhuǎn),這是以前方法的一個嚴(yán)重問題,通過對MPJPE和PVE度量的改進(jìn)也驗(yàn)證了這一點(diǎn)。

4.2. Ablation Experiments

表2顯示了有或沒有運(yùn)動鑒別器DM的模型的性能。首先,本文使用文獻(xiàn)[29]提出的原始HMR模型作為特征抽取器。一旦本文添加了生成器G,由于缺乏足夠的視頻訓(xùn)練數(shù)據(jù),本文得到的結(jié)果比基于幀的模型稍差但更平滑。在時間HMR方法中也觀察到了這種影響[30]。然后,使用DM有助于提高G的性能,同時還能產(chǎn)生更平滑的預(yù)測。當(dāng)本文使用來自[37]的預(yù)訓(xùn)練HMR時,本文觀察到當(dāng)使用DM超過僅使用G時類似的增強(qiáng)。本文還試驗(yàn)了MPoser作為對抗DM的強(qiáng)基線。MPoser在損失函數(shù)中充當(dāng)正則化器,以確保姿勢序列預(yù)測的有效性。盡管MPoser的性能比只使用G要好,但它比DM差。對此,一個直觀的解釋是,盡管AMASS是最大的mocap數(shù)據(jù)集,但它無法覆蓋野生視頻中所有可能出現(xiàn)的人體運(yùn)動。由于KL散度項(xiàng)[61],VAEs過度正則化,因此無法捕捉在AMASS中表現(xiàn)不佳的真實(shí)運(yùn)動。相比之下,GANs并沒有遭受這個問題的困擾[16]。注意,當(dāng)在AMASS上訓(xùn)練時,MPoser在一個保持測試集上給出4.5mm的PVE,而基于幀的對應(yīng)VPoser給出6.0mm的PVE重建誤差。



  1. Conclusions

雖然目前的三維人體姿態(tài)方法效果良好,但大多數(shù)方法都沒有經(jīng)過訓(xùn)練來估計視頻中的人體運(yùn)動。這種運(yùn)動對于理解人類行為至關(guān)重要。在這里,本文探索了幾種將靜態(tài)方法擴(kuò)展到視頻的新方法:

(1)本文引入了一種隨時間傳播信息的遞歸架構(gòu);

(2)利用AMASS數(shù)據(jù)集對運(yùn)動序列進(jìn)行判別訓(xùn)練;

(3)本文在鑒別器中引入自我注意,使它學(xué)會關(guān)注人類運(yùn)動的重要時間結(jié)構(gòu);
(4) 本文還從AMASS中學(xué)習(xí)了一個新的人類序列先驗(yàn)(MPoser),并證明了它也有助于訓(xùn)練put不如鑒別器強(qiáng)大。

本文仔細(xì)評估了本文在融合研究中的貢獻(xiàn),并在視頻基準(zhǔn)數(shù)據(jù)集上展示了每種選擇對本文最先進(jìn)的表現(xiàn)的貢獻(xiàn)。這為視頻訓(xùn)練的價值提供了明確的證據(jù)。

未來的工作應(yīng)該探索使用視頻監(jiān)控單幀方法,檢查密集的運(yùn)動線索(光流)是否有更大的幫助,使用運(yùn)動消除歧義多人情況下,利用運(yùn)動軌跡進(jìn)行遮擋跟蹤。此外,本文的目標(biāo)是實(shí)驗(yàn)其他注意編碼技術(shù),如坐標(biāo)轉(zhuǎn)換,以更好地估計身體運(yùn)動學(xué)。

總結(jié)

以上是生活随笔為你收集整理的人体姿态和形状估计的视频推理:CVPR2020论文解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。