CVPR 2020最新热点:物体位姿估计
?PaperWeekly 原創 ·?作者|文永明
學校|中山大學碩士生
研究方向|物體位姿估計、目標檢測
目錄
G2L-Net:從全局到局部的 6D 位姿估計網絡
PVN3D:3D 關鍵點投票 6D 姿態估計網絡
基于可微分代理投票損失的 6D 姿態估計
G2L-Net
論文標題:G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.11089
代碼鏈接:https://github.com/DC1991/G2L_Net
第一篇推薦的 CVPR 2020 論文來自伯明翰大學和國防科技大學,提出了一種新的實時 6D 目標姿態估計框架 G2L-Net,該網絡在 RGB-D 探測的點云上以分治的方式運行,能節省時間,并且能達到 SOTA 的效果。這篇論文很好的是已經把代碼開源放了出來。
該位姿估計模型框架流程可以分為以下三步:
第一步先從目標物體的 RGB-D 圖像獲得粗糙的點云。
第二步把目標物體的點云傳進平移定位網絡,進一步進行 3D 語義分割和估計目標物體的平移。
第三步把經過語義分割和平移后得到精細的點云轉換到局部標準坐標系,用旋轉定位網絡來訓練隊點向嵌入特征估計物體的旋轉。
▲ Fig 1. G2L-Net的框架示意圖
筆者認為這篇文章特別之處在于兩點,他們的點向嵌入特征充分利用了不同視角的信息從而提高了精度。之前大部分位姿估計模型包括 DenseFusion,它們的 refine 階段估計得位姿是異步的,也就是先訓練好粗略旋轉的網絡,進一步再去訓練細化這個旋轉。
而這篇論文另辟蹊徑在旋轉定位網絡中估計的粗略旋轉與旋轉殘差估計網絡估計的旋轉殘差同步輸出,從而節省了運行時間。
▲ Fig 2. 不同視點(對于一個3D物體,需要至少四個四點來覆蓋)
充分利用不同視角信息的想法是來自他們發現在不同視角下全局特征是高度相關高度相似的,這限制了泛化性能,在實驗部分就可以表明,在相同大小規模的數據集中,使用點向嵌入特征,由于引入的視角信息,能提高泛化能力。
▲ Fig 3. (a)相同數據規模下,G2L-Net與Frustum-P的ADD-(s)指標對比 ? ? (b)訓練輪次的影響
其中的旋轉定位網絡由三個部分組成,如圖 4 所示,先訓練 A 結構的網絡來預測指向關鍵點的單位向量,再用 B 結構來生成對于物體旋轉估計的點向嵌入向量,再用 C 結構的網絡來訓練旋轉殘差。
▲ Fig 4. 旋轉定位網絡的結構
對于旋轉定位網絡,論文指出我們可以定義如下的損失函數:
其中 表示關鍵點的數量, 表示網絡參數, 和 表示預測的向量和目標真實值, 表示物體點云的標準坐標空間, 則是點的數目。
最后來看看在 LINEMOD 數據集上的實驗效果:
▲ Fig 5. G2L-Net實驗效果
效果看起來真的很好了,ADD 指標達到了 98.7,FPS 是 23 倒是可以接受。筆者準備后續參考 github 公開的代碼實驗一番,看看到底是否真的能達到論文所說的這么好的效果來。
PVN3D
論文標題:PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/1911.04231
代碼鏈接:https://github.com/ethnhe/PVN3D
這是一項港科大、深大還有曠視研究院合作的工作,將基于 2D 關鍵點的方法引入到 3D 位姿估計中,提出一種基于霍夫投票的 3D 關鍵點檢測網絡,利用了剛體的幾何約束,提高了 6D 姿態估計的精確度。這篇論文代碼也已經開源啦,有興趣的同學可以去看看。
▲ Fig 6. PVN3D總框架
以 RGBD 圖像為輸入,使用特征提取模塊融合外觀特征和幾何信息。將學習到的特征輸入三維關鍵點檢測模塊 , 經過訓練可以預測每個點的偏移量。此外,還是用了實例語義分割模塊 預測每個點的語義標簽,而中心投票模塊 預測每個點到對象中心的偏移量。
通過學習每個點的偏移量,使用聚類算法來區分具有相同語義標簽的不同實例和相同實例上的點對目標關鍵點進行投票。最后,將最小二乘擬合算法應用于預測關鍵點,估計出 6 自由度的位姿參數。
投票的點由聚類算法進行聚類以消除離群點的干擾,群集的中心點被選為投票選出的關鍵點,預測每個點偏移量的損失函數:
給定提取出的逐點特征,語義分割模塊 預測每點的語義標簽,論文使用了 Focal loss:
而中心點投票模塊 投票出不同物體的中心點,以區分相同語義的不同實例,論文中使用了 L1 損失函數進行監督學習:
最終的多任務損失函數為:
對于關鍵點的選擇訓練實現,將最小二乘擬合算法應用于預測關鍵點:
同樣,我們看一下在 LINEMOD 數據集上的實驗效果,ADD(S) 指標是 95.1:
▲ Fig 7. PVN3D實驗效果
YCB-Video 數據集的定性實驗效果圖:
▲ Fig 8. PVN3D定性實驗(YCB-Video)
可以看到是比 DenseFusion 的效果稍好,DenseFusion 右邊有個鉗子都反了,而 PVN3D 沒有,不過是部分定性實驗的效果,未知全貌了。
DPVL
論文標題:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2002.03923
這是一項來自澳大利亞國立大學的工作,可謂是“小題大做”型的論文了,論文考慮的角度是,基于向量場的關鍵點投票已經證明了它在解決 6D 位姿估計問題上的有效性和優越性。
然而,向量場的直接回歸忽略了像素點與關鍵點之間的距離對假設偏差的影響。換句話說,當像素遠離關鍵點時,方向向量上的小誤差可能會對預估的關鍵點產生嚴重偏差。直觀點就是如圖 9 所示:
▲ Fig 9. DPVL
相同的角度,當距離越遠時,預估的關鍵點會和實際的關鍵點產生更大的距離偏差。為了解決這種忽略了像素點與關鍵點之間的距離對假設偏差的影響,他們提出了一種可微分的代理投票損失。
▲?Fig 10. DPVL總框架
論文作者使用了 smooth L1 損失來回歸真實的方向向量:
其中, 表示估計的方向向量, 表示物體的掩碼, 表示知識函數, 表示標量變量。
如前所述,單位方向向量估計誤差較小,也可能會導致假設偏差較大,假設點不集中會導致關鍵點不準確,從而降低姿態估計的性能。與以前的工作不同,考慮了假設點的分布,并強制所有的假設點接近于真實關鍵點。假設一個對象包含 個像素,則有??個假設。
雖然對于從兩個像素點獲得兩個方向向量的假設有一個封閉的解,但是計算所有的假設會導致深度網絡的訓練效率低下,特別是當一個物體的分辨率非常大的時候,由于決定一個關鍵點到直線上某個點的距離是沒有上界的,而是有下界的。
所以選擇使用通過一個關鍵點的垂線的垂足來近似代理假設點。這樣,我們只需要計算 個垂線,而不是 個假設,大大減少了計算量。
更重要的是,一個關鍵點 與垂足 與像素 的方向向量 之間的距離是一個閉合形式的解,也是可微的。因此,將距離最小化作為可微分的代理投票損失(DPVL) ,以迫使代理假設點更接近于關鍵點:
其中 ,由于 是直接從我們的網絡中估計出來的,它可能不是單位向量,所以在這里面中有一個歸一化操作。
在 LINEMOD 數據集上的實驗效果,ADD(S) 指標是 91.50:
效果上在這三篇里面是最低的了,但是貴在文章的可微分的公式推理上有可取之處,定性效果如下:
對比原來向量場的直接回歸的方法 PVNet 來說,是有所改進的。
總結
毫無疑問,對于視覺領域來說,越來越多跡象顯示未來的研究熱點要么在時間維度上,比如視頻的處理和理解。另外一個就是在空間維度上做文章,如三維視覺(三維感知、SLAM、三維物體識別與分割、位姿估計),這里面 6 自由度的物體位姿估計的論文應該會越來越多,也會越做越好。
點擊以下標題查看更多往期內容:?
CVPR 2020 | 商湯TSD目標檢測算法解讀
CVPR 2020 | 無域標簽下高清場景時移變換
從近年CVPR看域自適應立體匹配
CVPR 2020 三篇有趣的論文解讀
CVPR 2020 | 港中文提出3D目標檢測新框架
多目標跟蹤領域近期值得讀的幾篇論文
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020最新热点:物体位姿估计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 建行三个能力建设指什么
- 下一篇: 运营 64 航次,首艘国产大型邮轮“爱达