日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

单目摄像头检测6D姿态

發布時間:2023/11/28 生活经验 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 单目摄像头检测6D姿态 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

單目攝像頭檢測6D姿態

CVPR2019: ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape

論文鏈接:

https://arxiv.org/pdf/1812.02781.pdf

摘要

本文提出了一種端到端單目三維目標檢測和度量形狀檢索的深度學習方法,將二維檢測、定位和尺度估計提升到三維空間,提出了一種新的損失公式。三維實例化不需要單獨優化這些數量,而是允許正確測量框的度量偏差。實驗表明,本文提出的稀疏二維感興趣區域(RoIs)的10D提升方法在6D姿態和恢復實例的紋理度量幾何方面都取得了很好的效果。這進一步通過將恢復的網格直接修復到2D場景上來實現3D合成數據增強。本文在KITTI3D上對其他強單目方法進行了評估,并證明本文的方法在官方測試集的3D姿勢度量上是AP的兩倍,定義了新的技術狀態。

本文提出了一種單目深網絡,它可以在三維空間精確估計和形狀恢復的情況下提升二維檢測,直接優化一種新的三維損失公式。本文發現,最大化三維對齊端到端的6D姿態估計,導致了非常好的結果,因為本文優化的數量正好是本文所尋求的。本文對KITTI3D中的姿態分布以及如何在恢復網格的情況下利用這些信息進行合成數據增強提供了一些有見地的分析。這個反射對改善姿勢很有幫助,改進了recall召回率。然而,非最大抑制2和3是對最終結果的主要影響,也應在未來的工作中加以解決。

主要貢獻

本文提出了一種端到端單目三維目標檢測和度量形狀檢索的深度學習方法,提出了一種新的端到端單眼三維目標檢測方法,即以單個RGB圖像為輸入,預測目標在3D中的位置和范圍。本文的核心思想是通過使用單目深度網絡提升預測的感興趣區域(roi)來回歸面向3D的包圍盒。主要貢獻是:

1.用于單目3D物體檢測的端到端多尺度深度網絡,包括一個可微的2D到3D RoI提升地圖,該地圖內部回歸了3D盒子實例化所需的所有組件;通過將2D檢測、定向和尺度估計提升到3D空間來制定oss。三維實例化不需要單獨優化這些數量,而是允許正確測量框的度量偏差。實驗表明,本文提出的稀疏二維感興趣區域(RoIs)的10D提升方法在6D姿態和恢復實例的紋理度量幾何方面都取得了很好的效果。這進一步通過將恢復的網格直接修復到2D場景上來實現3D合成數據增強。本文在KITTI3D上對其他強單目方法進行了評估,并證明本文的方法在官方測試集的3D姿勢度量上是AP的兩倍,定義了新的技術狀態。

2.一個損失函數,在度量空間中對齊這些3D框,直接將它們相對于地面真值3D框的誤差最小化;

3.擴展本文的模型,以預測度量紋理網格,支持進一步的三維推理,包括三維相干合成數據增強。

概述

算法流程

本文稱本文的方法為“ROI-10D”,因為它提升了感興趣的2D區域3用于預測6個自由度姿勢(旋轉和平移)、3個自由度空間范圍和1個或多個自由度形狀的三維。

圖2. 算法總覽。

本文使用ResNet-FPN架構和單目深度預測網絡對輸入圖像進行二維檢測。本文使用預測感興趣區域(RoI)從ResNet-FPN和深度網絡中提取融合的特征圖,在回歸3D邊界框之前進行roalign操作,本文稱之為RoI提升

1.從單目2D到6D姿態

選擇將旋轉編碼為4D四元數,將平移編碼為投影的二維物體質心以及相關的深度。此外,本文將三維范圍描述為在整個數據集上與平均范圍的偏差。

圖3. 本文的提升F對所有組件進行回歸以估計3D框B(藍色)。從這里開始,本文的損失最小化了指向地面真相B*的點方向距離(紅色)。

本文對這些3D錨的2D實例化是稀疏的,可以在整個圖像平面上工作。雖然這樣的三維錨顯式地提供了物體的三維位置,但本文額外的自由度也需要估計深度。

2.三維提升位姿誤差估計

僅從單目數據估計姿態時,像素空間中的微小偏差會導致3D中的較大誤差,另外,對每一項進行單獨的懲罰會導致不穩定的優化,并且容易產生次優的局部極小值。本文建議將問題提升到3D,并使用一個描述完整6D姿勢的代理損失。因此,本文不強制同時對所有術語進行同等優化,而是讓網絡在訓練期間決定其重點。

給定一個地面真值3D框B?:={B?1,…,B?8}及其相關的2D檢測X,本文運行本文的提升圖來檢索3D預測F(X)=B。損失本身是度量空間中八個角距離的平均值

3.向心回歸與中心提升

提升多個工作強調了估計單目數據,特別是大視場的異中心姿態的重要性。圖4描述了這種差異,其中相對于相機的相對對象平移改變了觀察到的視點。因此,本文遵循同樣的原則,因為roi失去了全局上下文。因此,在F內的回歸過程中,旋轉q被認為是非中心的,然后用推斷的平移進行校正,以構建以中心為目標的3D盒。

圖4。中心(上)和非中心(下)姿勢的比較。當中心的姿勢在轉換時會對攝影機進行視點更改時,以自我為中心的姿勢總是顯示相同的視圖,與對象的位置無關。


4.物體形狀學習與檢索

    光滑形狀空間的學習:光滑形狀空間的學習

在實驗過程中,本文發現形狀空間在遠離平均值的情況下是快速不連續的,從而導致網格退化。利用主成分分析(PCA)方法生成合適的形狀需要根據其標準差對每個維度進行評估,為了避免這個繁瑣的過程,本文訓練了一個由編碼器E和解碼器D組成的三維卷積自動編碼器,并對輸出TSDF施加不同的約束。

5.合成三維數據增強

    本文不使用強大的手動或地圖優先級來放置場景中的合成對象。取而代之的是,本文采用非中心姿勢來移動三維物體而不改變視點。本文在3D中應用一些旋轉攝動來產生新的不可見姿勢并減少過度擬合。圖6展示了一個綜合生成的訓練樣本。紅色邊界框顯示原始的地面真值注釋,而綠色邊界框則顯示綜合添加的汽車及其采樣的6D姿勢。

主要結果

    如表1和表3所示,由于嚴格的3D-NMS,本文的方法在2D中的性能較差,但在鳥瞰圖和3D AP中,本文是最強的。這突出了適當的數據分析以抵消過度擬合的重要方面。在官方測試中,本文得到的3D AP大約是本文最近的單眼競爭對手的兩倍。


表1. KITTI3D驗證[3]和官方KITTI3D測試集的3D檢測性能。本文報告了鳥瞰圖和3D IoU的AP,每個指標的官方IoU閾值為0.7。注意,本文只評估了在線測試集上的合成ROI-10D版本。

表3. 從[3]中分離出列車/驗證的不同加權策略和輸入模式。本文的AP涉及二維檢測、鳥瞰挑戰和三維IoU。除了官方的IoU閾值0.7,本文對比了0.5的軟閾值。

上圖 與初始值無關,本文可以觀察到本文的損失總是平穩地收斂到全局最優。本文還從公式3中顯示了每個雅可比分量的大小,并且可以看出,損耗強烈集中在深度上,同時對旋轉和二維質心位置的重要性穩步增加

上圖 給定2droix的控制性升降損失實驗。上圖:在相機和鳥瞰圖的優化過程中可視化F(X)。底部:每個提升組件的梯度大小,在所有運行中平均。本文參考完整動畫的補充。

    通過檢查2D AP中的下降,本文意識到本文的增強設計是無遮擋的,以避免與環境不現實的交叉。反過來,這導致了強遮擋實例的弱表示和另一個引入的偏差。本文在圖2中還顯示了一些定性結果。

上圖測試(左)和驗證(右)集上的定性結果。值得注意的是,本文只是在訓練集訓練,以確保本文從來沒有看到過這些圖像。對于驗證樣本,本文還用紅色描繪了地面真實姿勢。

總結

以上是生活随笔為你收集整理的单目摄像头检测6D姿态的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。