点云配准的端到端深度神经网络:ICCV2019论文解读
點云配準的端到端深度神經網絡:ICCV2019論文解讀
DeepVCP: An End-to-End Deep Neural Network
for Point Cloud Registration
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Lu_DeepVCP_An_End-to-End_Deep_Neural_Network_for_Point_Cloud_Registration_ICCV_2019_paper.pdf
摘要
本文提出了一種新的基于端到端學習的三維點云配準框架DeepVCP,其配準精度可與現有的最新幾何方法相媲美。與通常需要RANSAC過程的其他基于關鍵點的方法不同,本文使用不同的深度神經網絡結構來建立端到端的可訓練網絡。本文的關鍵點檢測器通過這種端到端的結構進行訓練,使系統能夠避免動態對象的干擾,充分利用靜止對象上的顯著特征,從而實現高魯棒性。與其在現有的點之間尋找對應的點,關鍵的貢獻在于本文創新性地基于一組候選點之間的學習匹配概率生成它們,從而提高了配準的準確性。本文使用KITTI數據集和Apollo SouthBay數據集全面驗證了本文的方法的有效性。結果表明,本文的方法與目前最先進的基于幾何的方法相比,具有相當的配準精度和運行效率,但對不精確的初始姿態具有更高的魯棒性。包括詳細的消融和可視化分析,以進一步說明本文網絡的行為和見解。該方法具有配準誤差小、魯棒性強的特點,對依賴點云配準的實際應用具有一定的吸引力。
- Introduction
在這篇題為“DeepVCP”(虛擬對應點)的工作中,本文提出了一種基于端到端學習的方法來精確對齊兩個不同的點云。DeepVCP這個名字準確地抓住了虛擬對應點生成步驟的重要性,這是本文方法中提出的關鍵創新設計之一。本文的框架的概述如圖1所示。本文首先使用最新的點云特征提取網絡PointNet++[31]從源點云和目標點云中提取每個點的語義特征。它們被期望具有一定的語義,以使本文的網絡能夠避免動態對象,并關注那些有利于配準的穩定和獨特的特征。為了進一步實現這一目標,本文在源點云中選擇對配準任務最重要的關鍵點,利用點加權層通過學習過程為提取的特征分配匹配權重。為了解決點云的局部稀疏性問題,提出了一種基于特征描述子提取過程的點云生成方法。本文相信這是提高配準精度的關鍵貢獻。最后,除了利用源關鍵點與生成的對應點之間的L1距離作為損失外,本文還提出了通過自適應地合并關鍵點權重并使用TensorFlow中新引入的SVD算子執行一次優化迭代來構造另一個對應點。關鍵點和這個新生成的對應點之間的L1距離再次被用作另一個損失。與第一個僅使用局部相似性的損失不同,這個新引入的損失在局部關鍵點之間建立了統一的幾何約束。通過端到端的閉環訓練,DNNs可以很好地進行泛化,選擇最佳的關鍵點進行配準。
總之,本文的主要貢獻是:
?據本文所知,本文的工作是第一個基于端到端學習的點云配準框架,其結果與以前的原始幾何狀態相當。
?本文的基于學習的關鍵點檢測、新的對應點生成方法以及融合了局部相似性和全局幾何約束的損失函數,在基于學習的配準任務中實現了高精度。
?使用KITTI[13]和Apollo SouthBay[25]數據集進行嚴格的測試和詳細的融合分析,以充分證明所提出方法的有效性。
- Related Work
F.Pomerleau等人的調查工作。[29]對傳統點云配準算法的發展進行了很好的概述。[3,37,26,39,44]是其中的代表作。對這些方法的全部文獻的討論超出了本工作的范圍。嘗試使用基于學習的方法首先替換經典點云配準管道中的每個單獨組件。S、 Salti等人。[35]建議使用預先定義的描述符將三維關鍵點檢測問題表述為二進制分類問題,并嘗試學習隨機森林[4]分類,該分類能夠找到適合匹配的適當關鍵點。M、 Khoury等人。[21]提出首先將輸入的非結構化點云參數化為球面直方圖,然后訓練一個深度網絡將這些高維球面直方圖映射到歐氏空間的低維描述符。
在關鍵點檢測和描述符學習方法方面,與本文的建議最接近的工作是[46]。它沒有構建端到端的配準框架,而是著重于關鍵點和描述符的聯合學習,以最大限度地提高點云對之間的局部差異性和相似性。G、 Georgakis等人。[14] 解決了RGB-D數據的類似問題。深度圖像由改進的快速R-CNN結構處理,用于聯合keypoint檢測和描述符估計。盡管方法各不相同,但它們都側重于表現關鍵點的局部顯著性和相似性。在關鍵點選擇過程中,由于缺乏端到端框架中引入的全局幾何約束,忽略了真實場景中的內容感知。 因此,在這些方法中不能拒絕場景中動態對象上的關鍵點。
最近的一些工作[49,11,7,1]提出利用DNNs學習3D描述子,并試圖解決3D場景的識別和再定位問題,其中獲取準確的局部匹配結果不是目的。為了實現這一目標,配準登記仍然需要采用國際比較項目的方法。M、 Velas等人。[41]將三維激光雷達數據編碼為專門為多光束機械激光雷達設計的二維表示。CNNs被用來作為一個分類或回歸問題來推斷6自由度姿態。在此基礎上建立了IMU輔助的激光測距系統。本文的方法直接處理原始的無序點云,并將其設計為一個通用的點云配準解決方案。
- Method
本節詳細描述了如圖2所示設計的擬議網絡的體系結構。
3.1. Deep Feature Extraction
本文的網絡輸入包括源點云和目標點云、預測(先驗)變換和僅在訓練階段需要的地面真位姿。第一步是從點云中提取特征描述符。在提出的方法中,本文使用一個深神經網絡層來提取特征描述符,即特征提取(FE)層。如圖2所示,本文將源點云(表示為N1×4張量)送入鐵層。輸出是表示提取的局部特征的N1×32張量。本文在這里使用的FE層是PointNet++[31],這是一個解決在網絡體系結構中使用無序點問題的創新性工作。本文還考慮在未來嘗試旋轉不變的3D描述符[6,16,23]。這些局部特征具有一定的語義意義。結合下一步將要引入的加權層,本文期望本文的端到端網絡能夠避免來自動態對象的干擾,并提供精確的配準估計。在第4.4節中,本文將可視化選定的關鍵點,并演示如何成功避免動態對象。
3.2. Point Weighting
受3DFeatNet[46]中注意層的啟發,本文設計了一個點加權層來學習端到端框架中每個點的顯著性。理想情況下,靜態對象上具有不變和不同特征的點應分配更高的權重。如圖2所示,將源點云的N1×32局部特征輸入點權層。加權層由3層全連接層的多層感知器(MLP)和top k操作組成。前兩個完全連接的層使用批處理規范化和ReLU激活函數,最后一層省略規范化并應用softplus激活函數。通過top k算子選擇最重要的N個點作為關鍵點,并在后續過程中使用它們的學習權重。本文的方法與3DFeatNet[46]有幾個不同之處。首先,注意層中使用的特征是從局部補丁中提取的,而本文的特征是直接從點云中提取的語義特征。本文從編碼器-解碼器類型的網絡(PointNet++[31])中學習到了更大的接收字段。此外,本文的加權層不輸出1D的旋轉角度來確定特征方向,因為本文在下一節的特征嵌入層的設計使用了對稱和各向同性的網絡結構。
3.3. Deep Feature Embedding
從源點云中提取N個關鍵點后,尋找目標點云中的對應點進行最終配準。為了達到這一目的,本文需要一個更詳細的特征描述,能夠更好地表示它們的幾何特征。因此,本文在它們的鄰域點上應用深度特征嵌入(DFE)層來提取這些局部特征。本文使用的DFE層是一個mini PointNet[30,7,25]結構。具體來說,本文在每個關鍵點的特定半徑d內收集K個相鄰點。如果相鄰點少于K個,本文只需復制它們。對于所有相鄰點,本文使用它們的局部坐標并通過搜索半徑d將它們規范化。然后,本文將第3.1節中提取的FE特征與相鄰點的局部坐標和LiDAR反射強度連接起來作為DFE層的輸入。迷你點網由三層全連接層的多層感知器(MLP)和一個maxpooling層組成,用于聚合和獲取特征描述符。如圖2所示,DFE層的輸入是一個N×K×36矢量,它是指鄰域中每個點的局部坐標、強度和32維有限元特征描述。DFE層的輸出也是一個32維向量。在第4.3節中,本文展示了DFE層的有效性,以及它如何幫助顯著提高配準精度。
3.4. Corresponding Point Generation
輸出是一個N×C×32張量。與[25]類似,那些表示從源和目標提取的DFE特征描述符的張量被輸入到三層3D CNNs中,然后進行softmax操作,如圖2所示。三維CNNs可以學習到源特征和目標特征之間的相似距離度量,更重要的是,它可以平滑(正則化)匹配體并抑制匹配噪聲。使用softmax操作將匹配成本轉換為概率。
3.5. Loss
其中α是平衡因子。在第4.3節中,本文展示了損失設計的有效性。實驗結果表明,采用L1損耗時,收斂速度更快,精度更高。值得注意的是,在訓練期間,估計的對應關鍵點yi實際上是作為估計的變換(R,T)一起不斷更新的。當網絡收斂時,估計出的相應關鍵點與地面真實值無限制地接近。有趣的是,這個訓練過程實際上與經典的ICP算法非常相似。而網絡只需要一次迭代就可以找到最優對應的關鍵點,然后在推理過程中對變換進行估計,這是非常有價值的。
3.6. Dataset Speci?c Re?nement
此外,本文還發現,KITTI和Apollo-SouthBay數據集具有一些特征,可以用來進一步提高配準精度。補充材料中介紹了使用許多不同數據集的實驗結果。這種特定的網絡復制方法不適用于這些數據集。由于來自Velodyne HDL64的點云在z方向上分布在一個相對狹窄的區域內,因此限制z方向的關鍵點通常與其他兩個不同,例如地平面上的點。這會導致z、橫滾和俯仰方向的配準精度下降。為了解決這個問題,本文實際上復制了整個網絡結構,如圖2所示,并以級聯模式使用網絡的兩個副本。后網絡使用來自前網絡的估計變換作為輸入,但在后者的CPG步驟中,僅用z方向的1D-one采樣替換3D cnn。兩個網絡共享同一個FE層,因為本文不想兩次提取FE特征。這提高了z、roll和pitch的估計精度。
- Experiments
KITTI Dataset
本文以30幀的間隔對輸入源的激光雷達掃描進行采樣,并在距離它5米的范圍內枚舉其注冊目標。數據集中的原始點云包含約108000個點/幀。本文將原始點云用于ICP、G-ICP、AA-ICP、NDT和3DFeat網等方法。為了使CPD的計算時間不難處理,本文使用0.1m大小的體素對點云進行了降采樣,平均留下約50000個點。所有方法的運行時間統計如圖3所示。對于本文提出的方法,本文評估了兩個版本。一個是基礎版本,表示為“本文的基礎”,它可以同時推斷所有自由度x、y、z、橫搖、俯仰和偏航。另一個是本文在第3.6節中討論的網絡復制的改進版本,稱為“本文的復制”。所有方法的角度和平移誤差見表1。可以看出,對于KITTI數據集,DeepVCP在大多數基于幾何的方法(如AA-ICP、NDT-P2D)中達到了可比的配準精度,但其性能略低于G-ICP和ICP,尤其是在角度誤差方面。較低的最大角誤差和平移誤差表明,該方法具有良好的魯棒性和穩定性,在大點云配準任務中具有顯著提高系統整體性能的潛力。
Apollo-SouthBay Dataset
在阿波羅南灣數據集中,本文以100幀間隔采樣,并再次枚舉5米距離內的目標。每個單獨方法的所有其他參數設置都與KITTI數據集相同。角度和平移誤差見表2。對于Apollo SouthBay數據集,包括本文的方法在內的大多數方法都有性能改進,這可能是由于該數據集提供了更好的地面真實姿勢。與其他傳統方法相比,本文采用重復設計的系統達到了次優的平均平移精度和可比的角度精度。此外,最小最大平移誤差證明了本文提出的基于學習的方法具有良好的魯棒性和穩定性。
Run-time Analysis
本文使用GTX 1080 Ti GPU、Core i7-9700K CPU和16GB內存評估框架的運行時性能,如圖3所示。對于在第3.6節中的重復設計中注冊幀對,本文的網絡的端到端推理總時間約為2秒。請注意,DeepVCP比其他基于學習的方法3DFeat Net[46]快得多,因為本文只提取64個關鍵點,而不是1024個,并且不依賴RANSAC過程。
Deep Feature Embedding
強度相連接來構造網絡輸入。現在,本文通過進行以下實驗來更深入地了解這一設計選擇:
i) LLF-DFE:僅使用局部坐標和強度;
ii)FEF-DFE:僅使用FE特性;
iii)FEF:丟棄DFE層。
FE特性直接用作CPG層的輸入。在目標點云中,網格體素中心的有限元特征被插值。可以看出,DFE層對該任務至關重要,因為如果沒有DFE層,性能會嚴重下降,如表3所示。LLF-DFE和FEF-DFE提供了競爭性的結果,而本文的設計提供了最佳的性能。 本文使用GTX 1080
Ti GPU、Core i7-9700K CPU和16GB內存評估框架的運行時性能,如圖3所示。對于在第3.6節中的重復設計中注冊幀對,本文的網絡的端到端推理總時間約為2秒。請注意,DeepVCP比其他基于學習的方法3DFeat Net[46]快得多,因為本文只提取64個關鍵點,而不是1024個,并且不依賴RANSAC過程。
Corresponding Points Generation
為了證明CPG的有效性,本文考慮到預測的變換,直接在目標點云中的現有點中尋找最佳對應點。具體來說,對于每個源關鍵點,選擇目標鄰域特征空間中相似度得分最高的點作為對應點。結果表明,利用本文提出的損失函數,它無法收斂。原因可能是正負樣本比例極不平衡。
在第3.5節中,本文建議使用兩個損失的組合來整合全局幾何信息,并引入平衡因子α。為了證明使用這兩種損失的必要性,本文從0.0到1.0的范圍內抽取了11個α值,并觀察了配準精度。在圖4中,本文發現0.0和1.0的平衡因子顯然會產生較大的角度和平移平均誤差。這清楚地證明了組合損失函數設計的有效性。同樣有趣的是,它對0.1-0.9之間的α產生類似的精度。本文認為這可能是由于深層神經網絡強大的泛化能力。網絡中的參數可以很好地推廣到采用0.0或1.0以外的任何α值。因此,本文在所有實驗中使用0.6。
Visualization of Keypoints
在第3.1節中,本文建議使用PointNet++[31]提取語義特征,并使用MLP網絡結構對其進行加權。本文希望本文的端到端框架能夠智能地學習選擇在靜止物體(如交通桿、樹干)上唯一且穩定的關鍵點,但避免在動態物體(如行人、汽車)上選擇關鍵點。除此之外,本文在第3.6節中復制了本文的網絡。帶有3D CNNs-CPG層的前端網絡有望找到有意義的關鍵點,這些關鍵點在所有六個自由度上都有很好的約束。而具有1D CNN的后置網絡在z、橫滾和俯仰方向都很好。在圖5中,將檢測到的關鍵點與真實場景中的相機照片和激光雷達掃描進行比較。粉紅色和灰色的關鍵點分別由前網絡和后網絡檢測。本文觀察到,關鍵點的分布符合本文的期望,因為粉色的關鍵點大多出現在具有顯著特征的物體上,如樹干和桿子,而灰色的則大多出現在地面上。即使在有很多汽車或公共汽車的場景中,也沒有檢測到關鍵點。這表明,本文的端到端框架能夠檢測出有利于點云注冊任務的關鍵點。
Visualization of CPG Distribution
第3.4節中的CPG層估計每個關鍵點與其候選對應點的匹配相似概率。圖6用9個固定的z值在x和y維度上顯示了估計的概率。在左側和右側,黑色和粉色點分別是源點云的關鍵點和目標中生成的關鍵點。可見,檢測到的關鍵點非常明顯,匹配概率集中分布。
- Conclusions
本文已經為點云注冊任務提供了一個端到端的框架。本文網絡中新穎的設計使本文的基于學習的系統達到了與最先進的幾何方法相當的配準精度。結果表明,本文的網絡能夠自動學習哪些特征對注冊任務有利,從而產生異常值拒絕能力。與ICP及其變體相比,它得益于深層特征,對不準確的初始姿勢更為穩健。基于在最先進的深度學習框架中,GPU加速具有良好的運行效率,不比普通的幾何方法差。相信本文的方法是有吸引力的,并有很大的應用潛力。在這項工作的進一步擴展中,本文將探索如何在更廣泛的應用場景中使用更多的LiDAR模型來提高訓練模型的泛化能力。
總結
以上是生活随笔為你收集整理的点云配准的端到端深度神经网络:ICCV2019论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人脸真伪验证与识别:ICCV2019论文
- 下一篇: 图像超分辨率与天气预报