當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

自动驾驶中图像与点云融合的深度学习研究进展综述

發布時間：2023/11/27 生活经验 40 豆豆

生活随笔收集整理的這篇文章主要介紹了自动驾驶中图像与点云融合的深度学习研究进展综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點云PCL免費知識星球，點云論文速讀。

文章：Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

作者：Yaodong Cui, IEEE, Ren Chen, Wenbo Chu, Long Chen

翻譯：particle

本文僅做學術分享，如有侵權，請聯系刪除。歡迎各位加入免費知識星球，獲取PDF論文，歡迎轉發朋友圈分享快樂。

論文閱讀模塊將分享點云處理，SLAM，三維視覺，高精地圖相關的文章。公眾號致力于理解三維視覺領域相關內容的干貨分享，歡迎各位加入我，我們一起每天一篇文章閱讀，開啟分享之旅,有興趣的可聯系微信dianyunpcl@163.com。

●論文摘要

在過去的幾年里，自動駕駛汽車得到了迅速的發展。然而，由于駕駛環境的復雜性和動態性，實現完全自主并非易事。因此，自動駕駛車輛配備了一套不同的傳感器，以確保強健、準確的環境感知。尤其是攝像機融合正成為一個新興的研究主題。然而，到目前為止，還沒有關于基于深度學習的相機激光雷達融合方法的評論。為了彌補這一差距并推動未來的研究，本文致力于回顧最近基于深度學習的數據融合方法，這些方法同時利用圖像和點云。簡要介紹了圖像和點云數據處理的深度學習。接著對攝像機激光雷達融合方法在深度學習領域的目標檢測、語義分割、跟蹤和在線交叉傳感器標定等方面進行了深入的綜述，并根據各自的融合層次進行了綜述。此外，我們在公開的數據集上比較了這些方法。最后，我們發現了當前學術研究與實際應用之間的差距和挑戰。在此基礎上，我們提出了自己的見解，并指出了未來的研究方向。

圖像數據與點云數據的比較

●?相關工作與介紹

傳感器融合技術利用多種具有互補特性的傳感器來增強感知能力，降低成本，已成為一個新興的研究課題。特別是深度學習技術提高了攝像機-激光雷達融合算法的性能。相機和激光雷達具有互補的特性，這使得融合模型比其他傳感器融合配置更有效、更受歡迎。更具體地說，基于視覺的感知系統以低成本獲得了令人滿意的性能，然而，單攝像頭感知系統無法提供可靠的3D幾何結構，這對于自主駕駛至關重要。另一方面，立體相機可以提供三維幾何體，但這樣做的計算成本很高，并且在高遮擋和無紋理的環境中依舊很難實現。此外，相機基礎感知系統與復雜或惡劣的照明條件作斗爭，這限制了它們的全天候工作能力。相反，激光雷達可以提供高精度的三維幾何圖形，并且對環境光是不變性的。然而，移動式激光雷達受到分辨率低、低刷新率（10Hz）、惡劣天氣條件（大雨、霧和雪）和高成本的限制。為了緩解這些挑戰，許多研究將這兩種互補傳感器結合起來。

? ? ? ? 基于圖像和點云融合的感知任務及其相應部分

相機-激光雷達融合不是一個簡單的任務。首先，攝影機通過將真實世界投影到圖像平面來記錄真實環境，而點云則保留了三維幾何圖形。此外，在數據結構上，點云是不規則的、無序的、連續的，而圖像是規則的、有序的、離散的。點云和圖像的這些特征差異導致了不同的特征提取方法。在圖1中，比較了圖像和點的特征。先前關于多模數據融合深度學習方法的綜述涵蓋了廣泛的傳感器，包括雷達、攝像機、激光雷達、超聲波、IMU、里程表、GNSS和HD地圖。

本文只關注相機融合，因此能夠對各種方法進行更詳細的綜述。此外，我們還涵蓋了更廣泛的感知相關主題（深度完成、動態和靜態目標檢測、語義分割、跟蹤和在線交叉傳感器校準），這些主題是相互關聯的。本文的主要貢獻如下：

?據我們所知，本文首次對自主駕駛中基于深度學習的圖像和點云融合方法進行了研究，包括深度完成、動態和靜態目標檢測、語義分割、圖像融合、圖像融合、點云融合等，跟蹤和在線交叉傳感器校準。

?本文根據融合方法對方法進行了組織和評審。此外，本文還介紹了最新的（2014-2020年）最新的相機-激光雷達融合方法的概述和性能比較。

?本文提出了一些被忽視的開放性問題，如開放檢測和傳感器不可知論框架，這些問題對于自主駕駛技術的實際應用至關重要。

關于點云的深度學習分類可以查看以下文章：

三維點云語義分割總覽

【論文速讀】點云深度學習論文綜述

【論文速讀】2020最新點云深度學習綜述

● 內容精華

一，深度估計

深度估計模型是一種通過將稀疏的點云通過上采樣的方法生成稠密有規則的深度值（點云），這樣生成的點云更加有利于后期的感知模塊的實現，這種模型可以改善激光雷達掃描得到的點云的不均勻分布。這種上采樣的方法通常是通過高分辨率的圖像作為輔助條件來完成稠密深度值得生成。該圖說明了不同的層次的深度值生成方案的時間線。

圖給出了深度估計模型的時間軸及其相應的融合方法

圖像引導深度完值估計背后的思想是密集的RGB/顏色信息包含相關的3D幾何信息。因此，圖像可以作為深度采樣的參考。

二，單目和激光雷達的融合：

1）信號級融合：2018年，Ma等人提出了一種基于ResNet的自動編碼器網絡，該網絡利用RGBD圖像（即與稀疏深度圖連接的圖像）來預測密集深度圖。為了實時生成清晰的密集深度圖，Cheng等人將RGB-D圖像傳送到卷積空間傳播網絡（CSPN）。

2）特征級融合：Jaritz等人提出了一種自動編碼器網絡，它可以在不應用有效性掩碼的情況下，從稀疏深度圖和圖像中執行深度完成或語義分割。圖像和稀疏深度圖首先由兩個基于NASNet的并行編碼器進行處理，然后將它們融合到共享解碼器中。這種方法可以在非常稀疏的深度輸入（8通道激光雷達）下獲得良好的性能。

GuideNet將圖像特征融合到編碼器不同階段的稀疏深度特征，引導稀疏深度的上采樣，在KITTI深度完成基準中達到了最高性能。這些方法的局限性在于缺乏具有密集深度-地面真實性的大規模數據集。

3）多層次融合：Van Gansbeke等人]在圖像引導深度完成網絡中進一步結合了信號級融合和特征級融合。該網絡由一個全局分支和一個局部分支組成，對RGB-D數據和深度數據進行并行處理，然后根據置信圖進行融合。

三，立體相機和激光雷達融合

與RGB圖像相比，立體相機的密集深度視差包含了更豐富的地面真實三維幾何結構。另一方面，激光雷達的深度是稀疏的，但精度較高。這些互補特性使得基于立體激光雷達融合的深度完成模型能夠產生更精確的密集深度。不過，值得注意的是，立體攝像頭的射程有限，在高遮擋、無紋理的環境中也會遇到困難。

四，動態物體的檢測

目標檢測（3D）的目標是在三維空間中定位、分類和估計有方向的邊界框。本節致力于動態目標檢測，包括常見的動態道路對象（汽車、行人、騎車人等）。目標檢測有兩種主要方法：順序檢測和單步檢測。基于序列的模型按時間順序由預測階段和三維邊界框（bbox）回歸階段組成。在預測階段，提出可能包含感興趣對象的區域。在bbox回歸階段，基于從三維幾何中提取的區域特征對這些建議進行分類。然而，序列融合的性能受到各個階段的限制。另一方面，一步模型由一個階段組成，其中二維和三維數據以并行方式處理。圖4和圖5顯示了3D目標檢測網絡和典型模型結構的時間線。

三維目標檢測網絡的時間軸及其相應的融合方法

三種典型動態目標檢測模型體系結構的比較

顯示了在KITTI 3D物體檢測基準上的3D物體檢測模型的比較結果

總結和比較了動態目標檢測模型

五，道路靜止目標檢測

基于相機-激光雷達融合的靜止道路目標檢測方法的最新進展。固定道路對象可分為道路上的物體（例如路面和道路標記）和越野物體（例如交通標志）。道路和越野物體為自動駕駛車輛提供法規、警告禁令和指導。

下圖比較了車道/道路檢測和交通標志識別（TSR）的典型模型結構。

道路/車道檢測的幾種典型模型結構及融合方法

一種典型的基于融合的交通標志識別流程

kitti數據集上不同模型的比較結果，并對這些模型進行了總結和比較

六，語義分割

現有的攝像機-激光雷達融合方法的二維語義分割、三維語義分割和實例分割。2D/3D語義分割的目的是預測每像素和每點的類標簽，而實例分割也關注單個實例。

下圖展示了3D語義分割網絡和典型模型架構的時間軸。

三維語義分割網絡的時間軸及其相應的融合方法

語義分割的幾種典型模型結構與融合方法

七，目標跟蹤

多目標跟蹤（Multiple object tracking，MOT）的目標是保持目標的身份，并在數據幀間（隨著時間的推移）跟蹤它們的位置，這對于自主車輛的決策是必不可少的。為此，本節回顧了基于cameraldar融合的目標跟蹤方法。基于目標初始化方法，MOT算法可以分為基于檢測的跟蹤（DBT）和無檢測跟蹤（DFT）兩種框架。DBT或tracking by detection框架利用對象檢測器產生的一系列對象假設和更高層次的線索來跟蹤對象。在DBT中，通過數據（檢測序列）關聯或多假設跟蹤來跟蹤目標。相反，DFT框架是基于有限集統計（fist）進行狀態估計的。常用的方法有多目標多貝努利（成員）濾波和概率假設密度（PHD）濾波。

不同模型在KITTI多目標跟蹤基準（car）上的性能，提供了DBT和DFT方法之間的比較。

基于檢測的跟蹤（DBT）和無檢測跟蹤（DFT）方法的比較

八，在線交叉傳感器校準

相機-激光雷達融合管道的先決條件之一是傳感器之間的無缺陷注冊/校準，這可能很難滿足。由于機械振動和熱波動，傳感器之間的校準參數會不斷變化。由于大多數融合方法對校準誤差非常敏感，這可能嚴重削弱其性能和可靠性。此外，離線校準是一個麻煩和耗時的過程。因此，研究交叉傳感器在線自動標定具有重要的實用價值。

A、經典的在線校準

在線校準方法在沒有校準目標的情況下，估計自然環境中的外源性。許多研究[124][125][126][127]通過最大化不同模式之間的互信息（MI）（原始強度值或邊緣強度）來發現外部性。然而，基于MI的方法對于紋理豐富的環境、較大的去校準和傳感器位移引起的遮擋不具有魯棒性。或者，基于激光雷達的視覺里程計方法[128]使用相機的自我運動來估計和評估相機激光雷達的外部參數。盡管如此，[128]仍然難以進行大規模的去校準，無法實時運行。

B、基于DL的在線校準緩解了上述挑戰，Schneider等人。[129]設計了一個實時能力的CNN（RegNet）來估計外部性，它是在隨機的去纖維數據上訓練的。該方法將圖像和深度特征分成兩個平行的分支，并將它們串聯起來生成融合后的特征映射。融合后的特征映射被輸入到網絡中的網絡（NiN）模塊和兩個完全連接的層中，用于特征匹配和全局回歸。然而，RegNet對傳感器的固有參數是不可知的，一旦這些內在參數發生變化，就需要重新訓練。為了解決這個問題，口徑網[130]學會了以一種自我監督的方式最小化失調深度和目標深度之間的幾何和光度不一致性。因為內部函數只在3D空間變換器中使用，所以校準網絡可以應用于任何內部校準的相機。然而，基于深度學習的交叉傳感器校準方法計算量大。

九，趨勢、開放的挑戰和有希望的方向

無人駕駛汽車中的感知模塊負責獲取和理解其周圍的場景。它的下游模塊，如計劃、決策和自我定位，都依賴于它的輸出。因此，它的性能和可靠性是整個無人駕駛系統能否勝任的先決條件。為此，應用激光雷達和攝像機融合技術提高感知系統的性能和可靠性，使無人駕駛車輛更能理解復雜場景（如城市交通、極端天氣條件等）。因此，在本節中，我們將總結總體趨勢，并討論這方面存在的挑戰和潛在的影響因素。

如表所示，我們的重點是提高融合方法的性能和融合管道的魯棒性。

從上述方法中，我們觀察到圖像和點云融合方法的一些普遍趨勢，總結如下：

?二維到三維：隨著三維特征提取方法的發展，在三維空間中對物體進行定位、跟蹤和分割已成為研究的熱點。

?單任務到多任務：最近的一些工作[73][122]結合了多個互補任務，如目標檢測、語義分割和深度完成，以獲得更好的整體性能并降低計算成本。

?信號級到多級融合：早期的工作通常利用信號級融合，其中3D幾何體被轉換到圖像平面，以利用現成的圖像處理模型，而最近的模型嘗試在多層次（例如早期融合、后期融合）和時間上下文編碼中融合圖像和激光雷達。

●總結

本文對自主駕駛環境下點云與圖像融合的深度學習模型的最新研究進展進行了綜述。具體地說，這篇綜述基于它們的融合方法來組織方法，涵蓋深度完成、動態和靜態目標檢測、語義分割、跟蹤和在線交叉傳感器校準等主題。此外，表中還列出了公開數據集的性能比較、模型的亮點和優缺點。典型的模型體系結構如圖所示。最后，我們總結了總體趨勢，并討論了面臨的挑戰和可能的未來方向。這項調查也提高了人們的認識，并對一些被研究界忽視但卻困擾著自動駕駛技術實際應用的問題提供了見解

資源

三維點云論文及相關應用分享

【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法

3D目標檢測：MV3D-Net

三維點云分割綜述（上）

3D-MiniNet: 從點云中學習2D表示以實現快速有效的3D LIDAR語義分割（2020）

win下使用QT添加VTK插件實現點云可視化GUI

JSNet：3D點云的聯合實例和語義分割

大場景三維點云的語義分割綜述

PCL中outofcore模塊---基于核外八叉樹的大規模點云的顯示

基于局部凹凸性進行目標分割

基于三維卷積神經網絡的點云標記

點云的超體素(SuperVoxel)

基于超點圖的大規模點云分割

更多文章可查看：點云學習歷史文章大匯總

SLAM及AR相關分享

【開源方案共享】ORB-SLAM3開源啦！

【論文速讀】AVP-SLAM：自動泊車系統中的語義SLAM

【點云論文速讀】StructSLAM:結構化線特征SLAM

SLAM和AR綜述

常用的3D深度相機

AR設備單目視覺慣導SLAM算法綜述與評價

SLAM綜述(4)激光與視覺融合SLAM

Kimera實時重建的語義SLAM系統

SLAM綜述(3)-視覺與慣導，視覺與深度學習SLAM

易擴展的SLAM框架-OpenVSLAM

高翔：非結構化道路激光SLAM中的挑戰

SLAM綜述之Lidar SLAM

基于魚眼相機的SLAM方法介紹

往期線上分享錄播匯總

第一期B站錄播之三維模型檢索技術

第二期B站錄播之深度學習在3D場景中的應用

第三期B站錄播之CMake進階學習

第四期B站錄播之點云物體及六自由度姿態估計

第五期B站錄播之點云深度學習語義分割拓展

第六期B站錄播之Pointnetlk解讀

[線上分享錄播]點云配準概述及其在激光SLAM中的應用

[線上分享錄播]cloudcompare插件開發

[線上分享錄播]基于點云數據的?Mesh重建與處理

[線上分享錄播]機器人力反饋遙操作技術及機器人視覺分享

[線上分享錄播]地面點云配準與機載點云航帶平差

點云PCL更多活動請查看：點云PCL活動之應屆生校招群

掃描下方微信視頻號二維碼可查看最新研究成果及相關開源方案的演示：

如果你對本文感興趣，請點擊“原文閱讀”獲取知識星球二維碼，務必按照“姓名+學校/公司+研究方向”備注加入免費知識星球，免費下載pdf文檔，和更多熱愛分享的小伙伴一起交流吧！

掃描二維碼

? ? ? ? ? ? ? ? ? ?關注我們

讓我們一起分享一起學習吧！期待有想法，樂于分享的小伙伴加入免費星球注入愛分享的新鮮活力。分享的主題包含但不限于三維視覺，點云，高精地圖，自動駕駛，以及機器人等相關的領域。

分享及合作方式：可聯系微信“920177957”（需要按要求備注）聯系郵箱：dianyunpcl@163.com，歡迎企業來聯系公眾號展開合作。

點一下“在看”你會更好看耶

總結

以上是生活随笔為你收集整理的自动驾驶中图像与点云融合的深度学习研究进展综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CloudCompare二次开发编译篇(
下一篇：在结构化场景中基于单目的物体与平面SLA