从2D到3D的目标检测综述
點云PCL免費知識星球,點云論文速讀。
文章:An Overview Of 3D Object Detection
作者:Yilin Wang? Jiayi Ye
翻譯:分享者
本文僅做學術分享,如有侵權,請聯系刪除。歡迎各位加入免費知識星球,獲取PDF論文,歡迎轉發朋友圈分享快樂。
論文閱讀模塊將分享點云處理,SLAM,三維視覺,高精地圖相關的文章。公眾號致力于理解三維視覺領域相關內容的干貨分享,歡迎各位加入我,我們一起每天一篇文章閱讀,開啟分享之旅,有興趣的可聯系微信dianyunpcl@163.com。
●論文摘要
基于點云三維目標檢測近年來逐漸成為三維計算機視覺領域的一個活躍的研究課題。然而,由于點云的復雜性,在激光雷達(LiDAR)中識別三維物體仍然是一個挑戰。行人、騎車或交通要素等目標通常由非常稀疏的點云表示,這使得僅使用點云進行檢測變得相當復雜。在本綜述文章中,提出一個同時使用RGB和點云數據進行多類別物體識別的架構。利用現有的二維檢測模型在RGB圖像上定位感興趣區域(ROI),然后在點云中采用像素映射策略,最后將初始的2D邊界框映射到3D空間。我們使用最近發布的nuScenes數據集-一個包含許多數據格式的大型數據集來訓練和評估我們提出的體系結構。
●?相關工作與介紹
目標檢測的任務是找到圖像中的所有感興趣區域(ROI),并確定它們的位置和類別。由于各種物體的外觀、形狀和姿態的不同,以及成像過程中光照、遮擋等因素的干擾,目標檢測一直是計算機視覺領域的一個具有挑戰性的問題。在這篇文獻綜述中,主要總結了一些最新的目標檢測相關工作。
● 內容精華
數據格式
A、 數據集
在計算機圖形學中,深度圖是一種包含場景中對象到視點的距離的信息的圖像。深度圖類似于灰度圖像,只是每個像素都是傳感器和物體之間的距離信息。一般來說,RGB圖像和深度圖像像素之間存在一對一的對應關系,RGB-D格式的數據集包括Pascal VOC、COCO、ImageNet等。
雷達數據在目標檢測問題中也很有用。雷達數據通過向目標表面發射無線電波來采集距離,然后利用反射信息計算目標的速度和與目標的距離。然而,雷達本身并不能提供足夠的信息進行檢測和分類,因此不同類型的數據融合非常重要。
點云數據是指三維坐標系中的一組向量。這些矢量通常用X、Y和Z三維坐標表示,通常用來表示物體的外表面形狀。不僅如此,除了由(X,Y,Z)表示的幾何位置信息外,每個點云還可能包括RGB顏色像素、灰度值、深度和法線。大多數點云數據是由三維掃描設備生成的,如激光雷達(2D/3D)、立體相機和飛行時間相機。這些設備自動測量物體表面上大量點的信息,然后通常以兩種標準文件格式輸出點云:LAS和.LAZ。這些點云數據由掃描設備采集。在用于訓練的數據集中,除了點云數據外,還會有相應的RGB圖像。此類數據集包括KITTI、nuScenes、Waymo Open等。
文獻中使用nuScenes數據集來訓練和評估模型。nuTonomy的nuScenes數據集是一個具有三維對象標注的大型自動駕駛數據集。與許多其他數據集相比,nuScenes數據集不僅具有更大的規模和更多的對象標記,而且提供了包括LIDAR、雷達、GPS和IMU在內的整個傳感器套件。圖1展示了nuScenes的激光雷達點云示例。
B、 預處理
雖然數據集中的圖像質量較高,但在實際應用中,天氣等因素會影響圖像質量,從而降低檢測精度。最近提出的一些交通場景除霧算法可以解決這類問題。有論文提出了一種基于伽馬校正和引導濾波的除霧方法。該方法在除霧前對圖像進行gamma校正,然后對gamma校正后的圖像進行三種不同尺度的引導濾波處理。利用Retinex模型對濾波后的圖像進行修正,最后進行加權融合得到去霧效果。該方法得到的除霧圖像具有較高的對比度和顏色一致性。除了提高圖像質量外,相機校準通常用于確定圖像在三維空間中的位置。雖然相機標定一直是一個被廣泛研究的問題,但是大多數的標定方法都是固定攝像機的位置并使用一些已知的標定模式。Basu提出了一種利用場景中清晰的邊緣和移動攝像機來自動標定攝像機的方法,而不需要預先定義模式。除上述問題外,有些數據集還存在嚴重的類不平衡問題。有論文提出了一種有效處理這一問題的方法,并在新的數據集中取得了良好的性能。首先采用數據擴充策略,然后對三維特征提取網絡進行改進,最后對訓練過程和損失評估進行全面改進。
二維目標檢測
A、 傳統方法
傳統的目標檢測算法通?;诟鞣N特征描述子。一個著名的描述符是定向梯度直方圖(HOG)。它統計圖像局部漸變方向的出現次數。Hog特征與SVM分類器相結合在目標檢測中得到了廣泛的應用,特別是在行人檢測方面取得了很大的成功。特征檢測在傳統方法中占有重要地位。近年來,人們對特征提取進行了許多有趣的研究。Hough變換是圖像幾何形態識別的基本方法之一。例如,在人臉跟蹤問題中利用基于梯度的Hough變換來定位眼睛的mask位置。然而,對于具有非單視點(SVP)準則的圖像,這種變換不能直接用于特征識別。在地面空中交通場景中,[16]將Radon變換應用于視覺手勢識別,獲得了很好的識別率。在前人的研究中,提出了一種新的鼻形研究方法。該方法采用面積增長法確定機頭所在區域,并通過預先定義的模板分別提取機頭和機頭翼的形狀。最后,利用提取的特征來表示人臉跟蹤的效果。一旦檢測到感興趣的特征,就可以使用Kanade–Lucas–Tomasi特征跟蹤器(KLT)來跟蹤下一幀中的特征。作者在2005年[18]提出了一種利用拉普拉斯高斯(LoG)和高斯加權函數來提高KLT跟蹤性能的方法。將邊緣特征耦合到加權函數中,得到了選擇最優加權函數的確定性公式。這樣,在提高跟蹤性能的同時,增加了一點計算時間。有時除了特征提取外,還涉及圖像分割。[19] 介紹了一種利用梯度矢量流(GVF)snakes在三維切片上提取相關輪廓的方法。對原有的GVF-snake方法進行了改進,利用氣道CT切片的先驗知識,增加了邊緣檢測和snake偏移技術,取得了較好的效果。這種技術也可能有用。另一個問題是攝像機運動引起的,隨著采集數據的設備類型的增加,來自運動攝像機的數據越來越多。對于背景減法問題,雖然許多方法對從靜止相機獲得的數據都很有效,例如,在先驗知識下,前景和背景在每一幀中有很大的區別,聚類可以在一次迭代中完成,只需要兩個簇,[20] 能夠實現高精度的背景減法。然而,處理移動攝像機更具挑戰性。該方法首先利用魯棒主成分分析(RPCA)提取背景運動,假設背景場景運動可以描述為一個低秩矩陣,然后將幀分割成子像素,以提高將光流轉化為運動幅度和角度的精度,從而提高了結果。
B、 深度學習方法
目標識別是指一組相關的任務,用于識別圖像或視頻中的對象。目標是找到圖像中所有感興趣的對象并確定它們的二維位置。感興趣的區域通常由邊界框定義。目前,目標檢測領域的深度學習方法主要分為兩類:一級目標檢測算法和一級目標檢測算法。前者是由算法生成的一系列候選框作為樣本,然后用卷積神經網絡對樣本進行分類。后者可以直接將目標邊界定位問題轉化為回歸問題,而無需生成候選框。由于兩種方法的不同,兩種方法的性能也不同。前者在檢測精度和定位精度上優于后者,后者在算法速度上優于后者。此外,泛型框架主要有兩種類型。第一個是兩階段框架。在這種框架中,區域建議被生成并隨后被劃分為不同的對象類別。因此也被稱為基于區域的方法。這類模型主要包括R-CNN、Fast-RCNN、更快的R-CNN、基于區域的全卷積網絡(R-FCN)等。在單階段,模型將目標檢測任務視為一個統一的、端到端的回歸問題。在這種框架中,圖像被縮放到相同的大小,并被均勻地分成網格。如果目標的中心落在網格單元中,則該網格單元負責預測目標。這樣,模型只需對圖像進行一次處理,就可以同時得到圖像的位置和分類。一級框架主要包括MultiBox、YOLO、Single Shot MultiBox Detector(SSD)。與第一類框架相比,這種框架通常具有更簡單的結構和更快的檢測速度。
三維目標檢測
在這一部分中,我們簡要地討論了一些現有的與三維物體檢測相關的工作。我們根據不同的數據信息將這些作品分為三大類。
A、 利用RGB圖像進行目標檢測RGB圖像具有豐富的語義信息,在目標檢測中具有重要的應用價值。2是使用2D圖像的對象檢測示例。3D-GCK[29]等方法只使用單眼RGB圖像,可以實現實時車輛檢測。它首先預測二維邊界框,然后利用神經網絡估計缺失的深度信息,將二維邊界框提升到三維空間。
B、 基于點云的目標檢測
主要有兩種類型的分類網絡只使用點云數據。第一種方法直接使用三維點云數據。這種方法不會損失信息,但由于三維數據的復雜性,計算量往往很高。第二種方法通過將點云處理成二維數據來減少計算量,但不可避免地會丟失原始數據的某些特征。圖3顯示了三維激光雷達點云數據中的檢測示例。
基于yolo實現的3D點云的目標檢測
有很多方法可以將點云處理為二維數據。詹森的方法是通過使用幾個二維透視圖來表示三維點云。在數據預處理階段,以圖像中心為原點,以固定半徑旋轉,從64個不同角度截取點云圖像。由于在分類過程中加入了額外的旋轉和大量的實例,因此該方法在一定程度上減少了信息的丟失。盡可能多地把信息留給其他人。BirdNet+是BirdNet的一個改進,BirdNet是一個對象檢測框架。BirdNet+為激光雷達數據上的3D目標檢測提供了端到端解決方案。它采用由LiDAR點云變換而成的具有三個通道的二維結構的鳥瞰圖表示,采用兩級結構來獲得面向三維的盒體。最近,論文提出了一種基于無監督深度學習的計算效率高的端到端魯棒點云對齊和目標識別方法,即deep point cloud Mapping Network(DPC-MN)。該模型無需標注即可訓練,有效地實現了從三維點云表示到二維視圖的映射功能。
C、 結合RGB圖像和點云
Frustum PointNets目標檢測同時使用RGB圖像和激光雷達點云數據進行三維目標檢測。該算法充分利用了成熟的二維目標檢測器,減少了搜索空間。該算法通過從圖像檢測器中擠出二維邊界盒,提取物體的三維包圍體,然后在被三維視錐分割的三維空間中進行三維物體實例分割。
MV3D?實現的目標檢測
MV3D還使用RGB圖像和激光雷達點云數據作為輸入。它將三維點云投影到鳥瞰視圖和前視圖。鳥瞰圖由高度、強度和密度編碼而成,而正視圖是通過將點云投影到圓柱面上而生成的。利用鳥瞰圖生成三維先驗框,然后將三維先驗框投影到正視圖和圖像上。所有三個輸入都生成一個特征映射。采用ROI池技術將三個特征映射集成到同一個維度上。融合后的數據通過網絡融合,輸出分類結果和邊界盒。
資源
三維點云論文及相關應用分享
【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法
3D目標檢測:MV3D-Net
三維點云分割綜述(上)
3D-MiniNet: 從點云中學習2D表示以實現快速有效的3D LIDAR語義分割(2020)
win下使用QT添加VTK插件實現點云可視化GUI
JSNet:3D點云的聯合實例和語義分割
大場景三維點云的語義分割綜述
PCL中outofcore模塊---基于核外八叉樹的大規模點云的顯示
基于局部凹凸性進行目標分割
基于三維卷積神經網絡的點云標記
點云的超體素(SuperVoxel)
基于超點圖的大規模點云分割
更多文章可查看:點云學習歷史文章大匯總
SLAM及AR相關分享
【開源方案共享】ORB-SLAM3開源啦!
【論文速讀】AVP-SLAM:自動泊車系統中的語義SLAM
【點云論文速讀】StructSLAM:結構化線特征SLAM
SLAM和AR綜述
常用的3D深度相機
AR設備單目視覺慣導SLAM算法綜述與評價
SLAM綜述(4)激光與視覺融合SLAM
Kimera實時重建的語義SLAM系統
SLAM綜述(3)-視覺與慣導,視覺與深度學習SLAM
易擴展的SLAM框架-OpenVSLAM
高翔:非結構化道路激光SLAM中的挑戰
SLAM綜述之Lidar SLAM
基于魚眼相機的SLAM方法介紹
往期線上分享錄播匯總
第一期B站錄播之三維模型檢索技術
第二期B站錄播之深度學習在3D場景中的應用
第三期B站錄播之CMake進階學習
第四期B站錄播之點云物體及六自由度姿態估計
第五期B站錄播之點云深度學習語義分割拓展
第六期B站錄播之Pointnetlk解讀
[線上分享錄播]點云配準概述及其在激光SLAM中的應用
[線上分享錄播]cloudcompare插件開發
[線上分享錄播]基于點云數據的?Mesh重建與處理
[線上分享錄播]機器人力反饋遙操作技術及機器人視覺分享
[線上分享錄播]地面點云配準與機載點云航帶平差
點云PCL更多活動請查看:點云PCL活動之應屆生校招群
掃描下方微信視頻號二維碼可查看最新研究成果及相關開源方案的演示:
如果你對本文感興趣,請點擊“原文閱讀”獲取知識星球二維碼,務必按照“姓名+學校/公司+研究方向”備注加入免費知識星球,免費下載pdf文檔,和更多熱愛分享的小伙伴一起交流吧!
掃描二維碼
? ? ? ? ? ? ? ? ? ?關注我們
讓我們一起分享一起學習吧!期待有想法,樂于分享的小伙伴加入免費星球注入愛分享的新鮮活力。分享的主題包含但不限于三維視覺,點云,高精地圖,自動駕駛,以及機器人等相關的領域。
分享及合作:微信“920177957”(需要按要求備注)聯系郵箱:dianyunpcl@163.com,歡迎企業來聯系公眾號展開合作。
點一下“在看”你會更好看耶
總結
以上是生活随笔為你收集整理的从2D到3D的目标检测综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Open3d学习计划—高级篇 4(多视角
- 下一篇: DOT:视觉SLAM的动态目标物跟踪