日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

CVPR2020论文解读:3D Object Detection三维目标检测

發(fā)布時間:2023/11/28 生活经验 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR2020论文解读:3D Object Detection三维目标检测 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CVPR2020論文解讀:3D Object Detection三維目標(biāo)檢測

PV-RCNN:Point-Voxel Feature Se tAbstraction
for 3D Object Detection

論文鏈接:https://arxiv.org/pdf/1912.13192.pdf

本文在LITTI數(shù)據(jù)集3D Object Detection三維目標(biāo)檢測性能排名第一。

摘要

提出了一種新的高性能的三維目標(biāo)檢測框架:點體素RCNN(PV-RCNN),用于從點云中精確檢測三維目標(biāo)。該方法將三維體素卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于點網(wǎng)的集合抽象技術(shù)有機地結(jié)合起來,以學(xué)習(xí)更具鑒別能力的點云特征。它利用了3D體素CNN的高效學(xué)習(xí)和高質(zhì)量建議以及基于點網(wǎng)絡(luò)的靈活接收功能。具體地說,該框架通過一個新的體素集抽象模塊將具有3D體素CNN的3D場景總結(jié)成一個小的關(guān)鍵點集,以節(jié)省后續(xù)計算,并對具有代表性的場景特征進(jìn)行編碼。考慮到體素CNN生成的高質(zhì)量3D提議,RoI網(wǎng)格池被提議通過具有多個接收域的keypoint集抽象從關(guān)鍵點到RoI網(wǎng)格點抽象提議特定特征。與傳統(tǒng)的池化操作相比,RoI網(wǎng)格特征點編碼更豐富的上下文信息,以準(zhǔn)確估計對象的密度和位置。在KITTI數(shù)據(jù)集和Waymo開放數(shù)據(jù)集上進(jìn)行的大量實驗表明,我們提出的PV-RCNN僅使用點云就可以在顯著的邊緣上超越最新的3D檢測方法。

PV-RCNN

本文將Grid-based(稱為Voxel-based)的方法和Point-based的方法優(yōu)缺點結(jié)合了起來。本文首先說明了Grid-based和Point-based的方法的優(yōu)缺點:

基于網(wǎng)格Grid-based的三維目標(biāo)檢測方法。

為了解決點云的不規(guī)則數(shù)據(jù)格式問題,現(xiàn)有的研究大多將點云投影到規(guī)則網(wǎng)格上,由二維或三維CNN處理。先鋒工作MV3D[1]將點云投影到2D鳥瞰網(wǎng)格,并放置許多預(yù)先確定的3D錨來生成3D邊界框,以下工作[11、17、16]開發(fā)了更好的多傳感器融合策略,而[36、35、12]提出了更有效的鳥瞰表示框架。其他一些工作[27,41]將點云劃分為3D體素,由3D-CNN處理,并且引入3D稀疏卷積[5]以有效地處理3D體素。[30,42]使用多個檢測頭,而[26]探索對象部件位置以提高性能。這些基于網(wǎng)格的方法通常對于精確的3D方案生成是有效的,但是接受域受到2D/3D卷積的核大小的限制。

基于點Point-based的三維目標(biāo)檢測方法。FPointNet[22]首先提出應(yīng)用PointNet[23,24]從基于2D圖像邊界框的裁剪點云進(jìn)行3D檢測。PointRCNN[25]直接從整個點云生成3D建議,而不是僅使用點云進(jìn)行3D檢測的2D圖像,下面的工作STD[37]提出了稀疏到密集的策略,以更好地解決建議問題。[21]提出了hough投票策略以更好地進(jìn)行對象特征分組。這些基于點的方法主要基于點網(wǎng)系列,尤其是集合抽象操作[24],它為點云特征學(xué)習(xí)提供了靈活的接受域。

基于網(wǎng)格Grid-based的方法計算效率更高,但不可避免的信息損失降低了細(xì)粒度定位精度,而基于點Grid-based的方法具有較高的計算成本,但是可以容易地通過點集抽象實現(xiàn)更大的接收域。

網(wǎng)絡(luò)的結(jié)構(gòu)圖如下:

RPN

Backbone: 3D
Sparse Convolution

由于是backbone,其實也比較通用。為什么要用3D Sparse Convolution呢?因為它的高效率和精確性。

Classification
& Regression Head

將3D的feature map轉(zhuǎn)為俯視圖,高度變?yōu)橥ǖ?#xff0c;然后使用每個cell每個類別設(shè)置兩個anchor,角度分別為0和90度。

實驗表明使用這種backbone和anchor的設(shè)置方式,Recall高:“As shown in
Table 4, the adopted 3D voxel CNN backbone with anchor-based scheme achieves
higher recall perfor- mance than the PointNet-based approaches [25, 37]”

但這里有個問題是anchor的角度是0或者90度,那-90度是怎么處理的?這相當(dāng)于是怎么處理相反方向的車?車輛朝向的這個量這個在Proposal生成的過程中是否考慮?如果考慮,則怎么回歸相反方向的車,這種anchor設(shè)置看起來不合理;如果不考慮,那么在通過Proposal生成6x6x6的grids的時候的順序怎么確定,難道就一直不考慮?這個得通過具體Loss或者代碼中看了。相當(dāng)于在圖像處理中,網(wǎng)絡(luò)要學(xué)會對左右翻轉(zhuǎn)的魯邦性。

Voxel Set
Abastraction Module(VSA)

Discussion

有了Proposal,就要提取Proposal中的feature,形成一個固定大小的feature map了,本文將Proposal分成了6x6x6的柵格。那么如何計算6x6x6的每個cell的feature呢?

然后作者提出了對目前方法不足的地方的討論:

(i) 這些特征體通常具有較低的空間分辨率,因為它們被下采樣多達(dá)8倍,這妨礙了對象在輸入場景中的精確定位。

(ii)即使可以上采樣以獲得更大空間尺寸的特征體積/地圖,它們通常仍然非常稀疏。

也就是說使用差值的方法,類似于圖像中的目標(biāo)檢測那樣的RoI Align的方法不太好。

作者就提出了一種思路,使用PointNet++中的SA層,對每個cell,使用SA層,綜合這個cell一定范圍內(nèi)的BackBone輸出的feature map中的feature。但作者提出,這種方法,計算量太高。

使用集合抽象操作來合并場景特征體素的一個簡單解決方案是將場景中的多尺度特征體直接聚合到RoI網(wǎng)格中。然而,這種直觀的策略占用了大量內(nèi)存,在實際應(yīng)用中效率很低。例如,來自KITTI數(shù)據(jù)集的一個公共場景可能會在4×下采樣的特征體積中產(chǎn)生18000個體素。如果對每個場景和每個 box標(biāo)有3×3×3格。即使經(jīng)過距離閾值處理,2700×18000對距離和特征集合也無法有效計算。

為了解決這個問題,作者提出了VSA Module,來減少要聚集的feature的總數(shù)量,也就是上例子中的18000。

VSA Module

VSA Module在示例圖中已經(jīng)畫的非常形象了。過程如下:(公式1,2,3)

1)在原始點鐘用Furthest Point Sampling選n個點

2)在每一層中的feature map中,使用SA Module綜合每個點一定鄰域內(nèi)的feature

3)然后把所有feature concat起來

Extended VSA Module還多兩種feature:

·
在Backbone輸出的feature map轉(zhuǎn)到的BEV圖中,用2D bilinear interpolation計算的feature

·
使用原始點云通過SA Module計算的feature

PKW Module(Predicted Keypoint Weighting)

問題是n個點中,有些點事前景點,比較重要,有些點是背景點,不重要。這就要區(qū)分一下,通過這n個點的feature,可以計算n個weight,weight由真實的mask做監(jiān)督訓(xùn)練,然后用這weight乘以點的feature,得到每個點的最終的feature。(公式5)這個過程被稱為PKW module。

上述過程是使用n個點來表示整個場景,文章中叫做voxel-to-keypoint scene encoding,n個點叫做key-points

到此,我們有了Proposal和n個點的坐標(biāo)和對應(yīng)的feature。

RCNN

有了Proposal,就可以生成6x6x6個cell,對于每個cell的中心點,可以在之前得到的n個點中選取那些在其鄰域的點,然后使用SA Module綜合特征,得到cell的特征。(公式6,7)


得到了Proposal的固定大小的特征,就可以做confidence prediction和box refinement了。這里要注意的是confidence prediction的真實值是由IOU給出的。

Experiments

在KITTI上和Waymo Open Dataset上效果都很好。

Ablation Studies:

·
驗證了voxel-to-keypoint scene encoding的有效性,與RPN和樸素的想法做了對比。

·
驗證了different features for VSA module。

·
驗證了PKW module的有效性。

·
驗證了RoI-grid pooling module比RoI-aware pooling module(PointRCNN中的方法)的有效性。

思考

提出了一種基于點云的精確三維目標(biāo)檢測的新方法,即PV-RCNN框架。通過新的體素集抽象層將多尺度三維體素CNN特征和基于點網(wǎng)PointNet-based的特征融合到一個小的關(guān)鍵點集上,這些關(guān)鍵點的識別特征被聚合到具有多個接受域的RoI網(wǎng)格點上,以獲取更豐富的上下文信息,用于細(xì)粒度的提案。在KITTI數(shù)據(jù)集和Waymo開放數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的體素到關(guān)鍵點場景編碼和關(guān)鍵點到網(wǎng)格特征提取策略與以前的最新方法相比,顯著提高了三維目標(biāo)檢測性能。

總結(jié)

以上是生活随笔為你收集整理的CVPR2020论文解读:3D Object Detection三维目标检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。