CVPR 2022 | 基于稀疏 Transformer 的单步三维目标识别器
點擊上方“3D視覺工坊”,選擇“星標(biāo)”
干貨第一時間送達
作者丨paopaoslam
來源丨泡泡機器人SLAM
標(biāo)題:Embracing Single Stride 3D Object Detector with Sparse Transformer
作者:Lue Fan,?Ziqi Pang,?Tianyuan Zhang,?Yu-Xiong Wang,?Hang Zhao,?Feng Wang,?Naiyan Wang,?Zhaoxiang Zhang
來源:CVPR 2022
編譯:鞠季宏
審核:阮建源,王志勇
摘要
????用于自動駕駛的 LiDAR 3D 對象檢測與 2D 檢測情況相比,對象大小與輸入場景大小的對比要小得多。許多 3D 檢測器遵循 2D 檢測器的常見做法,也對點云量化后的特征圖進行下采樣,這樣的做法忽略了3D與2D目標(biāo)相對尺寸的差異。在本文中,我們重新考慮了多步長方案對 LiDAR 3D 物體檢測器的影響。我們的實驗指出,下采樣操作帶來的優(yōu)勢很少,并且不可避免地導(dǎo)致信息丟失。為此,我們提出了單步稀疏變換器(SST)來保持神經(jīng)網(wǎng)絡(luò)從開始到結(jié)束的分辨率不變。借助 Transformer,我們的方法解決了單步架構(gòu)中感受野不足的問題。它還與點云的稀疏性很好地配合,避免了高昂的計算。最終,我們的 SST 在大規(guī)模 Waymo 開放數(shù)據(jù)集上取得了最佳結(jié)果。值得一提的是,由于單步長的特點,我們的方法在小物體(行人)檢測上可以達到極佳性能(83.8 LEVEL 1 AP on validation split)。
代碼將在https://github.com/TuSimple/SST 發(fā)布。
主要貢獻
本文通過實驗驗證神經(jīng)網(wǎng)絡(luò)的步長是當(dāng)前主流3D目標(biāo)識別方法的主要問題。
簡單地縮短步長受限于感受野不足的問題。于是本文提出了基于 Transformer 的單步長稀疏變換器 (SST):既避免了下采樣帶來的信息缺失,又確保了足夠的感受野。
應(yīng)用SST,本文在 Waymo 開放數(shù)據(jù)集小物體檢測上獲得了極佳的表現(xiàn)
方法概述
????如圖1所示,相比與傳統(tǒng)的多步長3D檢測器,SST 不對體素化的特征圖進行下采樣和上采樣;并且SST也并不使用卷積層,而是利用點云特征圖的稀疏性應(yīng)用自注意力機制提取特征。
??? SST使用類似 PointPillars 的方法將點云轉(zhuǎn)化為鳥瞰視角的偽特征圖像。然后將獲得的稀疏偽特征圖像以與 Vision Transformer 相似的方法分割成互不重疊的區(qū)域。自注意力機制被應(yīng)用于相同區(qū)域內(nèi)的特征。為解決跨區(qū)域特征的物體的問題,如圖3所示,SST 在一次局部自注意之后,區(qū)域分割被整體平移進行第二次局部自注意。這樣即便是區(qū)域邊緣的特征也可以在第二次局部自注意時注意到區(qū)域邊緣另一側(cè)的特征。
????由于雷達點云數(shù)據(jù)的稀疏性,作為輸入的鳥瞰視角的偽特征圖像也具有一定的稀疏性。自注意力機制的運算復(fù)雜度與特征數(shù)量呈二次方關(guān)系,這樣的稀疏性天然與自注意力機制完美搭配。另外,自注意力機制也無需像卷積層一樣為稀疏性專門改良適配。
????將多個這樣的 SST 模塊堆疊起來,再加上一個將稀疏特征變換回稠密特征圖的模塊即可組成一個單步長稀疏變換器 (SST),輸入是體素化的偽特征圖像,輸出是相同尺寸的偽特征圖像。在此基礎(chǔ)上,任意目標(biāo)識別器均可用于預(yù)測三維物體的類別、位置與尺寸。
實驗結(jié)果
????表2顯示 SST 在 Waymo 公開數(shù)據(jù)集上車輛檢測的性能全面優(yōu)于其他方法。
????表3顯示 SST 在 Waymo 公開數(shù)據(jù)集上行人檢測的性能優(yōu)于其他方法。
????下圖顯示以粉點為查詢特征,其周圍其他特征相應(yīng)的注意力權(quán)重。權(quán)重有高到低顏色由紅變藍。可以看到高注意力權(quán)重與相應(yīng)的物體高度相關(guān)。
總結(jié)
本文通過實驗分析發(fā)現(xiàn)3D 目標(biāo)識別并不需要下采樣。
為解決移除下采樣帶來的感受野問題提出了基于自注意力機制的單步長稀疏 Transformer(SST)。
實驗顯示 SST 在檢測小物體時尤其有優(yōu)勢。
Abstract
In LiDAR-based 3D object detection for autonomous driving, the ratio of the object size to input scene size is significantly smaller compared to 2D detection cases. Overlooking this difference, many 3D detectors directly follow the common practice of 2D detectors, which downsample the feature maps even after quantizing the point clouds. In this paper, we start by rethinking how such multi-stride stereotype affects the LiDAR-based 3D object detectors. Our experiments point out that the downsampling operations bring few advantages, and lead to inevitable information loss. To remedy this issue, we propose Single-stride Sparse Transformer (SST) to maintain the original resolution from the beginning to the end of the network. Armed with transformers, our method addresses the problem of insufficient receptive field in single-stride architectures. It also cooperates well with the sparsity of point clouds and naturally avoids expensive computation. Eventually, our SST achieves state-of-the-art results on the large scale Waymo Open Dataset. It is worth mentioning that our method can achieve exciting performance (83.8 LEVEL 1 AP on validation split) on small object (pedestrian) detection due to the characteristic of single stride. Codes will be released at?this https URL
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
干貨下載與學(xué)習(xí)
后臺回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件
后臺回復(fù):計算機視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf
后臺回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程
3D視覺精品課程推薦:
1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動駕駛領(lǐng)域的3D點云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進
4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現(xiàn)
11.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)
12.相機模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實戰(zhàn)
14.ROS2從入門到精通:理論與實戰(zhàn)
15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
重磅!3DCVer-學(xué)術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創(chuàng)投稿也請聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機標(biāo)定、激光/視覺SLAM、自動駕駛等)、知識點匯總、入門進階學(xué)習(xí)路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術(shù)指導(dǎo)。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近5000星球成員為創(chuàng)造更好的AI世界共同進步,知識星球入口:
學(xué)習(xí)3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 | 基于稀疏 Transformer 的单步三维目标识别器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机设备申请、,设备申请书范文(精选9
- 下一篇: 数学怪才埃尔德什