SuMa++: Efficient LiDAR-based Semantic SLAM
摘要
可靠準(zhǔn)確的定位和建圖是大多數(shù)自主系統(tǒng)的關(guān)鍵組成部分。除了地圖環(huán)境的幾何信息外,語義對(duì)智能導(dǎo)航行為的實(shí)現(xiàn)也起著重要作用。在大多數(shù)現(xiàn)實(shí)環(huán)境中,由于移動(dòng)對(duì)象引起的動(dòng)態(tài)會(huì)導(dǎo)致這個(gè)任務(wù)特別復(fù)雜。在本文中,我們提出了一種基于表面的制圖方法的擴(kuò)展,利用三維激光掃描集成語義信息來促進(jìn)制圖過程。利用全卷積神經(jīng)網(wǎng)絡(luò)有效地提取語義信息,并在激光距離數(shù)據(jù)的球面投影上進(jìn)行渲染。這種計(jì)算的語義分割結(jié)果為整個(gè)掃描的點(diǎn)添加標(biāo)簽,允許我們建立一個(gè)語義豐富的帶標(biāo)簽的面元地圖。這種語義建圖使我們能夠可靠地過濾運(yùn)動(dòng)目標(biāo),同時(shí)也通過語義約束改善了投影掃描匹配。我們對(duì)來自KITTI數(shù)據(jù)集的具有挑戰(zhàn)性的高速公路序列的實(shí)驗(yàn)評(píng)估顯示,與純幾何的、最先進(jìn)的方法相比,我們的語義SLAM方法具有優(yōu)勢(shì),該數(shù)據(jù)集具有很少的靜態(tài)結(jié)構(gòu)和大量的移動(dòng)汽車。
引言
準(zhǔn)確的定位和未知環(huán)境的可靠測(cè)繪是大多數(shù)自動(dòng)駕駛汽車的基礎(chǔ)。這類系統(tǒng)通常在高度動(dòng)態(tài)的環(huán)境中運(yùn)行,這使得生成一致的地圖變得更加困難。此外,需要關(guān)于建圖區(qū)域的語義信息來實(shí)現(xiàn)智能導(dǎo)航行為。例如,自動(dòng)駕駛汽車必須能夠可靠地找到合法停車的位置,或在乘客安全出口可能的地方靠邊停車,即使是在從未見過的、因此之前沒有精確地圖的位置。
在這項(xiàng)工作中,我們提出了一種新的方法同步定位和建圖(SLAM),能夠使用三維激光距離掃描生成語義地圖。**我們的方法利用了LiDAR SLAM[2]的思想,并結(jié)合了由全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[20]生成的語義分割獲得的語義信息。**這允許我們生成高質(zhì)量的語義地圖,同時(shí)改善地圖的幾何形狀和里程計(jì)的質(zhì)量。
FCN為激光掃描測(cè)距的每個(gè)點(diǎn)提供類別標(biāo)簽。**我們首先使用球面投影執(zhí)行高效的點(diǎn)云處理,然后將二維球面投影的分類結(jié)果反投影到三維點(diǎn)云上。**然而,反向投影引入了人工現(xiàn)象,我們通過兩步過程來減少這種現(xiàn)象,即先對(duì)語義標(biāo)簽進(jìn)行侵蝕,然后再對(duì)語義標(biāo)簽進(jìn)行基于深度的填充。語義標(biāo)簽隨后被集成到基于面元的地圖表示中,并用于更好地將新的觀測(cè)結(jié)果注冊(cè)到已經(jīng)建立的地圖中。此外,當(dāng)在更新地圖時(shí),我們通過在新的觀測(cè)和世界模型之間使用語義一致性檢測(cè)方法去過濾移動(dòng)物體。通過這種方式,我們降低了將動(dòng)態(tài)對(duì)象集成到建圖中的風(fēng)險(xiǎn)。圖1顯示了語義建圖表示的一個(gè)示例。語義類別由FCN生成,該FCN由Behley等人[1]使用SemanticKITTI數(shù)據(jù)集進(jìn)行訓(xùn)練.
本文的主要貢獻(xiàn)是將語義集成到基于面元的地圖表示中,以及利用這些語義標(biāo)簽過濾動(dòng)態(tài)對(duì)象的方法。總之,(1)能夠準(zhǔn)確地建圖一個(gè)環(huán)境,特別是在有大量的移動(dòng)對(duì)象的情況下,(2)比相同的建圖系統(tǒng)能夠?qū)崿F(xiàn)更好的性能,簡(jiǎn)單地刪除可能在一般環(huán)境中是移動(dòng)的對(duì)象,包括在城市、農(nóng)村,和高速公路場(chǎng)景。我們?cè)诰哂刑魬?zhàn)性的KITTI[10]序列上實(shí)驗(yàn)評(píng)估了我們的方法,并顯示了我們的基于面元的語義建圖方法(稱為SuMa++)的優(yōu)越性能,與純粹的基于面元的幾何建圖相比,并比較了基于類標(biāo)簽刪除所有潛在移動(dòng)對(duì)象的建圖。我們的方法的源代碼可在:
相關(guān)工作
里程計(jì)估計(jì)和SLAM是機(jī)器人領(lǐng)域的經(jīng)典主題,有許多概述文章涵蓋了大量的科學(xué)工作[?]],[6],[27]。本文主要研究基于學(xué)習(xí)方法和動(dòng)態(tài)場(chǎng)景的語義SLAM的相關(guān)工作。
出于深度學(xué)習(xí)的進(jìn)步和卷積神經(jīng)網(wǎng)絡(luò)(cnn)場(chǎng)景理解,有很多語義SLAM技術(shù)利用這些信息使用相機(jī)[5]、[30],相機(jī)+ IMU數(shù)據(jù)[4],立體相機(jī)[9],[14],[17],[32],[37],或RGB-D傳感器[3],[18],[19],[25],[26],[28],[38]。這些方法大多只應(yīng)用在室內(nèi),使用目標(biāo)檢測(cè)器或攝像機(jī)圖像的語義分割。相比之下,我們只使用激光距離數(shù)據(jù),并利用語義分割的信息,對(duì)激光雷達(dá)掃描生成的深度圖像進(jìn)行操作。
也有大量的文獻(xiàn)處理定位和建圖變化的環(huán)境,例如通過過濾移動(dòng)目標(biāo)[13],考慮匹配[21]中的殘差,或者利用序列信息[33]。為了實(shí)現(xiàn)戶外大規(guī)模語義SLAM,還可以將3D LiDAR傳感器與RGB相機(jī)相結(jié)合。Yan等人[36]將二維圖像與三維點(diǎn)進(jìn)行關(guān)聯(lián),以改進(jìn)檢測(cè)運(yùn)動(dòng)目標(biāo)的分割。Wang和Kim[34]使用來自KITTI數(shù)據(jù)集[10]的圖像和3D點(diǎn)云,通過應(yīng)用相對(duì)位置先驗(yàn),在語義上聯(lián)合估計(jì)道路布局和分割城市場(chǎng)景。Jeong等人[11],[12]也提出了一種基于多模態(tài)傳感器的語義三維建圖系統(tǒng),以改進(jìn)大規(guī)模環(huán)境以及特征較少環(huán)境下的分割結(jié)果。Liang等人提出了一種新的三維物體檢測(cè)器,可以利用激光雷達(dá)和相機(jī)數(shù)據(jù)來執(zhí)行精確的目標(biāo)定位。所有這些方法都側(cè)重于結(jié)合3D激光雷達(dá)和攝像機(jī)來改進(jìn)目標(biāo)檢測(cè)、語義分割或3D重建。最近由Parkison等人[22]開發(fā)了一種點(diǎn)云配準(zhǔn)算法,直接將基于圖像的語義信息合并到兩點(diǎn)云之間的相對(duì)變換估計(jì)中。Zaganidis等人的后續(xù)工作[39]實(shí)現(xiàn)了激光雷達(dá)結(jié)合圖像和激光雷達(dá)僅語義三維點(diǎn)云配準(zhǔn)。這兩種方法都使用語義信息來改進(jìn)姿態(tài)估計(jì),但由于處理時(shí)間較長(zhǎng),不能用于在線操作。
與本文提出的方法最相似的是Sun et al.[29]和Dube et al.[8],他們只用一個(gè)激光雷達(dá)傳感器實(shí)現(xiàn)語義SLAM。Sun等人[29]提出了一種語義建圖方法,它被表述為一個(gè)序列到序列的編碼-解碼問題。Dube等人[8]提出了一種SegMap方法,該方法基于從點(diǎn)云中提取的段,并給它們分配語義標(biāo)簽。它們的主要目的是在語義類類型非常有限的情況下,提取有意義的特征,用于全局檢索和多機(jī)器人協(xié)同SLAM。與之相反,我們專注于生成包含大量語義類的語義地圖,并使用這些語義過濾由動(dòng)態(tài)對(duì)象(如移動(dòng)的車輛和人)引起的異常值,以提高地圖和里程計(jì)的準(zhǔn)確性。
文章的方法
我們的語義SLAM方法的基礎(chǔ)是基于面元的Mapping (SuMa)[2]方法,我們通過使用如圖2所示的FCN RangeNet++[20]來集成語義分割提供的語義信息來擴(kuò)展該方法。標(biāo)簽是由RangeNet++使用點(diǎn)云的球面投影提供的。然后利用該信息對(duì)動(dòng)態(tài)目標(biāo)進(jìn)行過濾,并在掃描配準(zhǔn)中添加語義約束,提高了SuMa姿態(tài)估計(jì)的魯棒性和準(zhǔn)確性。
A.Notation
我們用TBA∈R4×4T_{BA}\in R^{4\times 4}TBA?∈R4×4表示坐標(biāo)系AAA中的點(diǎn)pAp_ApA?到坐標(biāo)系BBB中的點(diǎn)pBp_BpB?的變換,使pB=TBApap_B = T_{BA}p_apB?=TBA?pa?。設(shè)RBA∈SO(3)R_{BA}\in SO(3)RBA?∈SO(3)和tBA∈R3t_{BA}\in R^3tBA?∈R3表示變換TBAT_{BA}TBA?的相應(yīng)旋轉(zhuǎn)和平移部分。
我們稱時(shí)間步長(zhǎng)ttt處的坐標(biāo)系為CtC_tCt?。坐標(biāo)系CtC_tCt?中的每個(gè)變量通過姿態(tài)TWCt∈R4×4T_{WC_t}\in R^{4\times 4}TWCt??∈R4×4與世界坐標(biāo)系WWW相關(guān)聯(lián),將觀測(cè)到的點(diǎn)云轉(zhuǎn)化為世界坐標(biāo)系。
B.基于面元的建圖
我們的方法依賴于SuMa,但在這里我們只總結(jié)與我們的方法相關(guān)的主要步驟,并參考原始論文[2]的更多細(xì)節(jié)。SuMa首先生成點(diǎn)云PPP在時(shí)間步長(zhǎng)ttt處的球面投影,即所謂的頂點(diǎn)建圖VDV_DVD?,然后用它生成相應(yīng)的法向建圖NDN_DND?。有了這些信息,SuMa通過在時(shí)間步長(zhǎng)t?1t - 1t?1的渲染地圖視圖VMV_MVM?和NMN_MNM?中的投影ICP來確定位姿更新TCt?1CtT_{C_{t - 1}C_t}TCt?1?Ct??,進(jìn)而通過鏈接所有位姿增量來確定TWCtT_{WC_t}TWCt??。
地圖由面元表示,其中每個(gè)面元由位置vs∈R3v_s\in R^3vs?∈R3,法線ns∈R3n_s\in R^3ns?∈R3,和半徑rs∈Rr_s\in Rrs?∈R定義。每個(gè)面元額外攜帶兩個(gè)時(shí)間戳:創(chuàng)建時(shí)間戳tct_ctc?和通過測(cè)量的最后一次更新的測(cè)量時(shí)間戳tut_utu?。此外,使用二值貝葉斯濾波器[31]來確定一個(gè)面元是穩(wěn)定的還是不穩(wěn)定的,從而維持一個(gè)穩(wěn)定對(duì)數(shù)比值lsl_sls?。SuMa還通過隨后的姿態(tài)圖優(yōu)化執(zhí)行閉環(huán)檢測(cè),以獲得全局一致的建圖。
C.語義分割
對(duì)于每一幀,我們使用RangeNet++[20]來預(yù)測(cè)每個(gè)點(diǎn)的語義標(biāo)簽并生成語義建圖SDS_DSD?。RangeNet++語義分割由每個(gè)激光掃描的球面投影生成的距離圖像。簡(jiǎn)單地說,該網(wǎng)絡(luò)基于Wu等人[35]提出的SqueezeSeg架構(gòu),并使用了Redmon等人[24]提出的DarkNet53,通過使用更多的參數(shù)來提高結(jié)果,同時(shí)保持方法的實(shí)時(shí)性。關(guān)于語義分割方法的更多細(xì)節(jié),參考Milioto et al.[20]的論文。傳感器視野內(nèi)點(diǎn)方向標(biāo)簽的可用性也使得將語義信息集成到地圖中成為可能。為此,我們?yōu)槊總€(gè)面元添加估計(jì)的語義標(biāo)簽yyy和語義分割中該標(biāo)簽的相應(yīng)概率。
D.精細(xì)語義地圖
由于RangeNet++的網(wǎng)絡(luò)下采樣導(dǎo)致投影輸入和塊狀輸出,當(dāng)標(biāo)簽被重新投影到建圖時(shí),我們必須處理語義標(biāo)簽的錯(cuò)誤。為了減少這些誤差,我們使用了泛填充算法,總結(jié)在Alg. 1。它位于預(yù)處理模塊內(nèi)部,該模塊使用來自頂點(diǎn)建圖VDV_DVD?的深度信息來精煉語義掩碼SDS_DSD?。
填充的輸入是由RangeNet++生成的原始語義掩碼SrawS_{raw}Sraw?和相應(yīng)的頂點(diǎn)建圖VDV_DVD?。掩碼SrawS_{raw}Sraw?中每個(gè)像素的值都是一個(gè)語義標(biāo)簽。頂點(diǎn)圖中對(duì)應(yīng)的像素包含了激光雷達(dá)坐標(biāo)系中最近的三維點(diǎn)的三維坐標(biāo)。該方法的輸出是改進(jìn)的語義掩碼SDS_DSD?。
考慮到目標(biāo)邊界的預(yù)測(cè)不確定性高于目標(biāo)[15]中心,我們?cè)谔畛溥^程中采用了以下兩個(gè)步驟。第一步是去除半徑為ddd的邊界像素或者錯(cuò)誤像素(至少一個(gè)不同語義標(biāo)簽的像素)從而導(dǎo)致被侵蝕的掩模SrawS_{raw}Sraw?被侵蝕。將這個(gè)掩模與頂點(diǎn)建圖VDV_DVD?生成的深度信息相結(jié)合,然后填充侵蝕的掩模。為此,如果對(duì)應(yīng)點(diǎn)的距離一致,即小于閾值θ,我們將空的邊界像素的標(biāo)簽設(shè)為相鄰標(biāo)簽像素。
該算法的中間步驟如圖3所示。注意,與原始預(yù)測(cè)相比,過濾后的語義建圖包含的細(xì)節(jié)更少。例如,建筑物墻上的錯(cuò)誤標(biāo)簽大都被糾正了,如圖3(e)所示。
E.使用語義過濾動(dòng)態(tài)物體
大多數(shù)現(xiàn)有的SLAM系統(tǒng)依賴幾何信息來表示環(huán)境,并將觀測(cè)結(jié)果與地圖聯(lián)系起來。它們?cè)诩俣ōh(huán)境基本是靜態(tài)的情況下工作得很好。然而,世界通常是動(dòng)態(tài)的,特別是在考慮駕駛場(chǎng)景時(shí),一些傳統(tǒng)的方法不能考慮移動(dòng)物體引起的動(dòng)態(tài)場(chǎng)景變化。因此,在這種情況下,移動(dòng)的物體可能會(huì)導(dǎo)致觀測(cè)結(jié)果和地圖之間的錯(cuò)誤關(guān)聯(lián),必須謹(jǐn)慎對(duì)待。通常,SLAM方法使用某種異常值拒絕,要么通過直接過濾觀測(cè)數(shù)據(jù),要么通過構(gòu)建建圖表示來過濾掉由移動(dòng)對(duì)象引起的變化。
在我們的方法中,我們利用語義分割提供的標(biāo)簽來處理移動(dòng)對(duì)象。更具體地說,當(dāng)我們更新地圖時(shí),我們通過檢查新的觀測(cè)SDS_DSD?和世界模型SMS_MSM?之間的語義一致性來過濾動(dòng)態(tài)。
如果標(biāo)簽不一致,我們假設(shè)這些面元屬于在掃描之間移動(dòng)的對(duì)象。因此,我們?cè)谶f歸貝葉斯濾波器穩(wěn)定性項(xiàng)的計(jì)算中加入了懲罰項(xiàng)。經(jīng)過幾次觀察,我們可以去除不穩(wěn)定面元。通過這種方法,我們實(shí)現(xiàn)了動(dòng)態(tài)檢測(cè)和最終去除。
更準(zhǔn)確地說,我們通過給它的穩(wěn)定對(duì)數(shù)比lsl_sls?來懲罰這個(gè)面元,lsl_sls?更新如下:
(1)
其中odds(p)=log(p(1?p)?1)odds(p) = log(p(1-p)^{-1})odds(p)=log(p(1?p)?1)和pstablep_{stable}pstable?和ppriorp_{prior}pprior?分別是給定一個(gè)兼容測(cè)量和先驗(yàn)概率的穩(wěn)定面元的概率。exp(?x2σ?2)exp(-x^2σ^{-2})exp(?x2σ?2)項(xiàng)用于解釋噪聲測(cè)量,其中ααα是面元的法向量nsn_sns?和要積分的測(cè)量法向量之間的角度,ddd是測(cè)量相對(duì)于相關(guān)面元的距離。測(cè)量法線取自NDN_DND?,對(duì)應(yīng)于幀到模型ICP,詳見[2]。
Pomerleau等人提出了一種通過存儲(chǔ)速度的時(shí)間軌跡來推斷地圖中主導(dǎo)運(yùn)動(dòng)模式的方法,而不是使用語義信息。與我們的方法相反,他們的方法需要一個(gè)給定的全局地圖來估計(jì)當(dāng)前掃描中的點(diǎn)的速度。此外,他們的機(jī)器人姿態(tài)估計(jì)是相當(dāng)準(zhǔn)確的.
在圖4中,我們展示了我們的過濾方法與簡(jiǎn)單地從對(duì)應(yīng)于可移動(dòng)對(duì)象的類中刪除所有曲面相比的效果。當(dāng)使用樸素方法時(shí),停靠汽車上的面元被刪除,即使這些可能對(duì)增量姿態(tài)估計(jì)有價(jià)值的特征。利用該過濾方法,我們可以有效地去除動(dòng)態(tài)異常值,獲得一個(gè)更清晰的語義世界模型,同時(shí)避免了靜態(tài)對(duì)象(如停放的汽車)的面元。這些靜態(tài)對(duì)象對(duì)于ICP是有價(jià)值的信息,簡(jiǎn)單地刪除它們可能會(huì)由于缺少對(duì)應(yīng)而導(dǎo)致迭代失敗。
F.語義ICP
為了進(jìn)一步改進(jìn)幀到模型的姿態(tài)估計(jì),我們?cè)趦?yōu)化問題中加入了語義約束,這有助于降低離群值的影響。ICP的誤差最小化函數(shù):
(2)
其中每個(gè)頂點(diǎn)u∈VDu\in V_Du∈VD?被投影到一個(gè)參考頂點(diǎn)vu∈VMv_u\in V_Mvu?∈VM?和它的法向量nu∈NMn_u\in N_Mnu?∈NM?通過
(3,4)
rur_uru?和wuw_uwu?分別是相應(yīng)的殘量和權(quán)重。
對(duì)于最小化,我們使用高斯-牛頓方法,通過迭代求解增量δδδ
(5)
其中W∈Rn×nW\in R^{n\times n}W∈Rn×n是一個(gè)對(duì)角矩陣,包含權(quán)重wuw_uwu?對(duì)應(yīng)的每個(gè)殘差rur_uru?,r∈Rn×nr\in R^{n\times n}r∈Rn×n是堆疊的殘差向量,J∈Rn×6J\in R^{n\times6}J∈Rn×6是RRR相對(duì)于增量δδδ的雅可比矩陣。除了硬關(guān)聯(lián)和Huber規(guī)范加權(quán)外,我們還添加了來自更高層次語義場(chǎng)景理解的額外約束來對(duì)殘差進(jìn)行加權(quán)。這樣,我們可以將語義和幾何信息結(jié)合起來,使ICP過程對(duì)離群點(diǎn)更有魯棒性。
在ICP中,在第kkk次迭代中,殘差ru(k)r^{(k)}_uru(k)?的權(quán)值wu(k)w^{(k)}_uwu(k)?如下所示:
(6)
其中ρHuber(r)ρ_{Huber}(r)ρHuber?(r)對(duì)應(yīng)于Huber范數(shù),由:
(7)
對(duì)于語義相容性Csemantic((yu,Pu),(yvu,Pvu))C_{semantic}((y_u,P_u),(y_{v_u},P_{v_u}))Csemantic?((yu?,Pu?),(yvu??,Pvu??)),定義為:
(8)
即利用預(yù)測(cè)標(biāo)簽的確定性來加權(quán)殘差。通過Ⅱ{a}Ⅱ\{a\}Ⅱ{a},如果參數(shù)aaa為真,則指示函數(shù)為1,否則為0。
圖5為掃描時(shí)可見有兩輛車行駛的高速公路場(chǎng)景的加權(quán)過程,如圖5(a)所示。注意,我們使用語義對(duì)動(dòng)態(tài)進(jìn)行過濾,如第III-E節(jié)所述,從地圖中刪除了移動(dòng)的汽車,見圖5(b)。因此,我們也可以在圖5?中看到對(duì)應(yīng)較低強(qiáng)度的低權(quán)重,因?yàn)橛^測(cè)的類別與地圖不一致。
實(shí)驗(yàn)部分
實(shí)驗(yàn)評(píng)價(jià)主要是為了支持我們聲稱我們是(我)能夠準(zhǔn)確地建圖甚至在大量的移動(dòng)對(duì)象的情況下,我們(ii)能夠?qū)崿F(xiàn)更好的性能比簡(jiǎn)單地刪除可能移動(dòng)對(duì)象在一般環(huán)境中,包括城市、農(nóng)村,和高速公路場(chǎng)景。
為此,我們使用KITTI Vision Benchmark[10]的數(shù)據(jù)來評(píng)估我們的方法,其中我們使用Velodyne HDL-64E S2以10hz速率記錄的點(diǎn)云生成。為了評(píng)估里程計(jì)的性能,該數(shù)據(jù)集提出計(jì)算相對(duì)于平移和旋轉(zhuǎn)在不同姿態(tài)間距離上的平均誤差,并將其平均。地面真位姿是利用慣性導(dǎo)航系統(tǒng)的位姿信息生成的,在大多數(shù)序列中,GPS位置參考了一個(gè)基站,這使得它相當(dāng)準(zhǔn)確,但通常仍然只是局部一致.
在下面,我們將我們提出的方法(由SuMa++表示)與原始的基于surfer的建圖(由SuMa表示)進(jìn)行比較,并將SuMa與刪除所有可移動(dòng)類(汽車、公共汽車、卡車、自行車、摩托車、其他車輛、人員、自行車、motorcyclist)的語義分割(表示為SuMa nomovable)。
用于語義分割的RangeNet++使用點(diǎn)注釋[1]進(jìn)行訓(xùn)練,使用的是來自KITTI Odometry Benchmark的所有訓(xùn)練序列,這些序列是用于訓(xùn)練目的的標(biāo)簽。這包括序列00到10,除了序列08,因?yàn)轵?yàn)證而被忽略了。
我們?cè)贗ntel Xeon? W-2123和Nvidia Quadro P4000上測(cè)試了我們的方法。RangeNet++為每次掃描生成逐點(diǎn)標(biāo)簽平均需要75毫秒,面元mapping平均需要48毫秒,但在某些情況下(在具有多個(gè)循環(huán)閉包的訓(xùn)練集序列00上),我們最多需要190毫秒來集成循環(huán)閉包。
A.KITTI Road Sequences
第一個(gè)實(shí)驗(yàn)是為了證明我們的方法即使在有許多移動(dòng)物體的情況下也能夠生成一致的地圖。我們展示了來自KITTI視覺基準(zhǔn)的原始數(shù)據(jù)的道路類別的序列結(jié)果。注意,這些序列不是里程計(jì)基準(zhǔn)的一部分,因此沒有為語義分割提供標(biāo)簽,這意味著我們的網(wǎng)絡(luò)學(xué)會(huì)了推斷道路駕駛場(chǎng)景的語義類,而不是簡(jiǎn)單的記憶。這些序列,特別是高速公路序列,對(duì)于SLAM方法來說是具有挑戰(zhàn)性的,因?yàn)檫@里的大多數(shù)對(duì)象都是移動(dòng)的汽車。
此外,道路兩旁只有稀疏的明顯特征,如交通標(biāo)志或電線桿。沒有建筑角或其他更明顯的特征來指導(dǎo)注冊(cè)過程。在這種情況下,對(duì)持續(xù)移動(dòng)的異常值(如交通堵塞中的汽車)的錯(cuò)誤對(duì)應(yīng)通常會(huì)導(dǎo)致錯(cuò)誤估計(jì)的姿態(tài)變化,從而導(dǎo)致生成的地圖的不一致。
圖6顯示了使用SuMa生成的示例和提出的SuMa++。在純幾何方法的情況下,我們清楚地看到,姿勢(shì)不能正確估計(jì),因?yàn)橥怀龅慕煌?biāo)志顯示在不同的位置,導(dǎo)致很大的不一致。在我們提出的方法中,我們能夠正確地過濾移動(dòng)的車輛,相反,我們生成了一個(gè)一致的地圖,突出顯示一致的地圖交通標(biāo)志。在本例中,我們還繪制了SuMa和SuMa++測(cè)程結(jié)果的相對(duì)平移誤差。這些點(diǎn)表示每個(gè)時(shí)間戳中的相對(duì)平移誤差,曲線是給定點(diǎn)的多項(xiàng)式擬合結(jié)果。它表明,SuMa++在這樣一個(gè)充滿挑戰(zhàn)的環(huán)境中實(shí)現(xiàn)了更準(zhǔn)確的姿態(tài)估計(jì),這些環(huán)境中有許多由移動(dòng)對(duì)象引起的異常值。
選項(xiàng)卡。I顯示了相對(duì)平移和相對(duì)旋轉(zhuǎn)誤差,圖7顯示了在這部分?jǐn)?shù)據(jù)集上測(cè)試的不同方法的相應(yīng)軌跡。總的來說,我們看到我們提出的方法,SuMa++,生成了更一致的軌跡,在大多數(shù)情況下實(shí)現(xiàn)了比SuMa更低的平移誤差。與移除所有可能移動(dòng)對(duì)象的基準(zhǔn)SuMa nomovable相比,我們看到的性能與SuMa++非常相似。這證實(shí)了在這種情況下,SuMa性能較差的主要原因是實(shí)際移動(dòng)的對(duì)象引起的不一致性。然而,我們將在接下來的實(shí)驗(yàn)中表明,去除所有潛在的移動(dòng)物體也會(huì)對(duì)城市環(huán)境中的姿態(tài)估計(jì)性能產(chǎn)生負(fù)面影響。
B.KITTI Odometry Benchmark
第二個(gè)實(shí)驗(yàn)旨在表明,與簡(jiǎn)單地從觀察中刪除某些語義類相比,我們的方法表現(xiàn)得更好。該評(píng)估是在基蒂里程計(jì)基準(zhǔn)上進(jìn)行的。
選項(xiàng)卡。II表示相對(duì)平移誤差和相對(duì)轉(zhuǎn)動(dòng)誤差。IMLS-SLAM[7]和LOAM[40]是最先進(jìn)的基于激光雷達(dá)的SLAM方法。在大多數(shù)序列中,我們可以看到與最先進(jìn)的SuMa++相比相似的性能。更有趣的是,SuMa nomovable基線方法出現(xiàn)了分歧,尤其是在城市場(chǎng)景中。
這可能是違反直覺的,因?yàn)檫@些環(huán)境包含大量的人造結(jié)構(gòu)和其他更明顯的特征。但是有兩個(gè)原因?qū)е铝诉@種糟糕的性能,當(dāng)我們查看結(jié)果和出現(xiàn)建圖錯(cuò)誤的場(chǎng)景的配置時(shí),就會(huì)發(fā)現(xiàn)這兩個(gè)原因。首先,盡管我們?cè)噲D改進(jìn)語義分割的結(jié)果,但仍然存在錯(cuò)誤的預(yù)測(cè),導(dǎo)致地圖中實(shí)際上是靜態(tài)的surfers被刪除。第二,移除停著的汽車是問題,因?yàn)檫@是對(duì)齊掃描的良好和獨(dú)特的特征。這兩種效果都有助于使面元地圖更加稀疏。這一點(diǎn)更加重要,因?yàn)橥7诺钠囀俏ㄒ华?dú)特或可靠的特征。總之,簡(jiǎn)單地刪除某些類至少在我們的情況下是次優(yōu)的,并可能導(dǎo)致更差的性能。
為了在不可見的軌跡中評(píng)估我們的方法的性能,我們上傳了我們的結(jié)果,以便在未知的KITTI測(cè)試序列上進(jìn)行服務(wù)器端評(píng)估,這樣就不可能對(duì)測(cè)試集進(jìn)行參數(shù)調(diào)優(yōu)。因此,這可以很好地反映我們的方法在現(xiàn)實(shí)世界中的性能。在測(cè)試集中,我們獲得的平均旋轉(zhuǎn)誤差為0:0032 deg/m,平均平移誤差為1:06%,與原始SuMa的0:0032 deg/m和1:39%相比,平移誤差有所改善。
C.Discussion
地圖更新過程中,我們只懲罰面元s動(dòng)力學(xué)的可移動(dòng)的物體,這意味著我們不懲罰語義靜態(tài)對(duì)象,例如植被,盡管有時(shí)葉子的植被變化和植被變化的外觀與觀點(diǎn)由于激光束,只有從某些觀點(diǎn)得到反映。我們這樣做的動(dòng)機(jī)是,它們也可以作為很好的地標(biāo),例如,樹干是靜態(tài)的,是一個(gè)很好的姿態(tài)估計(jì)特征。此外,采用Huber范數(shù)的原始基于幾何的離群值剔除機(jī)構(gòu)經(jīng)常對(duì)這些部件進(jìn)行降權(quán)。
我們的方法有一個(gè)明顯的局限性:我們不能在第一次觀察時(shí)過濾掉動(dòng)態(tài)對(duì)象。一旦在第一次掃描中有大量的運(yùn)動(dòng)物體,我們的方法將失敗,因?yàn)槲覀儾荒芄烙?jì)一個(gè)適當(dāng)?shù)某跏妓俣然蜃藨B(tài)。我們通過在初始化期間刪除所有可能移動(dòng)的對(duì)象類來解決這個(gè)問題。然而,一種更穩(wěn)健的方法是回溯由于觀測(cè)到的移動(dòng)狀態(tài)的變化而產(chǎn)生的變化,從而回溯更新地圖。
最后,我們的第二次實(shí)驗(yàn)結(jié)果令人信服地表明,盲目刪除某一組類會(huì)降低定位精度,但潛在的移動(dòng)對(duì)象仍然可能從地圖的長(zhǎng)期表示中刪除,以允許表示環(huán)境中可能在不同時(shí)間點(diǎn)可見的其他遮擋部分。
結(jié)論
在本文中,我們提出了一種新的方法來建立語義地圖,通過基于激光的點(diǎn)云語義分割,不需要任何相機(jī)數(shù)據(jù)。我們利用這些信息來提高在其他模糊和具有挑戰(zhàn)性的情況下的姿態(tài)估計(jì)精度。特別是,我們的方法利用掃描和建圖之間的語義一致性來過濾掉動(dòng)態(tài)對(duì)象,并在ICP過程中提供更高級(jí)別的約束。這使我們能夠成功地結(jié)合語義和幾何信息,僅僅基于三維激光距離掃描,以獲得比純幾何方法更好的姿態(tài)估計(jì)精度。我們?cè)贙ITTI Vision Benchmark數(shù)據(jù)集上評(píng)估了我們的方法,顯示出與純幾何方法相比,我們的方法的優(yōu)勢(shì)。
盡管有這些令人鼓舞的結(jié)果,語義建圖的未來研究仍有一些途徑。在未來的工作中,我們計(jì)劃研究語義在環(huán)路閉合檢測(cè)中的使用,以及更細(xì)粒度的語義信息的估計(jì),如車道結(jié)構(gòu)或道路類型。
總結(jié)
以上是生活随笔為你收集整理的SuMa++: Efficient LiDAR-based Semantic SLAM的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js保留两位小数,整数不补零
- 下一篇: PLsql绿色免安装手顺