日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

VectorMapNet | 端到端的矢量化高精地图学习

發布時間:2023/12/8 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 VectorMapNet | 端到端的矢量化高精地图学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者?| wanghy

源自?|?知乎

編輯?|?汽車人

點擊下方卡片,關注“自動駕駛之心”公眾號

ADAS巨卷干貨,即可獲取

論文:arxiv.org/abs/2206.0892

代碼:github.com/Mrmoore98/Ve

摘要

自動駕駛系統需要對周圍環境具有很好的理解,包括動態物體和靜態高精度語義地圖。現有方法通過離線手動標注來解決語義構圖問題,這些方法存在嚴重的可擴展性問題。最近的基于學習的方法產生稠密的分割預測結果,這些預測不包含單個地圖元素的實例信息,并且需要涉及許多手工設計組件的啟發式后處理,以獲得矢量化地圖。為此,我們引入了一個端到端矢量化高精地圖學習pipeline,稱為 VectorMapNet。?VectorMapNet 采用板載傳感器觀測,并預測BEV視角中一組稀疏的polyline基元,以對高精地圖的幾何形狀進行建模。基于該pipeline,我們的方法可以顯示地對地圖元素之間的空間關系進行建模,并生成對下游自動駕駛任務友好的矢量化地圖,而無需進行后處理。在我們的實驗中,VectorMapNet 在 nuScenes 數據集上實現了強大的高精地圖學習性能,超過了之前SOTA方法 14.2 mAP。定性地,我們還展示了?VectorMapNet 能夠生成全面的地圖并捕獲更細粒度的道路幾何細節。據我們所知,VectorMapNet 是第一個針對端到端矢量化高精地圖學習問題而設計的工作。

核心貢獻

  • VectorMapNet 是一種端到端的高精語義地圖學習方法。與之前的工作不同,它使用折線來表示地圖元素,并直接從傳感器觀測中預測矢量化輸出,而無需地圖柵格化或后處理;

  • 聯合建模地圖元素和每個地圖元素的幾何形狀之間的拓撲關系是具有挑戰性的。我們利用折線作為基元來建模復雜的地圖元素,并通過將此聯合模塊解耦為兩部分來緩解這一困難:地圖元素檢測器和折線生成器

  • VectorMapNet 在 nuScenes 數據集上實現了SOTA的高精語義地圖學習性能。定量和定性結果都證實了我們的設計選擇。

  • 基本思想

    地圖元素包括:道路邊界、車道分割線和人行橫道等;

    設計思路:本文將該問題構建為稀疏點集預測問題,每個語義元素由N_v個有序二維點列構成的折線表示。這種設置使得我們能夠對地圖元素之間的空間和拓撲關系進行建模,并強調地圖元素的實例特征。

    使用polyline表征的三個優勢:

  • 高精地圖通常由不同幾何形狀的元素混合組成,例如點、線、曲線和多邊形。polyline是一種靈活的基元,可以有效地表示這些幾何圖形

  • 折線頂點的順序是編碼地圖元素方向信息的自然方式,這對于車輛規劃至關重要;

  • 折線表示已被下游自動駕駛模塊廣泛采用,例如運動預測。

  • 算法流程


    VectorMapNet主要由三部分組成:BEV feature 提取、地圖元素檢測和polyline生成。基于bev feature建模Polylines分為兩步,是因為地圖元素的結構模式和位置具有廣泛的多樣性,共同學習它們可能具有挑戰性。因此將該建模任務解耦成兩部分:

  • 場景級元素檢測任務,通過預測元素關鍵點及其類標簽來定位和分類所有地圖元素;

  • 為每個檢測到的地圖元素生成polyline頂點序列的對象級序列生成任務。

  • BEV feature

    兩個輸入模態:圖像和激光點云
    1.?圖像分支:通過共享CNN backbone來獲取每個相機的圖像特征,然后通過IPM變換到BEV空間。由于相機圖像中缺少深度信息,本文采用一種常見的方法,假設地面大部分是平面的,并使用簡單的單應性將圖像轉換到 BEV。在不知道地平面的確切高度的情況下,這種單應性變換不是準確的變換。為了緩解這個問題,文中將圖像特征轉換為四個不同高度(-1m、0m、1m、2m)的 BEV 平面,并將這些特征concat得到圖像BEV feature
    2.?激光分支:對于激光點云,文中使用具有動態體素化的 PointPillars 的變體,它將 3D 空間劃分為多個pillar,并使用柱狀點云來學習柱狀特征圖。
    3. 對圖像和激光得到的bev feature進行concat,并通過兩層卷積來得到最終的bev feature.

    地圖元素檢測

    目標:從bev feature中學習每個地圖元素的關鍵點和類別標簽。本文采用一個基于transformer的set prediction檢測器的變體來實現這一目標。這些元素之間的幾何關系由檢測器中的注意力模塊建模(query self-attention)。該檢測器通過二分圖匹配損失進行訓練,使得VectorMapNet 避免類似NMS的后處理步驟。

    元素queries:?每個元素query表示

    每個元素query又是由k個關鍵點組成:



    網絡結構:采用transformer decoder和一個預測頭,類似于DETR。將元素query拉伸成一個序列來滿足decoder的輸入要求:

    decoder由多頭self-attention和cross-attention組成。Cross-attention采用bev feature作為key和value,使用deformable attention,其中解碼器中的每個query在 BEV 特征中都有一個 2D 位置,以在預測的關鍵點和 BEV 空間之間建立一一對應關系并加速訓練收斂。


    預測頭:一個回歸分支和一個分類分支。
    回歸分支:對于每個地圖元素,回歸分支通過共享的MLP從關鍵點embedding預測每個關鍵點的坐標。

    分類分支:concat單個地圖元素的關鍵點embeddings,并通過線性投影層預測類別標簽。

    地圖元素的關鍵點表征:文中通過關鍵點來緊湊表征地圖元素的位置和輪廓。采用了如下三種保證方式,并在附錄中進行了對比。

    關鍵點embeddings:
    地圖元素中的每個關鍵點有兩個learnable embeddings,用于為attention模塊識別關鍵點之間的差異。第一個embedding是關鍵點位置embedding,指示該關鍵點在關鍵點中屬于哪個位置。第二個embedding編碼該關鍵點屬于哪個地圖元素。關鍵點最后的embedding是這兩種embedding的加和。

    Polyline生成器

    Polyline生成器基于bev feature、預測地圖元素關鍵點和類別標簽,來生成地圖元素的詳細幾何polyline。

    對于每個polyline進行拉伸獲得Polyline序列

    在序列最后再添加一個End of Sequence token EOS。

    為了估計這個分布,文中將聯合分布分解為一系列條件頂點坐標分布的乘積:


    文中使用自回歸網絡對該分布進行建模,該網絡在每一步輸出下一個頂點坐標的預測分布參數。這種預測分布是在頂點坐標值和序列結束token EOS 上定義的。對polyline生成器進行訓練,以最大化觀測的折線相對于模型參數 θ 和 BEV feature 的對數概率。

    網絡結構:文中使用transformer decoder來建模頂點的位置。生成器將polyline關鍵點的坐標值及其類標簽作為transformer decoder的初始輸入。Transformer decoder的queries通過cross attention模塊將 BEV 特征集成在一起。然后通過線性投影層迭代地將這些query解碼為頂點坐標值。該方法在殘差路徑內使用layer normalization的改進transformer,這提高了訓練處理的效率

    Polyline embeddings:?參考PolyGen,文中使用三個learned embeddings來表示每個token的屬性:?坐標embedding,指示token是表示 x 還是 y 坐標;位置embedding,表示token屬于哪個頂點;值embedding,表示token的量化坐標值。

    實驗結果

    對比了該實驗室之前的工作HDMapNet和ETH的STSU工作,下面對這兩種方法進行簡要的說明。

    HDMapNet方法也是基于輸入的圖像和激光點云獲得bev feature,只是圖像從pv->bev采用的是MLP。然后基于bev feature學習語義分割信息、方向信息和instance embedding,最后基于這三種信息構建實例。

    STSU采用基于DETR的方法學習每個object的query,然后基于MLP學習每根線的控制點(貝塞爾曲線表征線)和線之間的拓撲關系。

    本文使用倒角距離作為閾值來確定與GT的positive匹配的平均精度。{0.5,1.0,1.5}是倒角距離的預定義閾值。

    定量分析

    VectorMapNet在所有指標上都大大優于HDMapNet和STSU。

    定性分析

    使用折線作為基元與基線相比帶來了兩個好處:

  • polyline減輕了對地圖元素的詳細上下文進行編碼的難度。VectorMapNet 保留了大部分詳細的上下文(例如邊界的角)。使用稠密車道段和像素的模型很難學習這些幾何細節,因為這些表征需要準確地對其所有元素進行分類以保留幾何結構。否則,細節將被更改(參見圖 4 中的紅色橢圓)。

  • polyline表示可以防止 VectorMapNet 生成模棱兩可的結果,因為它可以一致地對方向信息進行編碼。沒有這種一致性約束的模型容易生成循環曲線,錯誤地表示具有兩個方向的單向車道分隔線,并連接具有沖突方向的兩條車道(參見圖 4 中的藍色橢圓)。這些奇異性阻礙了安全的自動駕駛。

  • 建模地圖元素之間的拓撲關系的好處:

  • 每個地圖元素都是約束每個交通參與者的交通規則中不可或缺的一部分。VectorMapNet 使用自注意力機制對地圖元素檢測器中地圖元素位置之間的拓撲關系進行建模,然后生成細節。根據實驗結果,我們發現VectorMapNet可以捕獲地圖中的大部分地圖元素,包括位于邊緣的小元素。此外,圖 5 顯示 VectorMapNet 可以找到數據集提供的高精地圖中未注釋的地圖元素。這顯示了所提出的基于學習的方法替代傳統高精地圖人類標注pipeline的潛力。

  • 消融實驗

    作者對采樣方式Polyline建模方法進行了討論。Curvature-based的采樣方法是基于nuScenes數據集的設置,在曲率變化超過某個閾值的位置對頂點進行采樣。Fixed interval采樣方法以固定間隔(1m)對頂點進行采樣。polyline建模方法包括離散和連續行駛,本文采用離散形式,連續形式參見 SketchRNN ,通過使用混合高斯分布將折線的頂點建模為連續變量。

    結論

    本文提出了 VectorMapNet,這是一種解決高精語義地圖學習問題的端到端模型。與現有工作不同,VectorMapNet 使用折線作為基元來表示矢量化高精地圖元素。為了學習這些折線,我們將學習問題分解為檢測和生成問題。我們的實驗表明,VectorMapNet 可以為受益于折線基元的城市地圖元素生成連貫且復雜的幾何圖形。我們相信這種學習高精地圖的新方法為高精語義地圖學習問題提供了一個新的視角。
    局限:盡管我們的方法可以在單個幀中生成連貫且復雜的幾何圖形,但不能保證時序一致的預測。如何有效地對矢量化高精地圖預測的時序信息進行編碼具有挑戰性,我們將其留作未來的工作。

    自動駕駛之心】全棧技術交流群

    自動駕駛之心是國內首個自動駕駛開發者社區,聚焦目標檢測、語義分割、關鍵點檢測、車道線、目標跟蹤、3D感知、多傳感器融合、SLAM、高精地圖、規劃控制、AI模型部署落地等方向;

    加入我們:自動駕駛之心技術交流群匯總!

    自動駕駛之心【知識星球】

    想要了解更多自動駕駛感知(分類、檢測、分割、關鍵點、車道線、3D感知、多傳感器融合、目標跟蹤)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規劃控制、領域技術方案、AI模型部署落地實戰、行業動態、崗位發布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這里匯聚行業和學術界大佬,前沿技術方向盡在掌握中,期待交流!

    整理不易,請點贊和在看

    總結

    以上是生活随笔為你收集整理的VectorMapNet | 端到端的矢量化高精地图学习的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。