DenseTNT翻译
摘要
在自動駕駛中,基于目標的多軌跡預測方法最近被證明是有效的,它們首先為候選目標打分,然后選擇最終的一組目標,最后根據選定的目標完成軌跡。 然而,這些方法通常涉及基于稀疏預定義錨點的目標預測。 在這項工作中,我們提出了一種名為 DenseTNT 的無錨模型,它為軌跡預測執行密集目標概率估計。 我們的模型實現了最先進的性能,并在 Waymo 開放數據集運動預測挑戰賽中排名第一。 項目頁面位于 https://github.com/Tsinghua-MARS-Lab/DenseTNT。
引言
由于人類行為固有的隨機性和多模態,軌跡預測是自動駕駛中一項極具挑戰性的任務。 為了對這種高度的不確定性進行建模,一些方法通過從潛在變量表示的分布中采樣來預測多個未來軌跡,例如 VAE [7] 和 GAN [6]。
其他方法生成固定數量的軌跡,但僅在訓練期間對最近的軌跡進行回歸 [6, 8, 2],即使用多樣性損失。 Multipath [1] 和 CoverNet [9] 通過對模板軌跡進行分類,將問題視為分類問題。
最近,基于目標的方法 [14, 10, 11, 13] 越來越受歡迎并取得了最先進的性能。 他們的關鍵觀察是端點攜帶了軌跡的大部分不確定性,因此他們首先預測了代理的目標,然后進一步為每個目標完成了相應的完整軌跡。 他們通過對預定義的稀疏錨點進行分類和回歸來獲得最終目標位置,如圖 1 左下部分所示。例如,TNT [14] 將錨點定義為在車道中心線上采樣的點; 其他一些 [13] 將車道段作為錨點并預測每個車道段的目標。
這些基于目標的方法的預測性能很大程度上取決于目標錨的質量。 由于一個anchor只能生成一個目標,模型不可能圍繞一個anchor進行多條軌跡預測。 此外,同一車道段上的不同位置具有不同的局部信息,例如與最近車道邊界的相對距離。 基于稀疏錨的方法不能利用這種細粒度的信息。
在這項工作中,我們提出了 DenseTNT,一種無錨點的基于目標的軌跡預測方法。 它在不依賴啟發式預定義目標錨的質量的情況下,在很大程度上提高了目標估計的性能。 我們首先提取稀疏場景上下文特征,然后采用密集概率估計來生成目標候選者的概率分布。 最后,軌跡完成模塊根據一組選定的目標輸出軌跡。
方法
2.1場景上下文編碼
場景上下文建模是行為預測的第一步。 它提取車道和代理的特征并捕獲它們之間的交互。 稀疏編碼最近提出了一些方法 [5, 8](也稱為矢量化方法)。 與將車道和代理光柵化為圖像并使用 CNN 提取特征的密集編碼方法相比,稀疏編碼方法將所有地理實體(例如車道、交通燈)和車輛抽象為折線,更好地捕捉高 定義圖。
2.2密集目標概率估計
在場景上下文編碼之后,我們對地圖上的目標進行概率估計。 TNT [14] 定義了道路上的離散稀疏錨點,然后為其分配概率值。 我們的關鍵觀察是稀疏錨不是道路上真實概率分布的完美近似,因為(1)一個錨只能產生一個目標,我們不能圍繞一個錨進行多軌跡預測; (2) 道路上有很多普通點(遠離車道中心或邊界的那些)沒有很好地建模:同一條道路上的不同普通點具有不同的局部信息,即到最近車道邊界的相對距離。
因此,我們改為在地圖上執行密集目標概率估計。 具體來說,就是使用一個密集的目標編碼模塊,在一定的采樣率下提取道路上所有位置的特征。 然后,預測密集目標的概率分布。
密集目標編碼模塊使用注意力機制來提取目標和車道之間的局部信息。 我們將第 i 個目標的特征表示為 Fi ,它是通過 2 層 MLP 獲得的,MLP 的輸入為第 i 個目標的二維坐標。 目標和車道之間的局部信息可以通過注意力機制獲得:
公式(1)(2)
公式(3)
其中可訓練函數 g(·) 也是用 2 層 MLP 實現的。 用于訓練場景上下文編碼和密集概率估計的損失項是預測目標分數和真實目標分數之間的二元交叉熵:
公式(4)
其中 ψi 是第 i 個目標的真實得分。 離最終位置最近的球門的真實得分為1,其他為0。
2.3. 目標選擇
在密集概率估計之后,我們使用非極大值抑制(NMS)算法來選擇目標。
NMS 迭代地選擇概率最高的目標,并移除接近所選目標的目標。
前 K 個選定目標是預測目標。
2.4. 軌跡補全
與 TNT 類似,最后一步是完成以選定目標為條件的每個軌跡。 我們只有一個真實的軌跡,因此我們通過在訓練期間提供真實的目標來應用教師強制技術 [12]。
損失項是預測軌跡 s? 與真實軌跡之間的偏移
公式(5)
2.5. 長期預測
前面的步驟已經可以在短期(例如 3s)運動預測任務中取得良好的性能。 然而,長期預測仍然具有挑戰性,因為概率分布可能會在很長一段時間內發散。 受自然語言處理中句子生成的啟發,我們以自回歸的方式生成目標的概率分布,分別在 3s、5s 和 8s。
由于我們的目標是分 3 個步驟推出密集概率估計,因此我們在模型架構中開發了三個分支。
這三個分支在場景上下文編碼中為子圖模塊共享相同的權重,并且對其他部分具有獨立的權重,例如 場景上下文編碼和密集概率估計中的全局圖模塊。
通過在 3 秒、5 秒和 8 秒自回歸的 N 個目標選擇,我們獲得 N3 個目標集。 我們根據它們的概率分數對前 K 個目標集進行排序,然后完成它們以獲得 K 個軌跡。
更具體地說,對于每個目標集,我們使用上面的密集目標編碼模塊來獲取 3 個目標的特征。 然后將特征傳遞給軌跡完成模塊,該模塊是一個 2 層 MLP。 輸出是一個完整的軌跡[s1,s2…st]
實驗
實驗
3.1實施細節
代理和地圖編碼 為了對地圖進行歸一化,我們以目標車輛的最后位置為原點,以目標車輛的方向為 y 軸。 由于每個場景的地圖都比較大,我們只編碼了一個中心為(0, 30m),半徑為80m的子地圖
遵循 VectorNet [5],代理被轉換為向量序列。 每個向量包含起點、終點、起點和終點的時間戳以及相應代理的屬性。 車道被轉換成車道段序列。 每個車道段包含 ??10 個相鄰的車道點及其對應車道的屬性。 例如,將 50 個車道點的車道轉換為 5 個車道段。 由于相鄰兩個點之間的采樣距離約為1m,因此10個車道點的車道段約為10m。
密集目標抽樣 密集目標采樣旨在對目標車輛的所有可能目標進行采樣。
僅需要對密集位于道路和停車場的目標候選對象進行采樣。 兩個相鄰目標之間的距離,即采樣密度,設置為 1m。
我們不會對位于上面定義的子圖之外的目標進行采樣。
培訓詳情。 我們的模型在批量大小為 64 的訓練集上進行訓練。我們使用 Adam [3] 優化器訓練 16 個 epoch,初始值為 0.001 的學習率每 5 個 epoch 衰減 0.3 倍。 特征向量的隱藏大小設置為 128。不使用數據增強,例如隨機擾動或地圖縮放。
共有三種代理類型,即行人、車輛和騎自行車的人。 我們為每個人訓練一個模型,因為不同的代理類型具有不同的行為特征。
3.2. 結果稀疏和密集的目標 我們在 Argoverse 預測數據集上比較和評估稀疏和密集目標概率估計。 如表 1 所示,密集模型的性能優于稀疏模型,即普通 TNT。
Waymo 開放數據集運動預測挑戰賽我們評估了 DenseTNT 在 Waymo 開放數據集運動預測挑戰賽中的有效性。 如表 2 所示,我們的方法在排行榜上排名第一。 官方指標是 mAP,它提供了模型性能的全貌 [4]。 每個類別的細分性能如表 3 所示。
3.3. 定性結果 在 DenseTNT 中,目標候選者密集地分布在地圖上。 我們可視化基于所選目標的密集目標和預測軌跡的概率。 如圖 3 所示,DenseTNT 給出了多種預測,例如直行、左/右轉彎和 U 形轉彎。
結論
在本報告中,我們提出了一種無錨軌跡預測模型,名為 DenseTNT。 通過刪除啟發式預定義的目標錨,它優于以前的基于目標的方法。 DenseTNT 實現了最先進的性能,并在 Waymo 開放數據集運動預測挑戰賽中排名第一。
長篇---------------------------------------------------------------------------------------------------------
DenseTNT:來自密集目標集的端到端軌跡預測
摘要
由于人類行為的隨機性,預測道路代理的未來軌跡對自動駕駛具有挑戰性。 最近,基于目標的多軌跡預測方法被證明是有效的,它們首先對過采樣的目標候選者進行評分,然后從中選擇最終集。 然而,這些方法通常涉及基于稀疏預定義錨和啟發式目標選擇算法的目標預測。 在這項工作中,我們提出了一種名為 DenseTNT 的無錨和端到端軌跡預測模型,該模型直接輸出來自密集目標候選者的一組軌跡。 此外,我們引入了一種基于離線優化的技術,為我們最終的在線模型提供多個未來的偽標簽。
實驗表明,DenseTNT 實現了最先進的性能,在 Argoverse 運動預測基準上排名第一,并在 2021 年 Waymo 開放數據集運動預測挑戰賽中獲得第一名。
對于安全順暢的自動駕駛系統,一項必不可少的技術是預測道路參與者的未來行為。 例如,了解其他車輛是否打算更好地切入有助于我們做出剎車決定。 然而,由于人類行為固有的隨機性和多模態,運動預測是一項極具挑戰性的任務。
為了對這種高度的不確定性進行建模,一些方法通過從潛在變量表示的分布中采樣來預測多個未來軌跡,例如 VAE [18, 36] 和 GAN [12]。 其他方法生成一組軌跡,但僅在訓練期間對最近的軌跡進行回歸 [12, 20, 8],即使用多樣性損失。
然而,基于抽樣的方法不能輸出預測未來的可能性,并且品種損失對輸出缺乏可解釋性。
最近,基于目標的方法 [39, 30, 37] 越來越受歡迎并取得了最先進的性能曼斯。 他們的關鍵觀察是目標(端點)攜帶了軌跡的大部分不確定性,因此他們首先預測代理的目標,然后進一步完成每個目標對應的完整軌跡。 最終目標位置是通過對預定義的稀疏錨點進行分類和回歸獲得的,如圖 1 左下部分所示。例如,TNT [39] 將錨點定義為在車道中心線上采樣的點; 其他一些 [37] 將車道段作為錨點并預測每個車道段的目標。 這些方法通常采用的另一種技術是應用基于規則的算法來選擇最終的少量目標。 最值得注意的算法是非最大抑制(NMS)[39],其中只選擇局部高分目標。
這些方法的局限性有兩方面。 首先,這些方法的預測性能在很大程度上取決于目標錨的質量。 由于一個anchor只能生成一個目標,一個模型不能圍繞一個anchor進行多個軌跡預測。 此外,稀疏基于錨點的方法無法捕獲細粒度信息,即同一車道段上的不同位置包含不同的局部信息,例如與最近車道邊界的相對距離。 此外,在估計稀疏目標的概率后,使用 NMS 啟發式選擇目標集,這是一種貪心算法,鑒于問題的多峰性,不能保證找到最優解。
為了解決這些問題,我們提出了 DenseTNT,一種無錨和端到端的多軌跡預測方法。 DenseTNT 首先從場景上下文中生成具有概率的密集目標候選者; 根據目標概率,它進一步采用目標集預測器來生成最終的軌跡目標集。 與之前的方法相比,DenseTNT 更好地為目標候選者建模并擺脫了后處理。
DenseTNT 中的目標集預測是一個多標簽預測問題,需要多個標簽作為訓練目標。
然而,與天生具有多個標簽框作為監督 [2] 的對象檢測不同,在軌跡預測中,我們只在每個訓練樣本的許多可能的未來中觀察到一個真實的未來,這使得監督模型極具挑戰性。 為了解決這個問題,我們設計了一個離線模型來為我們的在線模型提供多個未來的偽標簽。 與上述在線模型相比,離線模型使用優化算法代替目標集預測器進行目標集預測。 優化算法從目標的概率分布中尋找最優目標集; 然后將目標集用作在線模型訓練的偽標簽。
DenseTNT 在自動駕駛軌跡預測任務中取得了最先進的性能,在 Argoverse 運動預測基準中排名第一,在 2021 Waymo 開放數據集運動預測挑戰賽中排名第一。
相關工作
由于代理的意圖和行為未知,未來的預測是高度不確定的 [14、33、17、21、28、38]。 在自動駕駛領域,為了對高度的多模態進行建模,隱式使用潛在變量是一種流行的方法 [15, 35, 27, 29]。 DESIRE [18] 使用條件變分自動編碼器 (CVAE),SocialGAN [13] 使用對抗性學習使預測更加真實。 一些方法旨在解決模式崩潰 [25, 36, 23, 10, 3]。 最近,基于目標的多軌跡預測方法因其卓越的性能而廣受歡迎。 我們將在本節后面討論它們的詳細信息。
地圖編碼 地圖編碼方法可以分為兩類:光柵化編碼和矢量化編碼。 光柵化編碼方法將高清地圖元素與代理一起光柵化為圖像,并使用 CNN 對圖像進行編碼。 基于光柵化編碼,崔等人。 [9] 超越了單一軌跡并預測了多個軌跡及其概率。
IntentNet [4] 開發了一個由 CNN 組成的檢測器,不僅可以從光柵圖像中提取特征,還可以從 LiDAR 點中提取特征。 Multipath [5] 使用 CNN 從光柵圖像中提取特征,然后預測 K 個預定義錨軌跡的概率和錨狀態的回歸偏移。 梁等人。 [19] 在圖上設計了多尺度位置編碼和卷積 RNN,用于地圖編碼。 為了捕捉遠程人類軌跡預測的不確定性,Jain 等人。 [16] 預測和更新空間位置上的離散分布。 由于卷積的形狀,這些光柵化方法無法捕獲高清地圖的結構信息,并且不允許對目標點進行非網格采樣。
近年來,能夠更好地捕捉高清地圖結構信息的稀疏(矢量化)編碼方法發展迅速。 他們將每個實體(車道或代理)視為一組稀疏元素,并使用圖神經網絡來提取實體的特征以及不同實體之間的交互。 VectorNet [11] 是第一個直接合并車道和代理的矢量化信息的網絡。 LaneGCN [20] 構建了一個車道圖,并使用帶有鄰接矩陣的圖卷積來捕獲車道圖的復雜拓撲。 LaneRCNN [37] 不是通過特征向量來表示每個代理,而是為每個代理提出了基于圖的表示,并通過對圖到圖的交互進行建模來捕獲代理之間的交互。 TPCN [34] 采用點云學習策略將預測學習任務建模為空間模塊和時間模塊之間的聯合學習。 與這些僅考慮高清地圖的車道中心線或車道邊界的矢量化方法不同,我們對道路上的密集空間位置進行建模。
基于目標的軌跡預測 雷德等人。 [24] 將行人的目標作為潛在變量引入,從而將預測問題轉化為規劃問題。
TNT [39] 首先從道路地圖中采樣錨點并生成以這些錨點為條件的軌跡。 然后對軌跡進行評分,并使用非最大抑制 (NMS) 來選擇最終的一組軌跡。 與 TNT 類似,LaneRCNN [37] 的解碼管道將車道段視為錨點并輸出每個錨點的概率,如果兩個預測太接近,則使用 NMS 去除重復目標。 DROGON [7] 專注于不同的任務,即給定單個代理的有意目的地。 他們創建了一個軌跡預測數據集來研究面向目標的行為,并使用條件 VAE 框架來預測多個可能的軌跡。
基于目標的思想也被用于尋找自動駕駛的最佳規劃策略 [1]。 此外,在人類軌跡預測中,Tran 等人。 [31]考慮行人對旅程目的地的意圖,設計了一個雙通道神經網絡,包括目標通道和軌跡通道,用于長期人類軌跡預測。 與之前的作品相比,DenseTNT 是一種無錨的基于目標的模型,可以以端到端的方式學習。
方法
DenseTNT 是一種無錨的端到端軌跡預測方法,它直接從密集目標候選者中輸出一組軌跡。 我們首先利用稀疏(矢量化)編碼方法來提取特征,它捕獲高清地圖的結構特征(第 3.1 節)。
然后我們使用一個密集的目標編碼器來生成目標的概率分布(第 3.2 節)。 最后,目標集預測器將目標的概率分布作為輸入并直接生成一組目標(第 3.3 節)。
為了訓練我們的模型,更具體地說是目標集預測器,我們設計了一個基于優化的離線模型,該模型生成用于監督的偽標簽。
3.1. 稀疏上下文編碼
場景上下文建模是行為預測的第一步。 它提取車道和代理的特征并捕獲它們之間的交互。 最近提出了稀疏編碼方法 [11, 20](也稱為矢量化方法)。 與將車道和代理光柵化為圖像并使用 CNN 提取特征的光柵化編碼方法相比,稀疏編碼方法將所有地理實體(例如車道、交通燈)和車輛抽象為折線,更好地捕捉高層次的結構特征。 定義圖。
由于其出色的性能,我們在這項工作中采用了 VectorNet [11]。 VectorNet 是由子圖模塊和全局圖模塊組成的分層圖神經網絡。 子圖模塊用于對車道和代理的特征進行編碼,全局圖模塊使用注意力機制來捕獲車道和代理之間的交互。 在上下文編碼之后,我們得到一個二維特征矩陣 L,其中每行 Li 表示第 i 個地圖元素(即車道或代理)的特征。
3.2. 密集目標概率估計
在稀疏上下文編碼之后,我們對地圖上的目標進行概率估計。 TNT [39] 定義了道路上的離散稀疏錨點,然后為其分配概率值。 我們的關鍵觀察是稀疏錨不是道路上真實概率分布的完美近似,因為(1)一個錨只能產生一個目標,我們不能圍繞一個錨進行多個軌跡預測; (2) 基于稀疏錨點的方法不能捕捉細粒度信息,即同一車道段上的不同位置包含不同的局部信息,例如到最近車道邊界的相對距離。
因此,我們改為在地圖上執行密集目標概率估計,以便目標預測是無錨的。 具體來說,就是在一定的采樣率下,使用一個密集的目標編碼器來提取道路上位置的特征。 然后,預測密集目標候選的概率分布。
車道得分。 在目標概率估計之前,我們采用車道評分模塊來預測目標將落在的車道以減少目標候選者的數量。 作為更高的抽象層次,每條車道上都有數十個目標。 通過對車道進行評分,我們可以過濾掉不在候選車道上的目標候選,減少后期的計算。
車道的評分被建模為一個分類問題,并使用二元交叉熵損失 Llane 進行訓練。 離地面真實目標最近的車道的地面真實得分為1,其他為0。距離在在車道 l 和真實目標 ygt 之間定義為 d(l, ygt) = min(||l1 -ygt||2 , ||l2 -ygt||2 , . . , ||lt -ygt| |2)。
概率估計。 密集目標編碼器使用注意力機制來提取目標和車道之間的局部信息。 我們首先通過使用 MLP 編碼目標的 2D 坐標來獲得目標的初始特征矩陣 F。 目標和車道之間的局部信息可以通過注意力機制獲得:
公式(1)
公式(2)
其中 WQ,WK,WV ∈ R dh×dk 是線性投影矩陣,dk 是查詢/鍵/值向量的維度,F,L 是密集目標候選和所有地圖元素(即車道)的特征矩陣 或代理),分別。
第 i 個進球的預測得分可以寫成:
公式(3)
其中可訓練函數 g(·) 也是用 2 層 MLP 實現的。 用于訓練稀疏上下文編碼器和密集概率估計的損失項是預測目標分數 φ 和真實目標分數 ψ 之間的二元交叉熵損失:
公式(4)
離最終位置最近的球門的真實得分為1,其他為0。
3.3. 目標集預測
通過上面的密集概率估計,我們獲得了一個熱圖,表明軌跡的最終位置的概率分布。 我們的目標是在不同的模式中選擇最可能的目標,即熱圖中的一些獨特的峰值。 典型的基于目標的軌跡預測管道采用非極大值抑制(NMS)進行目標選擇。 但是,NMS 無法靈活處理各種情況,因為不同的熱圖具有不同的最佳 NMS 閾值,如圖 4 所示。
我們的發現是,目標選擇可以建模為一個集合預測任務,因此我們設計了一個目標集預測器,將這個熱圖作為輸入并以端到端的方式生成目標集。 然而,與具有多個標簽框 [2] 的目標檢測不同,在軌跡預測問題中,我們只能從許多可能的未來中觀察到一個真實的未來。 為了解決這個問題,我們設計了一個離線模型來為我們的在線模型(更具體地說,目標集預測器)提供多個未來的偽標簽。 離線模型由與在線模型相同的編碼模塊組成,但使用優化算法代替目標集預測器。 下面,我們首先介紹優化算法,然后詳細介紹我們的目標集預測器。 目標集預測器的訓練過程如圖 3 所示。
優化(離線) 從上述步驟獲得的熱圖由來自 C = {c1, c2, … 的映射 h 表示。 . . , cm} 到 [0, 1] ? R,其中 ci ∈ R 2 是地圖上的第 i 個目標。 設Y為最終位置坐標的隨機變量,其概率分布滿足P(Y = ci) = h(ci)。 給定一個預測目標集y = {y^1, y^2, . . . , y?K} 和真實目標 ygt,?y 的誤差為 d(?y, ygt),例如,最小最終位移誤差 (FDE) 為:
公式(5)
由于我們不知道 ygt 的確切值,因此很難獲得誤差 d(?y, ygt)。 但是,我們可以使用 Y 的概率分布來獲得 ?y 的期望誤差:
公式(6)
我們將目標函數定義為 f(y) = E[d(y, Y )]。
我們的目標是找到最小化 f(y) 的全局最優解 ?y。 優化算法是通過比較各種解決方案來迭代執行直到找到最佳或令人滿意的解決方案的過程。 我們在本文中采用了爬山算法,這是一種迭代算法,每一步都試圖對當前解決方案進行增量更改。 該算法的細節在算法 1 中描述。 然后我們可以得到非常接近全局最優解 ?y 的 ?y:
公式(7)
其中 Y 是優化過程的搜索空間。
現在對于訓練集中的每個 x,我們可以使用上述步驟生成熱圖 h,然后使用優化算法得到 ?y。
目標集預測器(在線)。 集合預測器是由 DETR [2] 引入的,它將目標檢測視為集合預測問題,并基于匈牙利匹配設計損失。 在這個多未來預測問題中,我們也將其視為集合預測問題,并使用離線模型的輸出作為偽標簽來訓練在線模型的目標集預測器。 我們沒有在預測目標集和偽標簽之間執行匈牙利匹配,而是在訓練期間執行離線優化,使用每個優化的偽標簽來監督其對應的預測目標。
讓我們將 y˙ = {y˙i} K i=1 表示為在當前訓練步驟由目標集預測器生成的 K 個預測目標集。 我們使用上述優化算法為這個訓練步驟生成偽標簽 ?y。 優化算法的初始目標集設置為預測目標集 y˙。 優化算法只搜索 y˙ 的鄰居,而不是搜索最優解。 具體來說,我們運行 L(L = 100) 次隨機擾動以獲得 L 個目標集。 當前訓練步驟中目標集預測器的偽標簽 ?y 是具有最低預期誤差的目標集。
損失項是預測目標集 y˙ 和偽標簽 ?y 之間的偏移:
公式(8)
其中 Lreg 是兩個目標之間的標準 1 損失。
由于熱圖指示的概率分布是多樣的,單個回歸量很難處理。 目標集預測器有多個頭,可以同時預測 N 個目標集。 具體來說,每個頭會預測2K+1個值,包括K個進球的二維坐標和這個頭的置信度。 每個頭部由一個熱圖編碼器和一個解碼器組成。 熱圖編碼器是一個單層自注意力機制,然后是一個最大池化,而解碼器是一個輸出 2K + 1 個值的兩層 MLP。 共享所有頭部的熱圖編碼器的參數以減少計算。
在訓練過程中,優化算法只為預期誤差最低的頭部生成偽標簽,目標集預測器只對這個頭部進行回歸。 為了預測多個頭的置信度,我們使用二元交叉熵損失:
公式(9)
其中 μ 是頭部的預測置信度,ν 是置信度標簽。 對于具有最低預期誤差的頭部,νi = 1,對于其他頭部,νi = 0。 在推理過程中,我們將置信度最高的頭部作為目標集預測器的輸出。
3.4. 軌跡完成 與 TNT 類似,最后一步是完成以預測目標為條件的每個軌跡。 我們首先計算類似于上述密集目標編碼的每個目標的特征,然后將其傳遞給解碼器即 2 層 MLP。 解碼器的輸出是整個軌跡 [?s1, s?2, … . . , 英石 ]。
我們只有一個真實軌跡,因此我們通過在訓練期間提供真實目標來應用教師強制技術 [32]。 損失項是預測軌跡 ?s 和真實軌跡 s 之間的偏移:
公式(10)
其中 Lreg 是兩點之間的平滑 1 損失。 在推理過程中,該軌跡完成模塊用于同時生成 K 個目標的 K 個軌跡。
3.5. 學習
我們方法的訓練過程有兩個階段。 在第一階段,我們使用真實軌跡訓練除目標集預測器之外的所有模塊:
公式(11)
第二階段,我們在訓練集上訓練目標集預測器,由離線模型(編碼+優化算法)生成的偽標簽監督:
公式(12)
實驗
4.1數據集
Argoverse 預測數據集 Argoverse 預測數據集 [6] 是具有代理軌跡和高清地圖的數據集。 給定目標車輛在過去 2 秒的軌跡,以 10Hz 采樣,我們需要預測未來 3 秒的未來軌跡。
有 333,000 個真實世界的駕駛序列位于十字路口或擁擠的交通中,每個序列包含一個用于預測的目標車輛。 訓練、驗證和測試集分別包含 205942、39472 和 78143 個序列。
Waymo 開放運動數據集 Waymo 開放運動數據集是迄今為止最多樣化的交互式運動數據集。
它包含超過 1750 公里道路的 570 多個小時的獨特數據,超過 100,000 個場景,每個場景長達 20 秒。 數據集中有三種類型的代理,即車輛、行人和騎自行車的人。 給定目標代理的 1 秒歷史軌跡,需要預測 8 秒的未來軌跡。
指標 我們遵循 Argoverse 基準并使用最小平均位移誤差 (minADE)、最小最終位移誤差 (minFDE) 和未命中率 (MR)。每個軌跡由隨時間變化的一系列點表示。 ADE 是預測軌跡的每個點與其對應的真實點之間的平均位移。 minADE 是預測的 K 個軌跡的最小 ADE,minFDE 是 K 個最終位置與地面真實最終位置之間的最小位移。 遺漏率是根據最終位移誤差預測的軌跡均不在地面實況 2.0 米范圍內的場景的比率。
4.2. 實施細節
目標候選抽樣 我們首先對距離目標車輛 50m(曼哈頓距離)內的車道進行采樣。
然后我們對密集分布在這些車道上的候選目標進行采樣。 因此,采樣目標候選的數量取決于目標車輛周圍的車道。 對于以車道中心線表示的車道,采樣距離中心線3m以內的候選目標,而對于以車道邊界表示的車道,則采樣邊界內的候選目標。 兩個相鄰目標之間的距離,即采樣密度,設置為 1m。
訓練詳情 我們的模型在訓練集上訓練,批大小為 64。在第一階段,我們訓練除目標集預測器外的所有模塊 16 個 epoch,初始值為 0.001 的學習率每衰減到 30% 5個時代。 在第二階段,我們訓練目標集預測器 6 個 epoch,初始值為 0.001 的學習率每個 epoch 衰減到 30%。 特征向量的隱藏大小設置為 128。我們的目標集預測器的頭數是 12。沒有使用數據增強。
4.3. 基準的結果
Argoverse運動預測基準我們在Argoverse驗證集上評估DenseTNT,并在表1中報告結果。可以看出,Densett的表現大大優于文獻中流行的模型。還值得注意的是,我們的在線模型(Densett w/目標集預測器),雖然是根據離線模型(Densett w/optimization)可獲得與離線模型相當的結果。我們進一步將Densett與表1中Argoverse排行榜上表現最好的公司進行了比較。由于第1、第3和第4種方法的細節尚未披露,我們無法對它們進行定性比較。與使用NMS進行后處理的PRIME(第二)和LaneRCNN(第五)相比,我們的方法可以在實時使用期間以端到端的方式生成軌跡。我們在官方排名指標MR上取得了優異的性能,這驗證了我們方法的有效性。對于另一種流行的度量minFDE,我們還可以通過將其用作優化目標來實現最先進的性能。
圖5顯示了我們的在線模型產生的定性結果。在某些情況下,目標的概率分布是多模態的,這使得NMS很難在后處理階段處理。我們的模型在熱圖覆蓋率較高的情況下進行了不同的軌跡預測。
**Waymo開放數據集運動預測挑戰。**我們為2021年Waymo開放數據集運動預測挑戰賽開發了Densett的變體,并獲得了第一名。挑戰排行榜如表3所示。我們的技術報告1中討論了該變體的詳細信息。
模型架構我們對模型的主要部件進行燒蝕研究。這些組件是密集概率估計、生成偽標簽的優化算法和目標集預測器。有不同的指標來衡量生成最可能軌跡的性能。我們在不同的優化目標下測試了我們的方法的有效性,如表2所示。
每個組件在我們的方法中都扮演著重要的角色。
密集概率估計的性能比稀疏概率估計要好得多,因為密集概率估計提供了更細粒度的局部信息。
此外,稀疏概率估計只能與基于規則的啟發式算法NMS相結合。NMS的超參數是去除相鄰點的閾值,即兩個距離小于閾值的點被視為同一點。為了公平比較,我們展示了在不同度量下NMS的最佳結果。在線模型的結果與離線模型基本一致,證明了目標集預測的有效性。變化損失是一種傳統的端到端軌跡預測方法,它生成固定數量的軌跡,但在訓練期間僅對最近的一條進行回歸。我們的端到端方法大大優于它。
目標密度為了表示最終位置的概率分布,我們在車道上對候選目標進行密集抽樣。目標的采樣密度對我們方法的性能有影響,我們在表4中顯示了這一點。這表明在達到飽和點之前,密度越高,性能越好。
優化給定一個指示車輛最終位置概率分布的熱圖,使用優化算法尋找全局最優解。
每個實例的優化算法的最大運行時間對性能有影響。表5顯示了隨時間變化的優化性能。在t=100ms之前,性能急劇提高,而在t=200ms之后,性能幾乎保持不變。
結論
在本文中,我們提出了一個無錨和端到端的軌跡預測模型,稱為Densett,它直接從稠密的候選目標輸出一組軌跡。此外,我們引入了一個基于優化的離線模型,以提供多個未來的偽標簽來訓練在線模型。Densett不僅在線運行,而且具有與離線模型類似的性能,證明了目標集預測設計和我們的訓練范式的有效性。綜合實驗表明,Densett實現了最先進的性能,在Argoverse運動預測基準中排名第一,并在2021 Waymo開放數據集運動預測挑戰賽中獲得第一名。
附錄
A離線優化
為了提高DenseTNT的訓練效率,我們設計了一個由上下文編碼模塊和優化算法組成的離線模型。有不同的指標來衡量多軌跡預測方法的性能。為了進行綜合評估,我們測試了優化算法在不同優化目標組合下的有效性,如表6所示。
B實現細節
代理和映射編碼為了規范化地圖,我們將目標車輛的最后位置作為原點,目標車輛的方向作為y軸。按照VectorNet[11],車道和代理被轉換為向量序列。每個向量包含起點、終點及其相應車道或代理的屬性。屬于某個通道的向量也包含其在此通道中的索引,屬于某個代理的向量包含其起點和終點的時間戳。經過稀疏上下文編碼,我們得到了車道和代理的特征。
優化算法優化算法的目的是找到一個目標集,使預期誤差最小化。它由靜態類型語言實現,以實現最快的速度,并在100毫秒內搜索數百個目標集。
我們在8個CPU上以不同的初始化并行運行優化算法,并選擇最佳結果。主要成本是計算每個搜索目標集的預期誤差。
最終位置的概率分布由熱圖目標C={c1,c2,…,cm}及其相應的概率h(ci)表示。在計算給定目標集的期望誤差時,只考慮滿足H(CI)的CI。≥ 10?3.
由于樣本密度為1m,每個熱圖目標ci代表1m×1m的空間。為了獲得更精確的預期誤差,我們將每個熱圖目標劃分為9個熱圖目標,概率為1 9 h(ci),每個熱圖目標代表1 3m×1 3m的空間。
目標集預測器。目標集預測器旨在學習從熱圖到目標集的映射。我們只編碼滿足h(ci)的熱圖目標≥ 10?5.首先,我們以概率最高的熱圖目標為原點,對熱圖目標和偽標簽的二維坐標進行歸一化。然后,使用兩層MLP對熱圖目標進行編碼,輸入為每個目標的二維坐標及其對應的對數概率。
熱圖目標的特征被傳遞給預測頭。使用softmax函數對所有頭部的預測置信度進行歸一化。目標集預測器的頭數設置為12。
C.定性結果
圖6顯示了與典型的基于目標的軌跡預測方法的一些代表性比較,其性能在很大程度上取決于啟發式預定義錨的質量。在圖7中的辯論驗證集上,我們還提供了不同流量場景中的更多定性結果。在某些情況下,最終位置的概率分布非常不同,NMS很難處理好。
總結
以上是生活随笔為你收集整理的DenseTNT翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据湖Hudi-8-Hudi集成Fli
- 下一篇: 电商如何利用API接口获取商品信息数据