當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TPAGT解读

發(fā)布時間：2024/4/11 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 TPAGT解读小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介

浙江大學(xué)和達(dá)摩院前不久提出的一個 MOT 新方法，目前在 MOT Challenge 常用的幾個數(shù)據(jù)集上名列前茅。論文標(biāo)題 Tracklets Predicting Based Adaptive Graph Tracking 其實已經(jīng)表明本文最大的兩個創(chuàng)新點，基于軌跡預(yù)測的特征提取以及基于自適應(yīng)圖網(wǎng)絡(luò)的特征聚合。大多數(shù)現(xiàn)存的多目標(biāo)跟蹤方法將當(dāng)前幀的檢測結(jié)果鏈接到歷史軌跡段都是采用基于特征余弦距離和目標(biāo)邊界框 IOU 的線性組合作為度量的，這其實有兩個問題：一是兩個不同幀（當(dāng)前幀和上一幀）上同一個目標(biāo)提取到的特征往往會出現(xiàn)不一致的問題；二是特征提取只考慮外觀而不考慮位置關(guān)系、軌跡段信息是不合理的。

因此，論文提出了一種新的高精度端到端多目標(biāo)跟蹤框架 TPAGT（上一個版本叫 FGAGT，感覺 TPAGT 更加貼合論文的工作），該方法解決了上述的兩個問題，在多個數(shù)據(jù)集上實現(xiàn)了新的 SOTA。

論文標(biāo)題

Tracklets Predicting Based Adaptive Graph Tracking
論文地址

http://arxiv.org/abs/2010.09015
論文源碼

暫未開源

介紹

首先說明的是，TPAGT 按照一般 MOT 的方法劃分是一個二階段框架，也就是先完成檢測，再按照檢測結(jié)果到相應(yīng)的位置提取目標(biāo)特征，最后利用關(guān)聯(lián)算法得到結(jié)果，關(guān)聯(lián)一般采用匈牙利算法。單階段方法融合了檢測和特征提取，是為了速度做出的精度妥協(xié)，所以精度相比二階段有些低。所以，作為一個二階段方法，TPAGT 的精度應(yīng)該有所創(chuàng)新，但是相應(yīng)的速度比較慢，具體推理速度，論文沒有提及，只能等源碼開放后測試了。

先來說一說 MOT 現(xiàn)有方法沒解決的幾個問題。

特征不一致問題

這個問題怎么來的呢，其實是因為軌跡段（tracklet）上目標(biāo)的特征都是來自于之前幀，而不是當(dāng)前幀（這很容易理解，當(dāng)前幀只有當(dāng)前幀的檢測結(jié)果確定目標(biāo)位置來提取特征嘛），但是呢，其實在移動過程中，目標(biāo)的姿態(tài)、光強度、視角都可能發(fā)生變化，這導(dǎo)致來自不同圖像的同一目標(biāo)的特征即使檢測準(zhǔn)確也會不太一致，這種不一致對數(shù)據(jù)關(guān)聯(lián)來說負(fù)面影響比較大。

特征融合問題

事實上，從 DeepSORT 開始，特征提取器主要關(guān)注的就是外觀信息，因為這對忽略了運動建模的一些 MOT 方法至關(guān)重要，因此特征提取分支也成為 ReID 分支，主要就是因為重識別模型關(guān)注的就是外觀信息。但是，目標(biāo)之間的位置關(guān)系、tracklet 的歷史信息對 MOT 任務(wù)也是很重要的。

樣本不平衡問題

一個 tracklet 只能匹配一個檢測框，那這個 tracklet 就是個連續(xù)的正例，沒有匹配上的 tracklet 就是連續(xù)的負(fù)例。顯然，正例數(shù)量是遠(yuǎn)遠(yuǎn)少于負(fù)例的，而且由于少量的新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失，進一步加劇了不同類型的樣本的不均衡問題。

上述的問題 TPAGT 都逐一解決了，其中最主要的一個問題就是 traklets 中的特征和當(dāng)前幀是不一致的，那么如何解決呢，到當(dāng)前幀上重提取特征就行，但是顯然不能直接把上一幀的 bbox（邊界框，包含目標(biāo)的位置區(qū)域等信息）用于當(dāng)前幀，因為目標(biāo)在圖像上不可能靜止，使用上一時刻的位置很不合理，所以需要對上一幀進行運動估計得到目標(biāo)在當(dāng)前幀預(yù)測的 bbox 位置然后提取特征。然后是特征融合的問題，考慮到目標(biāo)之間的聯(lián)系近似一個圖表示，作者采用了GNN（圖神經(jīng)網(wǎng)絡(luò)）來進行信息的聚合，為了更好獲取全局時空信息，GNN 的邊權(quán)自適應(yīng)學(xué)習(xí)。最后，樣本不平衡的問題采用了Balanced MSE Loss，這是一個加權(quán) MSE，屬于常用思路。

框架設(shè)計

Tracklets predicting based feature re-extracting

上面這個圖就是整體框架的設(shè)計，我先大體介紹一下網(wǎng)絡(luò)的 pipeline。首先，網(wǎng)絡(luò)的輸入有當(dāng)前幀圖像、當(dāng)前幀檢測結(jié)果、歷史幀檢測結(jié)果；接著，圖像被送入 backbone 中獲得特征圖（這里 backbone 最終采用 ResNet101+FPN 效果最好），然后將 bbox（這里當(dāng)前幀用的是檢測的 bbox，上一幀用的光流預(yù)測的 bbox）映射到特征圖上通過 RoI Align 獲得 region 外觀特征繼而送入全連接（這個操作類似 Faster R-CNN 的 proposal 提取特征，不理解的可以查閱我的博客），然后結(jié)合當(dāng)前幀的位置信息、歷史幀信息，讓圖網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)進行特征融合從而計算相似度，有了相似度矩陣匈牙利就能計算匹配結(jié)果了。

上面的敘述有個容易誤解的地方，它將過去一幀預(yù)測的 bbox 和歷史幀的非預(yù)測的 bbox 都在當(dāng)前特征圖上提取了特征，事實上，不是的，一來實際上， $t ? 2$ 幀的特征在處理 $t ? 1$ 幀的時候已經(jīng)重提取過了，在當(dāng)前幀上用當(dāng)時的 bbox 提取肯定存在嚴(yán)重的不對齊問題；二來，這樣會大大加大網(wǎng)絡(luò)計算的復(fù)雜性，完全沒有必要。論文這個圖畫的稍微有些讓人誤解，等開源后可以再細(xì)細(xì)研究。

我們知道，此前的 MOT 方法對運動的建模主要采用卡爾曼濾波為代表的狀態(tài)估計方法、光流法和位移預(yù)測法，這篇論文使用稀疏光流法預(yù)測 bbox 的中心點運動，由于目標(biāo)的運動有時候是高速的，為了應(yīng)對這種運動模式，必須采用合適的光流方法，文章采用金字塔光流，該方法魯棒性很強，具體想了解的可以參考這篇博客，下圖是金字塔光流預(yù)測的目標(biāo)當(dāng)前幀位置（b 圖），c 圖是 GT 的框，可以看到，預(yù)測還是很準(zhǔn)的。

Adapted Graph Neural Network

下面聊一聊這個自適應(yīng)圖神經(jīng)網(wǎng)絡(luò)。將 tracklets 和 detections 作為二分圖處理不是什么新鮮的事情，但是用來聚合特征 TPAGT 應(yīng)該是為數(shù)不多的工作，要知道此前我們聚合運動和外觀特征只是人工設(shè)計的組合，作者這種借助圖網(wǎng)絡(luò)自適應(yīng)聚合特征是很超前的思路。 每個檢測目標(biāo)和每個 tracklet 都是節(jié)點，如上圖所示，detection 之間沒有聯(lián)系，tracklet 之間也沒有聯(lián)系，但是每個 tracklet 和每個 detection 之間都有連接。圖網(wǎng)絡(luò)的學(xué)習(xí)目的就是每個節(jié)點的狀態(tài)嵌入 $hv\mathbf{h}_{v}$ ，或者說聚合其他信息后的特征向量。最終，這個 $hv\mathbf{h}_{v}$ 包含了鄰居節(jié)點的信息。

需要學(xué)習(xí)的狀態(tài)嵌入通過下面的公式更新，第一行表示 detections 的節(jié)點更新，第二行表示 tracklets 的節(jié)點更新，共有 $N$ 個 detection 和 $M$ 個 tracklet。下面講解第一行的幾個符號含義，第二行類似。 $f$ 表示神經(jīng)網(wǎng)絡(luò)運算，可以理解為網(wǎng)絡(luò)擬合函數(shù)； $h_{t, c}^{j}$ 表示第 $c$ 層第 $i$ 個 detection 的狀態(tài)嵌入。在一開始， $h_{d, 0}^{i}=f_ozvdkddzhkzd^{i}, h_{t, 0}^{i}=f_{t}^{j}$ ， $e_{d, c}^{i, j}$ 則表示第 $i$ 個檢測和第 $j$ 個 tracklet 在第 $c$ 層的圖上的邊權(quán)。本文作者只使用添加自適應(yīng)的單層 GNN，所以下面具體闡述單層學(xué)習(xí)的情況。

$hd,c+1i=f(hd,ci,{ht,cj,ed,ci,j}j=1N),i=1,2,?,Mht,c+1j=f(ht,cj,{hd,ci,et,cj,i}i=1M)j=1,2,?,N\begin{aligned} h_{d, c+1}^{i} &=f\left(h_{d, c}^{i},\left\{h_{t, c}^{j}, e_{d, c}^{i, j}\right\}_{j=1}^{N}\right), i=1,2, \cdots, M \\ h_{t, c+1}^{j} &=f\left(h_{t, c}^{j},\left\{h_{d, c}^{i}, e_{t, c}^{j, i}\right\}_{i=1}^{M}\right) j=1,2, \cdots, N \end{aligned}$

首先，邊權(quán)的初始化不采用隨機初始化，而是采用節(jié)點的特征和位置先驗信息，具體如下，主要是計算每個節(jié)點特征向量之間的歸一化距離相似度。具體圖信息聚合步驟如下。

計算初始相似度

si,j=1∥fdi?ftj∥2+1×10?16si,j=si,jsi,12+si,22+?si,j2+?+si,N2Sft=[si,j]M×N,i=1,?M,j=1,?N\begin{array}{c} s_{i, j}=\frac{1}{\left\|f_ozvdkddzhkzd^{i}-f_{t}^{j}\right\|_{2}+1 \times 10^{-16}} \\ s_{i, j}=\frac{s_{i, j}}{\sqrt{s_{i, 1}^{2}+s_{i, 2}^{2}+\cdots s_{i, j}^{2}+\cdots+s_{i, N}^{2}}}\\ \mathbf{S}_{\mathrm{ft}}=\left[s_{i, j}\right]_{M \times N}, i=1, \cdots M, j=1, \cdots N \end{array}

通過 IOU 和上面的初始相似度組成邊權(quán)（

w

可學(xué)習(xí)，表示位置和外觀信息的相對重要性）

$E=w×IOU+(1?w)×Sft\mathrm{E}=w \times \mathrm{IOU}+(1-w) \times \mathrm{S}_{\mathrm{ft}}$

根據(jù)上述的自適應(yīng)權(quán)重聚合節(jié)點特征（

⊙\odot

表示點積）

$Ftag=EFt=E[ft1,ft2,?,ftN]T\mathbf{F}_{\mathrm{t}}^{\mathrm{ag}}=\mathrm{EF}_{t}=\mathrm{E}\left[f_{t}^{1}, f_{t}^{2}, \cdots, f_{t}^{N}\right]^{T}$

$Hd=σ(FdW1+Sigmoid?(FdWa)⊙FtagW2)\mathbf{H}_{\mathrmozvdkddzhkzd}=\sigma\left(\mathbf{F}_ozvdkddzhkzd W_{1}+\operatorname{Sigmoid}\left(\mathbf{F}_ozvdkddzhkzd W_{a}\right) \odot \mathbf{F}_{\mathrm{t}}^{\mathbf{a g}} W_{2}\right)$

$Ht=σ(FtW1+Sigmoid?(FtWa)⊙FdagW2)\mathbf{H}_{\mathrm{t}}=\sigma\left(\mathbf{F}_{t} W_{1}+\operatorname{Sigmoid}\left(\mathbf{F}_{t} W_{a}\right) \odot \mathbf{F}_{\mathrmozvdkddzhkzd}^{\mathbf{a g}} W_{2}\right)$

現(xiàn)有的圖跟蹤方法需要額外的全連接層降維特征向量，然后通過歐式距離計算相似度。TPAGT 的方法只要標(biāo)準(zhǔn)化來自單隱層圖網(wǎng)絡(luò)的特征，然后矩乘它們即可得到相似度決戰(zhàn)，如下式。最終得到的相似度矩陣值介于 0 和 1 之間，越大代表兩個目標(biāo)越相似。學(xué)習(xí)的目的是使得同一個目標(biāo)的特征向量盡量接近，不同目標(biāo)的特征向量盡量垂直，這等價于三元組損失，但是更加簡單。

$hdi=hdi∥hdi∥2,htj=htj∥htj∥2,Sout=HdHtTh_ozvdkddzhkzd^{i}=\frac{h_ozvdkddzhkzd^{i}}{\left\|h_ozvdkddzhkzd^{i}\right\|_{2}}, h_{t}^{j}=\frac{h_{t}^{j}}{\left\|h_{t}^{j}\right\|_{2}}, \mathbf{S}_{\mathrm{out}=\mathbf{H}_{\mathrmozvdkddzhkzd} \mathbf{H}_{\mathbf{t}}^{\mathrm{T}}}$

Blanced MSE Loss

得到最終的相似度矩陣就可以進行監(jiān)督訓(xùn)練了，不過 GT 的標(biāo)簽為相同目標(biāo)為 1，不同的目標(biāo)為 0，下圖是作者做的可視化，每行代表一個 detection，每列代表一個 tracklet，綠行表示 detection 沒有匹配上任何 tracklet，所以是新目標(biāo)；相對的，紅列表示消失的目標(biāo)。1 表示正例，0 表示負(fù)例，顯然正負(fù)例嚴(yán)重不均衡，所以這里對 MSE 按照目標(biāo)類型進行了加權(quán)（超參），如下式。

$L=αEc0+βEc1+γEne+δEd+εEw=∑i=1M∑j=1N[α(S^i,j?Si,j)2?Icontinue??ISi,j=0+β(S^i,j?Si,j)2?Icontinue??ISi,j=1+γ(S^i,j?Si,j)2?Inew+δ(S^i,j?Si,j)2?Idisap?+ε∥W∥22]\begin{aligned} \mathcal{L} &=\alpha E_{c 0}+\beta E_{c 1}+\gamma E_{n e}+\delta E_ozvdkddzhkzd+\varepsilon E_{w} \\ &=\sum_{i=1}^{M} \sum_{j=1}^{N}\left[\begin{array}{c} \alpha\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {continue }} \cdot \mathbb{I}_{S_{i, j}=0}+\beta\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {continue }} \cdot \mathbb{I}_{S_{i, j}=1} \\ +\gamma\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{n e w}+\delta\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {disap }}+\varepsilon\|W\|_{2}^{2} \end{array}\right] \end{aligned}$

推理設(shè)計

推理時，我們會得到相似度矩陣，那么如何利用這個矩陣呢？假設(shè)有 $N$ 個 detection 和 $M$ 個 tracklet，矩陣就是 $M×NM\times N$ 的，此時在后面補充一個 $M×MM\times M$ 的增廣矩陣，矩陣中每個值都是一個閾值，如下圖，匈牙利算法就成了帶篩選的匹配方法，下圖由于第 3 行和第 8 行沒有高于閾值（0.2）的相似度，所以成為了新目標(biāo)。

實驗及分析

檢測部分采用 FairMOT 的檢測結(jié)果，也就是采用 CenterNet 作為檢測器。特征提取部分，文章使用 ResNet101-FPN 作為 backbone，在 COCO 上預(yù)訓(xùn)練過，然后在 MOT 數(shù)據(jù)集上 fine tune 30 輪。其他訓(xùn)練細(xì)節(jié)可以自行查閱論文，我這里就不多說了，在 Public 和 private 兩個賽道進行了測試，結(jié)果分別如下，超越了之前的 SOTA 方法如 FairMOT 等，精度突破很大，速度比較慢。

此外，作者還進行了豐富的消融實驗，證明了 TPAGT 的魯棒性。

總結(jié)

開創(chuàng)性地提出了特征重提取策略，并引入 AGNN 進行特征融合，從而構(gòu)建了 TPAGT 框架，這是一個端到端的學(xué)習(xí)框架，可以直接輸出相似度矩陣。在 MOT Challenge 兩個賽道都獲得了 SOTA 表現(xiàn)。

總結(jié)

以上是生活随笔為你收集整理的TPAGT解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

TPAGT