日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TPAGT解读

發(fā)布時間:2024/4/11 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TPAGT解读 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介

浙江大學(xué)和達(dá)摩院前不久提出的一個 MOT 新方法,目前在 MOT Challenge 常用的幾個數(shù)據(jù)集上名列前茅。論文標(biāo)題 Tracklets Predicting Based Adaptive Graph Tracking 其實已經(jīng)表明本文最大的兩個創(chuàng)新點,基于軌跡預(yù)測的特征提取以及基于自適應(yīng)圖網(wǎng)絡(luò)的特征聚合。大多數(shù)現(xiàn)存的多目標(biāo)跟蹤方法將當(dāng)前幀的檢測結(jié)果鏈接到歷史軌跡段都是采用基于特征余弦距離和目標(biāo)邊界框 IOU 的線性組合作為度量的,這其實有兩個問題:一是兩個不同幀(當(dāng)前幀和上一幀)上同一個目標(biāo)提取到的特征往往會出現(xiàn)不一致的問題;二是特征提取只考慮外觀而不考慮位置關(guān)系、軌跡段信息是不合理的。

因此,論文提出了一種新的高精度端到端多目標(biāo)跟蹤框架 TPAGT(上一個版本叫 FGAGT,感覺 TPAGT 更加貼合論文的工作),該方法解決了上述的兩個問題,在多個數(shù)據(jù)集上實現(xiàn)了新的 SOTA。

  • 論文標(biāo)題

    Tracklets Predicting Based Adaptive Graph Tracking
  • 論文地址

    http://arxiv.org/abs/2010.09015
  • 論文源碼

    暫未開源

介紹

首先說明的是,TPAGT 按照一般 MOT 的方法劃分是一個二階段框架,也就是先完成檢測,再按照檢測結(jié)果到相應(yīng)的位置提取目標(biāo)特征,最后利用關(guān)聯(lián)算法得到結(jié)果,關(guān)聯(lián)一般采用匈牙利算法。單階段方法融合了檢測和特征提取,是為了速度做出的精度妥協(xié),所以精度相比二階段有些低。所以,作為一個二階段方法,TPAGT 的精度應(yīng)該有所創(chuàng)新,但是相應(yīng)的速度比較慢,具體推理速度,論文沒有提及,只能等源碼開放后測試了。

先來說一說 MOT 現(xiàn)有方法沒解決的幾個問題。

  • 特征不一致問題

    這個問題怎么來的呢,其實是因為軌跡段(tracklet)上目標(biāo)的特征都是來自于之前幀,而不是當(dāng)前幀(這很容易理解,當(dāng)前幀只有當(dāng)前幀的檢測結(jié)果確定目標(biāo)位置來提取特征嘛),但是呢,其實在移動過程中,目標(biāo)的姿態(tài)、光強度、視角都可能發(fā)生變化,這導(dǎo)致來自不同圖像的同一目標(biāo)的特征即使檢測準(zhǔn)確也會不太一致,這種不一致對數(shù)據(jù)關(guān)聯(lián)來說負(fù)面影響比較大。
  • 特征融合問題

    事實上,從 DeepSORT 開始,特征提取器主要關(guān)注的就是外觀信息,因為這對忽略了運動建模的一些 MOT 方法至關(guān)重要,因此特征提取分支也成為 ReID 分支,主要就是因為重識別模型關(guān)注的就是外觀信息。但是,目標(biāo)之間的位置關(guān)系、tracklet 的歷史信息對 MOT 任務(wù)也是很重要的。
  • 樣本不平衡問題

    一個 tracklet 只能匹配一個檢測框,那這個 tracklet 就是個連續(xù)的正例,沒有匹配上的 tracklet 就是連續(xù)的負(fù)例。顯然,正例數(shù)量是遠(yuǎn)遠(yuǎn)少于負(fù)例的,而且由于少量的新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失,進一步加劇了不同類型的樣本的不均衡問題。
  • 上述的問題 TPAGT 都逐一解決了,其中最主要的一個問題就是 traklets 中的特征和當(dāng)前幀是不一致的,那么如何解決呢,到當(dāng)前幀上重提取特征就行,但是顯然不能直接把上一幀的 bbox(邊界框,包含目標(biāo)的位置區(qū)域等信息)用于當(dāng)前幀,因為目標(biāo)在圖像上不可能靜止,使用上一時刻的位置很不合理,所以需要對上一幀進行運動估計得到目標(biāo)在當(dāng)前幀預(yù)測的 bbox 位置然后提取特征。然后是特征融合的問題,考慮到目標(biāo)之間的聯(lián)系近似一個圖表示,作者采用了GNN(圖神經(jīng)網(wǎng)絡(luò))來進行信息的聚合,為了更好獲取全局時空信息,GNN 的邊權(quán)自適應(yīng)學(xué)習(xí)。最后,樣本不平衡的問題采用了Balanced MSE Loss,這是一個加權(quán) MSE,屬于常用思路。

    框架設(shè)計

    Tracklets predicting based feature re-extracting

    上面這個圖就是整體框架的設(shè)計,我先大體介紹一下網(wǎng)絡(luò)的 pipeline。首先,網(wǎng)絡(luò)的輸入有當(dāng)前幀圖像、當(dāng)前幀檢測結(jié)果、歷史幀檢測結(jié)果;接著,圖像被送入 backbone 中獲得特征圖(這里 backbone 最終采用 ResNet101+FPN 效果最好),然后將 bbox(這里當(dāng)前幀用的是檢測的 bbox,上一幀用的光流預(yù)測的 bbox)映射到特征圖上通過 RoI Align 獲得 region 外觀特征繼而送入全連接(這個操作類似 Faster R-CNN 的 proposal 提取特征,不理解的可以查閱我的博客),然后結(jié)合當(dāng)前幀的位置信息、歷史幀信息,讓圖網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)進行特征融合從而計算相似度,有了相似度矩陣匈牙利就能計算匹配結(jié)果了。

    上面的敘述有個容易誤解的地方,它將過去一幀預(yù)測的 bbox 和歷史幀的非預(yù)測的 bbox 都在當(dāng)前特征圖上提取了特征,事實上,不是的,一來實際上,t?2t-2t?2幀的特征在處理t?1t-1t?1幀的時候已經(jīng)重提取過了,在當(dāng)前幀上用當(dāng)時的 bbox 提取肯定存在嚴(yán)重的不對齊問題;二來,這樣會大大加大網(wǎng)絡(luò)計算的復(fù)雜性,完全沒有必要。論文這個圖畫的稍微有些讓人誤解,等開源后可以再細(xì)細(xì)研究。

    我們知道,此前的 MOT 方法對運動的建模主要采用卡爾曼濾波為代表的狀態(tài)估計方法、光流法和位移預(yù)測法,這篇論文使用稀疏光流法預(yù)測 bbox 的中心點運動,由于目標(biāo)的運動有時候是高速的,為了應(yīng)對這種運動模式,必須采用合適的光流方法,文章采用金字塔光流,該方法魯棒性很強,具體想了解的可以參考這篇博客,下圖是金字塔光流預(yù)測的目標(biāo)當(dāng)前幀位置(b 圖),c 圖是 GT 的框,可以看到,預(yù)測還是很準(zhǔn)的。

    Adapted Graph Neural Network

    下面聊一聊這個自適應(yīng)圖神經(jīng)網(wǎng)絡(luò)。將 tracklets 和 detections 作為二分圖處理不是什么新鮮的事情,但是用來聚合特征 TPAGT 應(yīng)該是為數(shù)不多的工作,要知道此前我們聚合運動和外觀特征只是人工設(shè)計的組合,作者這種借助圖網(wǎng)絡(luò)自適應(yīng)聚合特征是很超前的思路。 每個檢測目標(biāo)和每個 tracklet 都是節(jié)點,如上圖所示,detection 之間沒有聯(lián)系,tracklet 之間也沒有聯(lián)系,但是每個 tracklet 和每個 detection 之間都有連接。圖網(wǎng)絡(luò)的學(xué)習(xí)目的就是每個節(jié)點的狀態(tài)嵌入hv\mathbf{h}_{v}hv?,或者說聚合其他信息后的特征向量。最終,這個hv\mathbf{h}_{v}hv?包含了鄰居節(jié)點的信息。

    需要學(xué)習(xí)的狀態(tài)嵌入通過下面的公式更新,第一行表示 detections 的節(jié)點更新,第二行表示 tracklets 的節(jié)點更新,共有NNN個 detection 和MMM個 tracklet。下面講解第一行的幾個符號含義,第二行類似。fff表示神經(jīng)網(wǎng)絡(luò)運算,可以理解為網(wǎng)絡(luò)擬合函數(shù);ht,cjh_{t, c}^{j}ht,cj?表示第ccc層第iii個 detection 的狀態(tài)嵌入。在一開始,c=0,hd,0i=fdi,ht,0i=ftjc=0, h_{d, 0}^{i}=f_ozvdkddzhkzd^{i}, h_{t, 0}^{i}=f_{t}^{j}c=0,hd,0i?=fdi?,ht,0i?=ftj?ed,ci,je_{d, c}^{i, j}ed,ci,j?則表示第iii個檢測和第jjj個 tracklet 在第ccc層的圖上的邊權(quán)。本文作者只使用添加自適應(yīng)的單層 GNN,所以下面具體闡述單層學(xué)習(xí)的情況。

    hd,c+1i=f(hd,ci,{ht,cj,ed,ci,j}j=1N),i=1,2,?,Mht,c+1j=f(ht,cj,{hd,ci,et,cj,i}i=1M)j=1,2,?,N\begin{aligned} h_{d, c+1}^{i} &=f\left(h_{d, c}^{i},\left\{h_{t, c}^{j}, e_{d, c}^{i, j}\right\}_{j=1}^{N}\right), i=1,2, \cdots, M \\ h_{t, c+1}^{j} &=f\left(h_{t, c}^{j},\left\{h_{d, c}^{i}, e_{t, c}^{j, i}\right\}_{i=1}^{M}\right) j=1,2, \cdots, N \end{aligned} hd,c+1i?ht,c+1j??=f(hd,ci?,{ht,cj?,ed,ci,j?}j=1N?),i=1,2,?,M=f(ht,cj?,{hd,ci?,et,cj,i?}i=1M?)j=1,2,?,N?

    首先,邊權(quán)的初始化不采用隨機初始化,而是采用節(jié)點的特征和位置先驗信息,具體如下,主要是計算每個節(jié)點特征向量之間的歸一化距離相似度。具體圖信息聚合步驟如下。

  • 計算初始相似度
    si,j=1∥fdi?ftj∥2+1×10?16si,j=si,jsi,12+si,22+?si,j2+?+si,N2Sft=[si,j]M×N,i=1,?M,j=1,?N\begin{array}{c} s_{i, j}=\frac{1}{\left\|f_ozvdkddzhkzd^{i}-f_{t}^{j}\right\|_{2}+1 \times 10^{-16}} \\ s_{i, j}=\frac{s_{i, j}}{\sqrt{s_{i, 1}^{2}+s_{i, 2}^{2}+\cdots s_{i, j}^{2}+\cdots+s_{i, N}^{2}}}\\ \mathbf{S}_{\mathrm{ft}}=\left[s_{i, j}\right]_{M \times N}, i=1, \cdots M, j=1, \cdots N \end{array} si,j?=fdi??ftj?2?+1×10?161?si,j?=si,12?+si,22?+?si,j2?+?+si,N2??si,j??Sft?=[si,j?]M×N?,i=1,?M,j=1,?N?
  • 通過 IOU 和上面的初始相似度組成邊權(quán)(www可學(xué)習(xí),表示位置和外觀信息的相對重要性)
  • E=w×IOU+(1?w)×Sft\mathrm{E}=w \times \mathrm{IOU}+(1-w) \times \mathrm{S}_{\mathrm{ft}} E=w×IOU+(1?w)×Sft?

  • 根據(jù)上述的自適應(yīng)權(quán)重聚合節(jié)點特征(⊙\odot表示點積)
  • Ftag=EFt=E[ft1,ft2,?,ftN]T\mathbf{F}_{\mathrm{t}}^{\mathrm{ag}}=\mathrm{EF}_{t}=\mathrm{E}\left[f_{t}^{1}, f_{t}^{2}, \cdots, f_{t}^{N}\right]^{T} Ftag?=EFt?=E[ft1?,ft2?,?,ftN?]T

    Hd=σ(FdW1+Sigmoid?(FdWa)⊙FtagW2)\mathbf{H}_{\mathrmozvdkddzhkzd}=\sigma\left(\mathbf{F}_ozvdkddzhkzd W_{1}+\operatorname{Sigmoid}\left(\mathbf{F}_ozvdkddzhkzd W_{a}\right) \odot \mathbf{F}_{\mathrm{t}}^{\mathbf{a g}} W_{2}\right) Hd?=σ(Fd?W1?+Sigmoid(Fd?Wa?)Ftag?W2?)

    Ht=σ(FtW1+Sigmoid?(FtWa)⊙FdagW2)\mathbf{H}_{\mathrm{t}}=\sigma\left(\mathbf{F}_{t} W_{1}+\operatorname{Sigmoid}\left(\mathbf{F}_{t} W_{a}\right) \odot \mathbf{F}_{\mathrmozvdkddzhkzd}^{\mathbf{a g}} W_{2}\right) Ht?=σ(Ft?W1?+Sigmoid(Ft?Wa?)Fdag?W2?)

    現(xiàn)有的圖跟蹤方法需要額外的全連接層降維特征向量,然后通過歐式距離計算相似度。TPAGT 的方法只要標(biāo)準(zhǔn)化來自單隱層圖網(wǎng)絡(luò)的特征,然后矩乘它們即可得到相似度決戰(zhàn),如下式。最終得到的相似度矩陣值介于 0 和 1 之間,越大代表兩個目標(biāo)越相似。學(xué)習(xí)的目的是使得同一個目標(biāo)的特征向量盡量接近,不同目標(biāo)的特征向量盡量垂直,這等價于三元組損失,但是更加簡單。

    hdi=hdi∥hdi∥2,htj=htj∥htj∥2,Sout=HdHtTh_ozvdkddzhkzd^{i}=\frac{h_ozvdkddzhkzd^{i}}{\left\|h_ozvdkddzhkzd^{i}\right\|_{2}}, h_{t}^{j}=\frac{h_{t}^{j}}{\left\|h_{t}^{j}\right\|_{2}}, \mathbf{S}_{\mathrm{out}=\mathbf{H}_{\mathrmozvdkddzhkzd} \mathbf{H}_{\mathbf{t}}^{\mathrm{T}}}hdi?=hdi?2?hdi??,htj?=htj?2?htj??,Sout=Hd?HtT??

    Blanced MSE Loss

    得到最終的相似度矩陣就可以進行監(jiān)督訓(xùn)練了,不過 GT 的標(biāo)簽為相同目標(biāo)為 1,不同的目標(biāo)為 0,下圖是作者做的可視化,每行代表一個 detection,每列代表一個 tracklet,綠行表示 detection 沒有匹配上任何 tracklet,所以是新目標(biāo);相對的,紅列表示消失的目標(biāo)。1 表示正例,0 表示負(fù)例,顯然正負(fù)例嚴(yán)重不均衡,所以這里對 MSE 按照目標(biāo)類型進行了加權(quán)(超參),如下式。

    L=αEc0+βEc1+γEne+δEd+εEw=∑i=1M∑j=1N[α(S^i,j?Si,j)2?Icontinue??ISi,j=0+β(S^i,j?Si,j)2?Icontinue??ISi,j=1+γ(S^i,j?Si,j)2?Inew+δ(S^i,j?Si,j)2?Idisap?+ε∥W∥22]\begin{aligned} \mathcal{L} &=\alpha E_{c 0}+\beta E_{c 1}+\gamma E_{n e}+\delta E_ozvdkddzhkzd+\varepsilon E_{w} \\ &=\sum_{i=1}^{M} \sum_{j=1}^{N}\left[\begin{array}{c} \alpha\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {continue }} \cdot \mathbb{I}_{S_{i, j}=0}+\beta\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {continue }} \cdot \mathbb{I}_{S_{i, j}=1} \\ +\gamma\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{n e w}+\delta\left(\hat{S}_{i, j}-S_{i, j}\right)^{2} \cdot \mathbb{I}_{\text {disap }}+\varepsilon\|W\|_{2}^{2} \end{array}\right] \end{aligned} L?=αEc0?+βEc1?+γEne?+δEd?+εEw?=i=1M?j=1N?????α(S^i,j??Si,j?)2?Icontinue???ISi,j?=0?+β(S^i,j??Si,j?)2?Icontinue???ISi,j?=1?+γ(S^i,j??Si,j?)2?Inew?+δ(S^i,j??Si,j?)2?Idisap??+εW22???????

    推理設(shè)計

    推理時,我們會得到相似度矩陣,那么如何利用這個矩陣呢?假設(shè)有NNN個 detection 和MMM個 tracklet,矩陣就是M×NM\times NM×N的,此時在后面補充一個M×MM\times MM×M的增廣矩陣,矩陣中每個值都是一個閾值,如下圖,匈牙利算法就成了帶篩選的匹配方法,下圖由于第 3 行和第 8 行沒有高于閾值(0.2)的相似度,所以成為了新目標(biāo)。

    實驗及分析

    檢測部分采用 FairMOT 的檢測結(jié)果,也就是采用 CenterNet 作為檢測器。特征提取部分,文章使用 ResNet101-FPN 作為 backbone,在 COCO 上預(yù)訓(xùn)練過,然后在 MOT 數(shù)據(jù)集上 fine tune 30 輪。其他訓(xùn)練細(xì)節(jié)可以自行查閱論文,我這里就不多說了,在 Public 和 private 兩個賽道進行了測試,結(jié)果分別如下,超越了之前的 SOTA 方法如 FairMOT 等,精度突破很大,速度比較慢。

    此外,作者還進行了豐富的消融實驗,證明了 TPAGT 的魯棒性。

    總結(jié)

    開創(chuàng)性地提出了特征重提取策略,并引入 AGNN 進行特征融合,從而構(gòu)建了 TPAGT 框架,這是一個端到端的學(xué)習(xí)框架,可以直接輸出相似度矩陣。在 MOT Challenge 兩個賽道都獲得了 SOTA 表現(xiàn)。

    總結(jié)

    以上是生活随笔為你收集整理的TPAGT解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。