當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MLT解读

發布時間：2024/4/11 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 MLT解读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

在很多方法都在檢測上做文章的時候，能看到MLT這樣一篇在Public賽道做研究并取得相當好的效果的文章是很難得的，就像論文的標題一樣，它直面了MOT目前針對二維圖像的一個痛點，那就是遮擋問題尤其是密集人群場景下的遮擋問題。論文提出了一種基于圖的near-online跟蹤方法，該方法設計了一種檢測multiplexing（多路復用）技術并設計了一種多標簽圖（multiplex labeling graph，MLG）模型，這種一個檢測框可以擁有多個ID的復用思路是本文最大的創新點之一。此外，這篇文章還引入LSTM來對構建的MLG進行優化，實驗證明其在多個數據集上達到了SOTA表現，在MOT Challenge公榜（public賽道，不使用私有檢測，將研究重點放在跟蹤問題上）成為了新的SOTA，最新的MOT17的全榜結果如下圖，其實可以看到，在整個榜單上，它MOTA距離第一不算太多，IDF1和Frag這些比較依賴跟蹤性能而不是檢測性能的指標上相對于其他方法都是當之無愧的SOTA。

論文標題

Multiplex Labeling Graph for Near-Online Tracking in Crowded Scenes
論文地址

https://ieeexplore.ieee.org/document/9098857

介紹

多目標跟蹤（multiple object tracking，MOT）是計算機視覺領域一個頗受關注的話題，其對于監控分析、遠程控制等工業場景應用廣泛。不同于車輛跟蹤，只發生在固定的車道約束內，行人的移動往往是沒什么約束的。因此行人跟蹤會更加困難。TBD（tracking by detection）范式是目前MOT領域最常用的框架，它的思路分為兩步，先是將每一幀上的目標檢測出來，然后通過一定的度量指標對幀間的目標進行數據關聯。很多基于TBD范式的MOT方法在人群稀疏的場景下效果不錯，然而人群密集的場景下仍舊缺少比較高效的方法。

密集場景下跟蹤的難點其實在于行人頻繁的互動遮擋，為了分析行人之間的交互問題，論文中分析并定義了三種交互模式。gathering；side by side；dispersion。含義就是字面意思，其他復雜的交互都可以由著三種基本模式組合而成，如上圖所示，當行人并排走的時候，遮擋也就發生了，這給跟蹤帶來了嚴重的干擾。

當然，當多個行人發生嚴重的遮擋時，檢測器其實很難得到多個結果，因為他們離得太近了，因此檢測器只會給出一個包裹整個范圍的檢測框，如下圖所示，先忽略其兩個id的雙色框，其實這個檢測框（下文簡稱bbox）包含兩個目標，只是其中一個被遮擋了。這種單框輸出是檢測器的選擇，因為對于目標檢測這個不需要考慮時序信息的空間任務而言，那么“所見即所得”，那個位置當然只有一個可見目標。然而，對于跟蹤這個需要時序信息的任務而言，兩個目標空間上合二為一會在關聯時造成和現有軌跡的一對多匹配問題。因此，現有的跟蹤器通常有一個基本假設，那就是一個bbox就對應一個目標，從而一對多的關聯任務被當作沖突處理問題對待，多個軌跡只有一個被保留，其他的都被移除（這樣，由于大部分MOT方法都不會立即銷毀軌跡，短暫的消失之后還會匹配回來）。

上述這種假設單框對單目標的假設存在一個嚴重的問題，如本節第一張圖的b所示，兩個行人不是圖a這種軌跡的短暫交互，而是聚集之后一直并肩移動，其中一個人一直處于另一個人的遮擋下，且他們長時間沒有分離開。這種情況下，檢測器當然只會反饋一個bbox，這個bbox會被賦予一個軌跡ID，而另一個軌跡就徹底消失了。為了生成兩個完整的軌跡，論文引入了一種檢測復用方法來解決這個一對多關聯問題并提出多標簽圖跟蹤模型（MLG）。

在MLG模型中，圖中的任意一個節點可以同時表示多個目標，也就是被賦予多個ID。同時，LSTM結構用來評估檢測框的相似度以進行數據關聯，基于LSTM用于運動和外觀建模的模型結構分別為MAN和AAN。

MLG

這一節先來介紹一下MLG這個基于圖的跟蹤模型是如何實現的。首先，不同于其他的基于圖的方法，論文從一個新的角度重新審視了交互過程中檢測沖突的問題。大部分MOT方法都基于一個基本假設，每個bbox都表示現實世界地一個目標，實際上這在三維空間中是成立的，但是三維壓縮到二維圖像中就不一定了，因此，在二維空間中，多個軌跡共享一個bbox的情況是有理由的。

檢測器生成的bbox作為基礎節點來表示目標， $D={d1,d2,d3,…,dn}D=\left\{d_{1}, d_{2}, d_{3}, \ldots, d_{n}\right\}$ 表示視頻中所有的檢測結果集合，對每個 $d_i$ ，它的寬高為 $w_i,h_i)$ ，位置為 $x_i,y_i)$ ， $c_i$ 表示置信度，此外， $(ai,1,ai,2,…,ai,1536)\left(a_{i, 1}, a_{i, 2}, \ldots, a_{i, 1536}\right)$ 一個1536維CNN特征向量用來描述 $d_i$ 的外觀信息，這個向量由在Market1501上訓練的PCB網絡產生。

圖的構建

假定第t幀之前的軌跡已經生成了，MLG是一個滑窗內的有向圖 $G=\{V ; E\}$ ，如下圖所示，該圖沿著 $t ? 1$ 幀到 $t + 2$ 幀構建，此時滑窗的窗口為3（實際上算法采用的窗口大小為20時效果較好，這部分后面說明）。

考慮到真實世界的情況和計算效率，在所有檢測之間建邊是沒有必要的，而且，由于檢測框已經被NMS處理，因此一幀內不存在一個目標有多個bbox的情況。因此，只需要鏈接不同幀的bbox即可構成軌跡。將滑窗范圍內所有的檢測bbox形成的節點組成的集合稱為Node Set，將有關聯的兩個不同的節點之間的有向邊組成的集合稱為Edge Set，顯然任意有向邊的出發點應該在結束點之前的幀上。示例如上圖所示，顯然，這個邊的形成是可以跨幀存在的，這不同于二分圖匹配，而是一種滑窗內部的有約束全圖匹配。

通過上面的分析，其實可以看到，圖 $G$ 其實可以表示為一個嚴格的上三角矩陣如下，其中的上三角元素 $E_{i, j}$ 是一個 $ni×njn_i\times n_j$ 的矩陣用來描述第 $i$ 幀的 $n_i$ 個檢測框和第 $j$ 幀的 $n_j$ 個檢測框之間的關聯。下三角部分之所以都是 $0$ 矩陣是因為有向邊只會在時間線上從前向后存在。

$[0Et?1,tEt?1,t+1Et?1,t+200Et,t+1Et,t+2000Et+1,t+20000]\left[\begin{array}{cccc} 0 & E_{t-1, t} & E_{t-1, t+1} & E_{t-1, t+2} \\ 0 & 0 & E_{t, t+1} & E_{t, t+2} \\ 0 & 0 & 0 & E_{t+1, t+2} \\ 0 & 0 & 0 & 0 \end{array}\right]$

漂移（Drift）在目標跟蹤中一直是一個問題，隨著目標的外觀變化，軌跡逐漸偏離GT是很常見的現象。論文中通過設置較高的閾值來保證通過邊關聯的檢測來自同一個目標，閾值的確定基于目標的位置關系和目標的外觀相似度。具體如下式，其中 $t_{ij}$ 是閾值指示器用來決定兩個bbox是否關聯到一起。兩個bbox $d_i$ 和 $d_j$ 之間當前僅當 $t_{ij}=1$ 的時候構建邊。閾值由兩部分組成：運動和外觀， $τm\tau_{m}$ 是一個為運動信息設置的自適應閾值，它設置為兩個bbox的最大寬度 $max?(wi,wj)\max \left(w_{i}, w_{j}\right)$ ；另一個閾值被設置用來描述外觀相似度，采用 $a_i$ 和 $a_j$ 的余弦距離作為指標， $τa\tau_{a}$ 設置為 $0.9$ 以避免漂移（注意，這里的 $a_i$ 表示檢測框 $d_i$ 的外觀向量）。

$tij=tm,ij?ta,ijtm,ij={0,∥(xi,yi),(xj,yj)∥2>τm1,∥(xi,yi),(xj,yj)∥2≤τmta,ij={0,cos?(ai,aj)<τa1,cos?(ai,aj)≥τa\begin{aligned} t_{i j} &=t_{m, i j} \cdot t_{a, i j} \\ t_{m, i j} &=\left\{\begin{array}{ll} 0, & \left\|\left(x_{i}, y_{i}\right),\left(x_{j}, y_{j}\right)\right\|_{2}>\tau_{m} \\ 1, & \left\|\left(x_{i}, y_{i}\right),\left(x_{j}, y_{j}\right)\right\|_{2} \leq \tau_{m} \end{array}\right.\\ t_{a, i j} &=\left\{\begin{array}{ll} 0, & \cos \left(a_{i}, a_{j}\right)<\tau_{a} \\ 1, & \cos \left(a_{i}, a_{j}\right) \geq \tau_{a} \end{array}\right. \end{aligned}$

多標簽優化

在圖構建完成之后，MOT任務其實可以視作一個給節點安排標簽的圖優化問題，不同于其他圖方法，論文中的方法不約束每個節點優化過程只擁有一個標簽（指的就是人的ID），因此MLG中每個節點同時可以擁有多個標簽，這也是MLG名為multiplex labeling graph的由來。對整個視頻的跟蹤其實通過一個滑動窗口完成，如幀 $1$ 到幀 $k$ ，幀 $k$ 到幀 $2 k ? 1$ ，這里的 $k$ 就是窗口大小，整個跟蹤框架如下圖所示。

上圖描述的是跟蹤的大體過程，其中彩色的實心圓表示已經確認的檢測框、白色實心圓表示未確認的檢測框（確不確認表示是否鏈接到軌跡上），虛線圓則表示誤檢。MLG上做跟蹤其實就是在滑窗內將未確認的檢測框關聯到已經存在的軌跡上或者形成新的軌跡。

因為下面關于圖優化的敘述比較復雜，作者這里先引入了幾個概念，將節點分為如下四種，在滑窗內其定義如下：

Discrete Node，指的是沒有任何關聯節點的節點，它的入度和出度都是0；

Initial Node，指的是一個節點在幀

k

上，它僅僅關聯到

k

幀后的幀上的節點，它的入度為0。窗口內第一幀上的節點不是discrete node，而是initial node。

Terminal Node，指的是一個節點在幀

k

上，如果它僅僅關聯到

k

幀前的幀上的節點，它的出度為0。同上，窗口內最后一幀上的節點不是discrete node，而是terminal node。

Intermediate Node，指的是不屬于上述三種節點的節點。

在MLG中，一個節點同時可以表示真實世界的多個目標，為了描述這個屬性，為其定義了multiplex degree（多路復用度，簡稱MD）來表征一個節點表示的目標數目。考慮到現在的檢測器精度都不低，一個bbox不可能包含太多的目標，因此設置了 $d_max$ 來表示最大多路復用度（maximum multiplex degree，MMD），來限制一個節點表示的目標數目。MLT這個方法中， $d_max$ 被設置為2且得分閾值設置為1。現在將跟蹤任務定義為在MLG上找到擁有最大得分的最優路徑，公式如下。

$arg?max?xE=∑Sixi?vi∈V,D(vi)≤dmax?xi=0,1\begin{array}{rl} \arg \max _{x} & E=\sum S_{i} x_{i} \\ & \forall v_{i} \in V, \quad D\left(v_{i}\right) \leq d_{\max } \\ & x_{i}=0,1 \end{array}$

上面這個公式中， $S_i$ 表示路徑 $i$ 的得分，而 $x_i$ 表示是否路徑 $i$ 被選中， $D(V_i)$ 表示節點 $v_i$ 的多路復用度（下文簡稱MD），MMD用 $d_max$ 表示。下圖表示各種節點的轉換機制，當一個檢測得到的未定義節點進入窗口，它會被依據關聯關系劃分為不同的類型，這個類型會隨著滑窗轉換。

上圖是真個MLG優化算法，它的輸入是圖 $G$ 而輸出是軌跡集 $T$ ，算法描述相對比較直白，這里就不多解釋了。下圖是MLG求解的一個示例，圖中共有5條軌跡形成，其中track-4是新軌跡，track-1和track-2在第 $t$ 幀共享同一個檢測框，這在現實世界的表現就是這兩個人在幀 $t$ 發生了遮擋，但隨后兩人分開了。

LSTM目標關聯

此前提到的最優化公式中， $S$ 作為得分被安排給MLG中每個路徑來評估其為真實世界軌跡的概率，這個得分（score）由兩部分組成，分別是運動因子 $S_m$ 和外觀因子 $S_a$ ，最終的score由兩者的和 $S=S_{m}+S_{a}$ 表示。這里為候選軌跡分配score的過程實際上是一個數據關聯問題，論文引入了使用LSTM的關聯打分方法，不同于此前的IOU打分或者外觀打分。

基于LSTM誕生了兩者模型思路，分別是生成式模型和判別式模型，前者根據檢測預測現有軌跡未來的位置和外觀，后者則對當前幀給出每個檢測框屬于現有軌跡的概率。考慮到訓練數據集的尺度，文中采用判別式模型的思路，構建LSTM網絡進行關聯度量。

由于運動信息和外觀信息差別較大，因此設計了兩個網絡分別處理，前者為motion association network（MAN），后者為appearance association network（AAN）。首先來看MAN，它用來評估候選軌跡的運動特征，它是如下圖所示的一個sequence-to-one型的網絡結構，它的輸入是 $n$ 個四維向量，輸出是這 $n$ 個檢測框屬于同一個目標的概率。輸入是 $n$ 個bbox的標準化的運動特征，具體對檢測 $d_i$ 而言，運動特征為下式，其中 $W$ 和 $H$ 表示視頻的寬高，而 $μ\mu$ 和 $σ\sigma$ 表示每個維度的均值和標準差。輸出的正概率作為 $S_m$ 。

$(xiW?μxσx,yiH?μyσy,wiW?μwσw,hiH?μhσh)\left(\frac{\frac{x_{i}}{W}-\mu_{x}}{\sigma_{x}}, \frac{\frac{y_{i}}{H}-\mu_{y}}{\sigma_{y}}, \frac{\frac{w_{i}}{W}-\mu_{w}}{\sigma_{w}}, \frac{\frac{h_{i}}{H}-\mu_{h}}{\sigma_{h}}\right)$

同樣的，AAN也是一個sequence-to-one型網絡，其結構如下圖，輸入是 $n$ 個1536維外觀特征向量，輸出同樣是 $n$ 個檢測框屬于同一個目標的概率，輸入的外觀特征同樣經過了標準化。輸出的正概率作為 $S_a$ 。

就這樣，對一個路徑 $p_i$ ，依據MAN和AAN計算其得分 $S_i=S_{m,i}+S_{a,i}$ ，因此這個得分的取值范圍是從0到2。

最后，作者為了訓練這兩個網絡，使用了兩個額外數據集CVPR19 challenge和PathTrack，它們的數據量比較充足，對這兩個數據集作者進行了一些預處理以方便模型的訓練，這部分可以參考原論文。

實驗

作者主要在MOT16和MOT17上進行實驗，首先驗證了MLT框架的可行性，在baseline基礎上的最大改進就是單節點多標簽策略，采用不同的滑動窗口大小的結果如下表，實驗表明，效果提升是非常顯著的，而且一般MMD設置為2即可。

上圖是作者做的一個可視化，我這里只分析第一行，圖a兩個目標逐漸接近，最后遮擋其中一個目標，通過多標簽技術，在圖b時檢測框擁有兩個目標ID，最后，圖c上兩人分開，檢測框也帶著ID分離。這表明，MLT對于遮擋的魯棒性很強。

接著，對參數進行了一些分析，比如窗口大小、MMD設置數值等，結果如下。

最后，使用公開檢測打榜，在MOT16和MOT17上結果如下，它在多個跟蹤相關的指標上都實現了新的SOTA。此外，榜單上的MLT_p為使用私檢的MLT版本，它在MOTA達到了70.6且IDF1為72.1，此外，MLT方法的IDSw數量大幅減小，這證明軌跡的穩定性時很強的。

總結

拋開速度不談，MLT其實是一個非常具有創新性的MOT方法，它采用單檢測多標簽這個開創性的想法，非常針對性地處理了密集人群場景下的遮擋問題，在關于ID等跟蹤方面的指標大幅度提升。MLT在視頻處理領域如監控分析任務上有巨大的潛力，值得工業界的關注，盡管由于它時near-online方法幾乎無法用于realtime跟蹤，但是為MOT的研究開辟了新的道路。

總結

以上是生活随笔為你收集整理的MLT解读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。