日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NeurIPS 2021 | PCAN:高效时序建模,提升多目标追踪与分割性能

發(fā)布時間:2024/10/8 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NeurIPS 2021 | PCAN:高效时序建模,提升多目标追踪与分割性能 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?作者 | 柯磊

單位 |?HKUST/ETHz

研究方向 | 計算機(jī)視覺

本文是對我們 NeurIPS 2021 接收的 spotlight 文章 Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation - PCAN 的介紹,同時也分享一下我們對自動駕駛場景中高效快速地進(jìn)行時序建模和多物體追蹤分割的思考。

此外,深度學(xué)習(xí)模型的訓(xùn)練和評估離不開大型數(shù)據(jù)集的支撐,歡迎大家關(guān)注由 ETH Zurich & UC Berkeley 推出的學(xué)術(shù)界最大規(guī)模的自動駕駛多目標(biāo)跟蹤和分割(MOTS)數(shù)據(jù)集 - BDD100K Tracking and Segmentation(BDD100K,Overview - EvalAI)。

BDD Tracking Segmentation 數(shù)據(jù)集的規(guī)模是 KITTI-MOTS 的 6 倍(3,0817 vs 5,027 training images, 480K vs 26K instance masks),標(biāo)注物體數(shù)量是 KITTI 的近 20 倍,并覆蓋白天、夜間、 雨雪等更為豐富真實(shí)的自動駕駛場景。

▲ Prediction results of PCAN on BDD100K - Day?

▲ Prediction results of PCAN on BDD100K - Night

論文地址:

https://arxiv.org/abs/2106.11958

項(xiàng)目主頁及視頻資源:

https://www.vis.xyz/pub/pcan/

開源代碼及模型:

https://github.com/SysCV/pcan

Bilibili視頻:

https://www.bilibili.com/video/BV1Rb4y1i7zS?spm_id_from=333.999.0.0

引言

1.1 背景

多目標(biāo)跟蹤和分割(MOTS),是自動駕駛和視頻分析等許多實(shí)際應(yīng)用中的一個重要問題。該任務(wù)需要將視頻中給定的類別的所有物體進(jìn)行檢測、分類、跟蹤和像素級分割。在自動駕駛場景中,復(fù)雜的路況、市區(qū)內(nèi)密集且相似的車輛和行人、以及對低功耗低延時(low computation & low memory cost & online)的預(yù)測需求又給這一任務(wù)帶來了新的挑戰(zhàn)。由于引入了大規(guī)模數(shù)據(jù)集,如 BDD100K、KITTI 等作為深度學(xué)習(xí)模型訓(xùn)練和測試基準(zhǔn),對 MOTS/VIS 的研究興趣正迅速增長。

1.2 問題

MOTS 的大部分 online 方法(MaskTrack R-CNN、SipMask 等)主要遵循基于檢測的跟蹤范式(tracking-by-detection paradigm)。首先在單張圖片內(nèi)檢測和分割對象,然后是幀之間的關(guān)聯(lián)。盡管這些方法已取得較好的結(jié)果,但在對時序建模上僅限于物體關(guān)聯(lián)階段,并且僅在兩個相鄰幀之間。

另一方面,時間維度包含關(guān)于場景的豐富信息,同一物體的不同時間下多個角度的視圖可以提高預(yù)測的物體分割、定位和類別的質(zhì)量。然而,高效地利用歷史信息(memory information)仍然是一個挑戰(zhàn)。

雖然基于注意力機(jī)制的時序建模方法(包含 Self-Attention, Non-local Attention 和 Transformer 等)已應(yīng)用于視頻處理,但它們通常直接對高分辨率的深度特征圖進(jìn)行操作。長時間序列上的密集的像素級注意力操作會產(chǎn)生對長度的二次復(fù)雜性(quadratic complexity),進(jìn)一步帶來巨大的計算負(fù)擔(dān)和 GPU 內(nèi)存消耗(例如 VisTR 等),也極大地限制了它們的實(shí)際應(yīng)用。?

1.3 成果

PCAN 提出了一種簡單高效地利用視頻時序信息的機(jī)制,通過對目標(biāo)物體及過去幀的外觀特征做高斯混合建模,得到數(shù)量較少且低秩(sparse and low-rank)的 representative mixture prototypes(可以理解為多個不同的 cluster centers),實(shí)現(xiàn)了對歷史信息(memory bank)的壓縮。

這一操作在降低 attention 運(yùn)算復(fù)雜度和內(nèi)存需求的同時, 也提高了視頻物體分割的質(zhì)量和追蹤的穩(wěn)定性。PCAN 包括幀級(frame-level module)和實(shí)例級(instance-level module)兩個模塊的 prototypical cross-attention,前者重構(gòu)過去幀的深度特征并將其與當(dāng)前幀對齊,而后者聚焦于視頻中的被追蹤物體。

為了增強(qiáng)對物體外觀隨時間變化的魯棒性,PCAN 通過對比學(xué)習(xí)(contrastive learning)的機(jī)制分別使用foreground/positive 和 background/negative prototypes(前景和背景原型)來進(jìn)一步表示每個對象實(shí)例,并且將這些 prototypes 以在線方式傳播更新(online updating)。由于每個實(shí)例或幀的 prototypes 數(shù)量有限,PCAN 在視頻中具有時間線性復(fù)雜度的高效地執(zhí)行遠(yuǎn)程特征聚合和傳播。

方法概述

2.1 PCAN的結(jié)構(gòu)框架

PCAN 首先將歷史信息(memory bank)中的高分辨率()特征壓縮到幀級和實(shí)例級的原型(prototypes)中,然后通過 prototypical cross-attention 操作,從由 prototypes 組成的 space-time memory bank 中去提取和利用過去幀中包含的豐富的 appearance,texture and shape information 等等。

Traditional cross-attention in space-time:

Prototypical cross-attention in space-time:

Memory bank 中 prototypes 的數(shù)量 ,這有效地避免了對整個高分辨率的歷史特征做逐像素密集的 attention 操作。PCAN 采用高斯混合模型(Gaussian Mixture Models, GMM)來進(jìn)行無監(jiān)督特征聚類,并選取 EM(Expectation-Maximization)迭代算法的得到的高斯分布擬合聚類中心作為 prototypes。其中,每個像素特征點(diǎn)到 prototype 中心 的距離定義為 。更為詳細(xì)的公式講解請參考我們的文章。

▲ PCAN Framework- Overview

2.2 Frame-level PCAN

對于 memory bank 中的幀特征,我們首先進(jìn)行基于 GMM 的聚類(高斯分布擬合)以獲得 key 和 value prototypes,并根據(jù)當(dāng)前幀的產(chǎn)生的 key 根據(jù) cross-attention weights 將其低秩重建。

▲ Reconstruct frame feature based on prototypes and current frame.

重建的特征 不僅與當(dāng)前幀 對齊,還通過有限數(shù)量的高斯分布擬合去除了特征中冗余信息 (noise reduced),在保持像素點(diǎn)特征空間差異的同時,相似點(diǎn)間的內(nèi)部差異得到進(jìn)一步縮小。隨后,重建特征與當(dāng)前幀特征做加權(quán)融合,產(chǎn)生的新時序特征用于后續(xù) MOTS 中的分類,檢測,分割和追蹤等多個子任務(wù)。

▲ Overview of our frame-level prototypical cross-attention

2.3 Instance-level PCAN

對于 MOTS 中感興趣追蹤的物體,我們進(jìn)一步根據(jù)初始的 mask 和 bounding box 對物體做前后背景的區(qū)分,前景(黃色區(qū)域)建模為 positive instance prototypes,背景建模(藍(lán)色區(qū)域)為 negative prototypes。這些 instance specific 的 prototypes 隨著時間不斷更新,更新機(jī)制采用滑動平均來更新,類似于 LSTM 中的 hidden state。

在第 T 幀時,這些 positive 和 negative 的 prototypes 分別產(chǎn)生不同的 attention maps,從中我們也能看出不同 prototype 的關(guān)注代表區(qū)域。最后我們將初始的物體 mask、產(chǎn)生的 instance attention map、以及融合時序新的 frame feature concat 在一起,通過一個簡單的分割 FCN 網(wǎng)絡(luò)得到最終的 mask 預(yù)測。

▲ Updating instance prototypes with time

▲ Our instance-level prototypical attention with foreground and background prototypes and temporal propagation.


實(shí)驗(yàn)

PCAN 作為一個 online method 在兩個最大規(guī)模的 MOTS 數(shù)據(jù)集 BDD100K 和 Youtube-VIS 上都取得了領(lǐng)先性能。?

▲ Comparison on the BDD100K segmentation tracking validation set.

▲?Comparison on the Youtube-VIS validation set.

PCAN 在 Youtube-VIS 的性能隨著 memory tube length 和 prototype 數(shù)量的變化,從中可看出長時序建模和在一定范圍內(nèi)增多 prototype 數(shù)量的帶來的性能改善。

▲ Effect of long-term temporal information and prototypes clustering

Prototypical Cross-Attention Visualization

【Instance-level】對紅色虛線框中的汽車的 instance attention 可視化。我們選擇前四個前景/背景原型作為示例,其中每個都專注于特定的汽車子區(qū)域,例如第一個 prototype 關(guān)注于車頭的位置,并且這一 attention 分布隨著時間的推移具有隱式無監(jiān)督一致性。

▲ Instance cross-attention maps visualization for the car specified by the red dotted bounding.

對紅色虛線框中的行人的 instance attention 可視化:

▲ Prototypical instance cross-attention maps for the pedestrian in the red dotted bounding box.

【Frame-level】對整張圖 frame-level 的可視化,其中我們隨機(jī)選擇了 8 個 frame prototypes 并在圖像上顯示了它們的注意力分布。顯然,每個 frame prototype 都學(xué)會對應(yīng)圖像的一些語義概念,涵蓋前景和背景區(qū)域,例如人、滑板、雨傘和網(wǎng)球拍等等,這些都是通過無監(jiān)督聚類所學(xué)習(xí)到的。

▲ Frame-level prototypical cross-attention maps of random frame prototypes for visualization.


BDD100k Instance Segmentation Tracking 競賽?

▲ BDD100K Competition

BDD100K Dataset:?

https://www.bdd100k.com/

BDD100K Tracking & Segmentation Learderboard:?

https://eval.ai/web/challenges/challenge-page/1295/overview

最后也歡迎大家關(guān)注正在進(jìn)行的 BDD100K Instance Segmentation Tracking 競賽。如果大家覺得文章內(nèi)容有幫助,歡迎大家轉(zhuǎn)發(fā),關(guān)注我們的工作,star 開源的代碼!

參考文獻(xiàn)

[1] BDD100K:?BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning:https://arxiv.org/abs/1805.04687

[2] Non-local Neural Networks:?https://arxiv.org/abs/1711.07971

[3] EMANet:?Expectation-Maximization Attention Networks for Semantic Segmentation:https://arxiv.org/abs/1907.13426

[4] KITTI MOTS:?MOTS: Multi-Object Tracking and Segmentation:https://arxiv.org/abs/1902.03604

[5] Space-Time Memory Networks:?https://arxiv.org/abs/1904.00607

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的NeurIPS 2021 | PCAN:高效时序建模,提升多目标追踪与分割性能的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。