WACV 2021 论文大盘点 目标检测与图像分割篇(持续更新)
來源:OpenCV中文網
?
?
目標檢測篇:
?
本篇繼續對目標檢測相關論文進行整理,共計 14 篇。包含2D、 3D、雷達、小目標、帶方向的、半監督目標檢測、弱監督目標定位等。
?
如有遺漏,歡迎補充。
?
下載包含這些論文的 WACV 2021 所有論文:鏈接: https://pan.baidu.com/s/1vShaCoOrQZ0gTlEPhbUsAg
?
提取碼: [hide] uxp2 [/hide]
?
?
?
3D目標檢測
?
[1].Cross-Modality 3D Object Detection
?
跨模態3D目標檢測。文中提出一個兩階多模態融合框架,結合最佳狀態的雙目圖像對和點云來進行 3D 目標檢測。另外,使用 stereo matching 偽激光雷達點作為一種數據增強方法,以使激光雷達點密集化。
?
作者 | Ming Zhu, Chao Ma, Pan Ji, Xiaokang Yang
?
單位 | 上海交通大學;NEC Laboratories America
?
論文 | https://arxiv.org/abs/2008.10436
?
?
?
?
[2].CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection
?
旨在使用低成本的雷達(redar)替換自動駕駛中的激光雷達,并達到高精度3D目標檢測的方法。已開源。
?
作者 | Ramin Nabati, Hairong Qi
?
單位 | 田納西大學諾克斯維爾
?
論文 | https://arxiv.org/abs/2011.04841
?
代碼 | https://github.com/mrnabati/CenterFusion
?
詳解 | CenterFusion:融合雷達與攝像頭數據的高精度3D目標檢測
?
?
?
[3].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection
?
提出 Detection Aware 3D Semantic Segmentation (DASS) 網絡來解決當前架構的局限性。DASS 可以在保持高精度鳥瞰(BEV)檢測結果的同時,將幾何相似類的 3D語義分割結果提高到圖像 FOV 的 37.8% IoU。
?
作者 | Ozan Unal, Luc Van Gool, Dengxin Dai
?
單位 | 蘇黎世聯邦理工學院;魯汶大學
?
論文 | https://arxiv.org/abs/2009.10569
?
?
?
半監督目標檢測
?
[4].Proposal Learning for Semi-Supervised Object Detection
?
作者提出一種 proposal 學習方法,從標記和未標記的數據中學習proposal 特征和預測。該方法包括 :
?
- 一種自監督的 proposal 學習模塊,通過 proposal 位置損失和對比損失分別學習上下文感知和噪聲粗糙的 proposal 特征
- 一個基于一致性的 proposal 學習模塊,通過一致性損失學習噪聲魯棒proposal 特征和預測,用于邊界盒分類和回歸預測
?
在COCO數據集上,所提出方法比各種基于 Faster R-CNN 的完全監督基線和數據蒸餾分別高出約 2.0% 和 0.9%。
?
作者 | Peng Tang, Chetan Ramaiah, Yan Wang, Ran Xu, Caiming Xiong
?
單位 | Salesforce Research;約翰斯霍普金斯大學
?
論文 | https://arxiv.org/abs/2001.05086
?
?
?
小目標檢測
?
[5].Effective Fusion Factor in FPN for Tiny Object Detection
?
作者 | Yuqi Gong, Xuehui Yu, Yao Ding, Xiaoke Peng, Jian Zhao, Zhenjun Han
?
單位 | 國科大;Institute of North Electronic Equipment
?
論文 | https://arxiv.org/abs/2011.02298
?
代碼 | coming
?
?
[6].Oriented Object Detection in Aerial Images With Box Boundary-Aware Vectors
?
提出一個簡單有效的策略:BBAVectors 來描述帶方向的目標。BBAVectors 是在同一笛卡爾坐標系中對所有任意方向的目標進行測量。與之前的學習目標的寬度、高度和角度的基線方法相比,BBAVectors的性能更好。
?
將基于中心關鍵點的目標檢測器擴展到定向目標檢測任務中。該模型的特點:單階段、anchor box free、快速和準確。在 DOTA 和 HRSC2016 數據集上實現了最先進的性能。
?
作者 | Jingru Yi, Pengxiang Wu, Bo Liu, Qiaoying Huang, Hui Qu, Dimitris Metaxas
?
單位 | 羅格斯大學論文 | https://arxiv.org/abs/2008.07043
?
代碼 | https://github.com/yijingru/BBAVectors-Oriented-Object-Detection
?
?
[7].Generalized Object Detection on Fisheye Cameras for Autonomous Driving: Dataset, Representations and Baseline
?
魚眼相機覆蓋視野廣闊,作者系統全面研究了自動駕駛場景魚眼相機目標檢測,作者提出了新的表示方法,數據集和基線算法,相比于之前的工作,獲得了顯著的改進。
?
作者 | Hazem Rashed, Eslam Mohamed, Ganesh Sistu, Varun Ravi Kumar, Ciaran Eising, Ahmad El-Sallab, Senthil Yogamani
?
單位 | Valeo R&D等
?
論文 | https://arxiv.org/abs/2012.02124
?
FisheyeYOLO_騰訊視頻?v.qq.com
?
雷達目標檢測
?
[8].RODNet: Radar Object Detection Using Cross-Modal Supervision
?
提出一種全新的雷達目標檢測網絡:RODNet,無需攝像頭或激光雷達情況下,用在各種駕駛場景下進行魯棒的目標檢測。一個攝像機-雷達融合(CRF)跨模態監管框架,用于訓練 RODNet,無需繁瑣且可能不一致的人為標注。
?
作者還收集了一個新的數據集:CRUW,包含相機和雷達的同步數據,對相機-雷達跨模式研究很有價值。以及一種新的雷達目標檢測任務的評價方法,并對其有效性進行了論證。
?
作者 | Yizhou Wang, Zhongyu Jiang, Xiangyu Gao, Jenq-Neng Hwang, Guanbin Xing, Hui Liu
?
單位 | 華盛頓大學;Silkwave Holdings Limited
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Wang_RODNet_Radar_Object_Detection_Using_Cross-Modal_Supervision_WACV_2021_paper.pdf
?
代碼 | https://github.com/yizhou-wang/RODNet
?
數據集 | https://www.cruwdataset.org/
?
?
無監督目標定位
?
Improve CAM With Auto-Adapted Segmentation and Co-Supervised AugmentationWSOL
?
弱監督目標定位是一種僅使用圖像級標簽,而不包含位置注釋的目標定位方法。本次工作,主要針對 WSOL 任務,作者提出 CSoA。由兩個模塊組成,對傳統的卷積網絡進行改進,在不犧牲識別能力的前提下提高其定位性能。
?
在學習過程中,ConfSeg 模塊鼓勵網絡內部的兩個分類器生成更精確和完整的CAM。此外,CoAug 模塊基于度量方法對不同樣本的 CAM 進行批量調節。最終模型在兩個公共基準上優于所有之前的方法,成為新的最先進技術,為解決 WSOL 問題提供了新的見解。
?
作者 | Ziyi Kou, Guofeng Cui, Shaojie Wang, Wentian Zhao, Chenliang Xu
?
單位 | 圣母大學;羅格斯大學;圣路易斯華盛頓大學;Adobe;羅切斯特大學
?
論文 | https://arxiv.org/abs/1911.07160
?
?
?
?
目標檢測
?
[9].CPM R-CNN: Calibrating Point-Guided Misalignment in Object Detection
?
該文指出 Point-Guided 網絡中檢測精度的瓶頸原因在于兩種錯位問題,并提出解決方案:CPM R-CNN。提出 cascade mapping 以便獲得更完整的box分布,并證明了它的有效性。所設計的簡單有效的融合評分結構與原來的相比有很大改進。
?
與 Faster R-CNN 和基于 ResNet-101 與 FPN 的 Grid R-CNN 相比,所提出方法在 without whistles and bells 情況下分別大幅提高 3.3% 和 1.5% mAP。此外,最佳模型在 COCO 測試設備上的改進幅度較大,達到 49.9%。
?
作者 | Bin Zhu, Qing Song, Lu Yang, Zhihui Wang, Chun Liu, Mengjie Hu
?
單位 | 北京郵電大學
?
論文 | https://arxiv.org/abs/2003.03570
?
代碼 | https://github.com/zhubinQAQ/CPM-R-CNN
?
?
[10].Towards Resolving the Challenge of Long-tail Distribution in UAV Images for Object Detection
?
目前無人機圖像目標檢測存在的問題是無人機圖像類別分布分布,就此問題,作者提出 Dual Sampler and Head detection Network (DSHNet),是首個旨在解決無人機圖像中長尾分布的工作。
?
DSHNet 的關鍵組成是 Class-Biased Samplers (CBS) 和 Bilateral Box Heads (BBH),是為應對尾部類和頭部類的雙路徑方式而開發。
?
DSHNet顯著提升了尾類在不同檢測框架上的性能。并在 VisDrone 和UAVDT 數據集上,性能明顯優于基礎檢測器和通用方法。當與圖像裁剪方法等數據增廣方法相結合時,它實現了新 SOTA。
?
作者 | Weiping Yu, Taojiannan Yang, Chen Chen
?
單位 | 北卡羅來納大學夏洛特分校
?
論文 | https://arxiv.org/abs/2011.03822
?
代碼 | https://github.com/we1pingyu/DSHNet
?
?
?
[11].SliceNets – A Scalable Approach for Object Detection in 3D CT ScansSliceNets:用于 3D CT掃描中目標檢測的可擴展方法
?
作者 | Anqi Yang, Feng Pan, Vishwanath Saragadam, Duy Dao, Zhuo Hui, Jen-Hao Rick Chang, Aswin C. Sankaranarayanan
?
單位 | 卡內基梅隆大學;IDSS Corporation
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Yang_SliceNets_–_A_Scalable_Approach_for_Object_Detection_in_3D_WACV_2021_paper.pdf
?
?
?
[12].Class-Agnostic Object Detection
?
在很多問題中,目標的存在位置信息比類別信息更重要,于是該文作者提出一種新型 class-agnostic(可不知類別的) 目標檢測問題表述,作為新的研究方向。制訂訓練和評估協議,以確定基準和推進研究;設計一個新的對抗式學習框架,用于類診斷檢測,強制模型從用于預測的特征中排除 class-specific 信息。實驗結果表明,對抗式學習提高了 class-agnostic 識別的檢測效率。
?
作者 | Ayush Jaiswal, Yue Wu, Pradeep Natarajan, Premkumar Natarajan
?
單位 | Amazon Alexa
?
論文 | https://arxiv.org/abs/2011.14204
?
?
[13].Data-Free Knowledge Distillation for Object Detection
?
用于目標檢測的無數據知識蒸餾技術,由兩部分組成:DIODE,通過模型逆映射從預訓練檢測模型中合成圖像的框架;一個無數據模仿學習方法,對從老師對學生合成的圖像進行知識蒸餾,用于目標檢測。實驗驗證了合成圖像的質量和通用性,檢測效率與域外數據集(0.313 mAP)相比,有顯著的改進(0.450 mAP),并且與同域數據集(0.466 mAP)具有競爭力。
?
作者 | Akshay Chawla, Hongxu Yin, Pavlo Molchanov, Jose Alvarez
?
單位 | 英偉達
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Chawla_Data-Free_Knowledge_Distillation_for_Object_Detection_WACV_2021_paper.pdf
?
?
?
- END -
?
?
?
圖像分割篇:
?
?
本篇文章盤點WACV2021圖像分割相關論文,包括摳圖、實例、全景、語義分割,自然災害評估等相關應用。值得關注的是有一篇文本摳圖,在以往工作中很少或從未研究過的。
?
共計 11 篇。如有遺漏,歡迎補充。
?
下載包含這些論文的 WACV 2021 所有論文:
?
『WACV 2021 開幕,更偏重技術應用,附論文下載』
?
實例分割
?
[1].Weakly Supervised Instance Segmentation by Deep Community Learning
?
文中作者引入一個用于弱監督實例分割的深度社區學習框架,該框架基于一個端到端可訓練的深度神經網絡,在目標檢測、實例掩碼生成和目標分割多個任務之間有主動交互。
?
加入兩種有經驗的目標定位技術:class-agnostic bounding box regression 和 segmentation proposal generation,且是在沒有完全監督的情況下進行的。
?
所提出的算法在不進行后處理情況下,在標準基準數據集上實現了比現有弱監督方法大幅提高的性能。
?
作者 | Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han
?
單位 | 首爾大學;ETRI
?
論文 | https://arxiv.org/abs/2001.11207
?
主頁 | https://cv.snu.ac.kr/research/WSIS_CL/
?
?
?
#WACV 2021##航空影像##實例分割#
?
[2].MSNet: A Multilevel Instance Segmentation Network for Natural Disaster Damage Assessment in Aerial Videos
?
MSNet:用于航空視頻自然災害評估的多級實例分割網絡
?
本文研究通過航空視頻分析,有效評估颶風、洪水或火災等自然災害后的建筑物損失問題。做出了兩個主要貢獻:
?
第一個貢獻是一個新的數據集,包括來自社交媒體用戶生成的航拍視頻,并帶有實例級的建筑損傷掩碼標注。為利用航拍視頻評估建筑物損傷的模型的定量評估提供了第一個基準。
?
第二個貢獻是一個新的模型:MSNet,包含了新的區域 proposal 網絡設計和一個無監督的分數細化網絡,用于邊界盒和掩模分支的置信度分數校準。
?
實驗表明,新的模型和新的數據集與以前的方法相比,取得了最先進的結果。
?
作者表示將發布數據、模型和代碼。
?
作者 | Xiaoyu Zhu, Junwei Liang, Alexander Hauptmann
?
單位 | 卡內基梅隆大學
?
論文 | https://w.url.cn/s/AC2eIwl
?
代碼 | https://github.com/zgzxy001/MSNET
?
?
?
語義分割
?
[3].Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings
?
作者 | Marco Toldo, Umberto Michieli, Pietro Zanuttigh
?
單位 | 意大利帕多瓦大學
?
論文 | https://arxiv.org/abs/2011.12616
?
主頁 | https://lttm.dei.unipd.it/paper_data/UDAclustering/
?
代碼 | https://github.com/LTTM/UDAclustering
?
?
?
[4].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection
?
提出 Detection Aware 3D Semantic Segmentation (DASS) 網絡來解決當前架構的局限性。DASS 可以在保持高精度鳥瞰(BEV)檢測結果的同時,將幾何相似類的 3D語義分割結果提高到圖像 FOV 的 37.8% IoU。
?
作者 | Ozan Unal, Luc Van Gool, Dengxin Dai
?
單位 | 蘇黎世聯邦理工學院;魯汶大學
?
論文 | https://arxiv.org/abs/2009.10569
?
?
?
[5].Multi Projection Fusion for Real-Time Semantic Segmentation of 3D LiDAR Point Clouds
?
本次工作,作者提出全新的 multi-projection 融合框架,通過使用球面和鳥瞰投影,利用 soft voting 機制對結果進行融合,實現點云語義分割。
?
所提出的框架在 SemanticKITTI 數據集上的mIoU達到了 55.5,高于最先進的基于single projection 的方法 RangeNet++ 和 PolarNet,比前者快1.6倍,比后者快3.1倍。同時具有更高的 throughput(吞吐量)。
?
對于未來工作方向,作者稱將兩種 projections 結合成單一的多視圖統一模型,并研究在框架內使用兩種以上的 projections 。
?
作者 | Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw
?
單位 | Nile University;
?
論文 | https://arxiv.org/abs/2011.01974
?
?
?
?
[6].Shape From Semantic Segmentation via the Geometric Renyi Divergence
?
作者 | Tatsuro Koizumi, William A. P. Smith
?
單位 | 約克大學
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Koizumi_Shape_From_Semantic_Segmentation_via_the_Geometric_Renyi_Divergence_WACV_2021_paper.pdf
?
?
?
全景分割
?
[7].Boosting Monocular Depth With Panoptic Segmentation Maps作者 | Faraz Saeedan, Stefan Roth
?
單位 | 達姆施塔特工業大學
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Saeedan_Boosting_Monocular_Depth_With_Panoptic_Segmentation_Maps_WACV_2021_paper.pdf
?
?
?
視頻目標分割
?
[8].Reducing the Annotation Effort for Video Object Segmentation Datasets
?
為進一步改進視頻目標分割的性能,需要更大、更多樣化、更具挑戰性的數據集。然而用像素掩碼對每一幀進行密集標注并不能擴展到大型數據集。因此作者使用深度卷積網絡,從較便宜的邊界框標注中自動創建像素級的偽標簽,并研究這種偽標簽能在多大程度上承載訓練最先進的VOS方法。
?
令人欣喜的是,僅在每個對象的單個視頻幀中添加一個手動標注的掩碼,足以生成偽標簽,用來訓練VOS方法,并達到與完全分割視頻訓練時幾乎相同的性能水平。基于此,為 TAO 數據集的訓練集創建像素偽標簽,手動標注驗證集的一個子集。得到了新的TAO-VOS基準,公布在 https://www.vision.rwth-aachen.de/page/taovos(近期公開)
?
作者 | Paul Voigtlaender, Lishu Luo, Chun Yuan, Yong Jiang, Bastian Leibe
?
單位 | 亞琛工業大學;清華大學
?
論文 | https://arxiv.org/abs/2011.01142
?
代碼 | https://www.vision.rwth-aachen.de/page/taovos
?
備注 | WACV 2021
?
?
目標部分分割
?
[9].Part Segmentation of Unseen Objects using Keypoint Guidance
?
作者開發了一種端到端學習方法,利用關鍵點位置引導遷移學習過程,將 pixel-level 目標部分分割從完全標記的目標集遷移到另一個弱標記的目標集。對于部分分割來說,作者證明非參數化的模板匹配方法比像素分類更有效,特別是對于小的或不太頻繁的部分。為驗證所提出方法的通用性,作者引入了兩個新的數據集,共包含 200 只四足動物,同時具有關鍵點和部分分割標注。并證明所提出方法在訓練過程中使用有限的部分分割標簽,可以在新型物體部分分割任務上以較大的優勢優于現有模型。
?
作者 | Shujon Naha, Qingyang Xiao, Prianka Banik, Md. Alimoor Reza, David J. Crandall
?
單位 | 印第安那大學藝術科學學院
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Naha_Part_Segmentation_of_Unseen_Objects_Using_Keypoint_Guidance_WACV_2021_paper.pdf
?
數據集 | http://vision.sice.indiana.edu/animal-pose-part/
?
?
?
?
圖像摳圖
?
Towards Enhancing Fine-Grained Details for Image Matting
?
提出一個關于圖像摳圖問題的新觀點,明確地將這個任務分為兩個部分:一個是提取高級語義線索的語義部分,另一個是提供精細細節和低級紋理線索的紋理補償部分。
?
基于這一點,提出一種新的深度圖像摳圖方法,明確定義了兩條路徑:編碼器-解碼器語義路徑和無下采樣紋理補償路徑。進一步提出了一個新的損失項,幫助網絡緩解不準確的trimap問題,更好地檢測那些 "純 "背景部分。所提出的方法在具有挑戰性的Adobe Composition1k測試數據集上實現了新的最先進的性能。
?
作者 | Chang Liu, Henghui Ding, Xudong Jiang
?
單位 | 南洋理工大學
?
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Liu_Towards_Enhancing_Fine-Grained_Details_for_Image_Matting_WACV_2021_paper.pdf
?
?
?
Text Matting
?
ATM: Attentional Text Matting
?
本次研究,作者嘗試解決從圖像背景中提取字符(通常為WordArts)的 Text Matting(文本摳圖)問題。與傳統的圖像摳圖問題不同,文本摳圖的難度要大得多,因為它的前景有三個特性:小、多目標、結構和邊界復雜。
?
方案是提出一個兩階注意力文本摳圖 pipeline,作者稱是首個文本摳圖方法。構建了一個文本摳圖圖像合成引擎,并合成了一個具有多樣性大規模的高質量文本摳圖數據集。
?
在合成和真實圖像數據集上進行了大量實驗,證明所提出方法比最先進的圖像摳圖方法在文本摳圖任務上的優越性。
?
作者 | Peng Kang, Jianping Zhang, Chen Ma, Guiling Sun
?
單位 | 美國西北大學;加拿大麥吉爾大學;南開大學
?
論文 |
?
https://openaccess.thecvf.com/content/WACV2021/papers/Kang_ATM_Attentional_Text_Matting_WACV_2021_paper.pdf
?
代碼 | https://github.com/TextMatting/TextMatting
?
?
?
- END -
?
?
下載包含這些論文的 WACV 2021 所有論文:鏈接: https://pan.baidu.com/s/1vShaCoOrQZ0gTlEPhbUsAg
?
提取碼: [hide] uxp2 [/hide]
總結
以上是生活随笔為你收集整理的WACV 2021 论文大盘点 目标检测与图像分割篇(持续更新)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源项目|基于darknet实现量化感知
- 下一篇: CNN 与 Transformer 的强