日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

M2Det 论文解读

發布時間:2023/12/31 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 M2Det 论文解读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?【AAAI 2019】M2Det ?A Single-Shot Object Detector based on Multi-Level FPN

論文鏈接:??https://arxiv.org/abs/1811.04533

github:https://github.com/qijiezhao/M2Det

?

?

TL,DL

AAAI 2019的一篇文章,單階段檢測器,考慮到FPN的結構,只能區分不同scale的特征,具有一定的局限性,比如一張圖片中的人和交通燈,具有相同的scale,但是語義信息不同,單純的靠FPN區分不夠準確,因此本文提出了一個Multi-Level Feature Pyramid Network(MLFPN)的結構,能夠融合mutil-level mutil-scale的特征,(mutil-level體現在多個TUM上,mutil-scale體現在后面的FPN上)相當于在不同level,不同scale的特征被更加區分開來。具體結構上就是,基于SSD,首先fuse FPN的特征后,經過了級聯的類似hourglass的結構(本文稱之為TUM),每一個TUM都會出多scale的特征,最后將所有的TUM的相同scale特征進行concate,在經過一個SE操作,接上2個conv,出最后的回歸和分類結果。MS-COCO AP 41.0,11.8FPS。

Motivation

首先,FPN中每層的特征是從backbone中直接拿到的,而backbone是為了classification設計的,對object detection任務不是太好(并不是說FPN對object detection效果不好),而且每層特征僅僅考慮了單level的語義信息,一般來講,high-level的信息更具有全局信息,對分類效果比較好,low-level的特征對定位效果更好,所以需要更好的結合不同level的信息,所以本文的想法就是在FPN結構的mutil-scale的基礎上,增加mutil-level的信息。設計出了MLFPN網絡結構。

基本做法就是下面幾張圖的內容,都挺直觀

NetWork Architecture

具體的網絡結構如下

MLFPN主要有三部分組成,FFMs,TUM,SFAM,下面分別介紹:

FFMs

首先圖2中的FFMv1 fuse了VGG的conv4_3和conv5_3的feature,具體做法在圖4(a)中,輸出的結果作為base feature,而后的每個TUM的輸出,都要和base feature進行fuse,然后作為下一個level TUM的輸入,從最后結果看,這個base feature的融合還是很有效果的

TUMs

圖4(c),文章使用的結構是8個TUM(8 level),每個TUM出6個scale的feature,從最后結果看,這個mutil-level的效果提點也不錯。需要注意的是:下一級TUM的輸入,由上一級TUM的輸出和base feature組成。

SFAM

如圖3,將不同level的相同scale的特征concate在一起,然后接一個SE結構,然后作為最后的feature map,后面接兩個conv出最后的結果。

Experiment

訓練部分還是很耗時的,VGG-16 backbone,320x320,512x512和800x800的輸入尺寸,在4塊Titan X訓練分別需要3天,6天和14天;ResNet 101 320x320需要5天,512x512在2塊V100上需要11天。

實驗結果如表1,可以看出來,對比單階段方法,效果可以,速度比corner net快一倍,而且速度和準確率都比RetinaNet800好。

Ablation study

可以看出來,本文的提出的結構都能漲點,漲點比較多的事8-TUM和Base feature,但是增加TUM之后APlarge會明顯下降。可能的原因主要是context對小物體更優化?

不同的TUM數量和Channel的實驗,都是越多效果越好,但是channel的增加會使得參數增長的很快,所以還是選擇了增加TUM的數量。

Speed

最后,這張圖也證明了開頭說到的,當物體scale相同的時候,FPN的效果可能未必好,從上圖可以看得出來,相同scale的物體基本都在相同scale中相應比較大,而不同object由于語義信息不同,會在不同的level中響應。

Thought

本文的值得借鑒的是設計的這個類似hourglass的級聯結構,能夠提取到更多的語義信息,對不同類的識別效果有幫助,同時也可以看得出來,base feature的重要性。

總結

以上是生活随笔為你收集整理的M2Det 论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。