日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network AAAI2019

發布時間:2023/12/31 ChatGpt 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network AAAI2019 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

Single-shot目標檢測新模型,使用multi-level特征,收錄于AAAI2019.

這篇論文吸引我的地方,是對目標檢測模型不同層次特征的適應性的描述。

code:https://github.com/qijiezhao/M2Det

paper:https://arxiv.org/abs/1811.04533

目錄

摘要

相關工作

介紹

理論

實驗

摘要

特征金字塔被最先進的一級one-stage檢測子(如DSSD、Retinanet、Refinedt)和two-stage檢測子(如Mask RCNN、Detnet)廣泛利用,以緩解目標實例之間的尺度變化帶來的問題。盡管這些具有特征金字塔的目標探測器取得了令人鼓舞的效果,由于它們只是簡單地根據原始設計用于對象分類任務的骨架固有的多尺度金字塔結構構造特征金字塔,因而存在一定的局限性。在這項工作中,我們提出了多層次特征金字塔網絡(MLFPN),以構造更有效的特征金字塔來檢測不同尺度的物體。首先,我們將主干提取的多級特征(即多層)融合為基礎特征。第二,將基本特征輸入交替的關節細化U形模塊和特征融合模塊,利用每個USHAPE模塊的譯碼器層作為目標檢測的特征。最后,我們將具有等效尺度(大小)的譯碼器層集合起來,構造一個用于目標檢測的特征金字塔,其中每個特征映射都由多個層次的層(特征)組成。為了評估所提出的MLFPN的有效性,我們設計并訓練了一個功能強大的端到端one-stage檢測子,我們稱之為M2DET,將其集成到固態硬盤的架構中,并實現了比最先進的one-stage檢測子更好的檢測性能。具體來說,在MS-COCO基準測試中,M2DET采用單尺度推理策略,以11.8 fps的速度達到了41.0的AP,采用多尺度推理策略,達到了44.2的AP,這是one-stage檢測子的最優成果。

介紹

對象實例之間的尺度變化是目標檢測任務的主要挑戰之一,通常有兩種策略來解決這一挑戰帶來的問題。第一種方法是利用圖像金字塔中檢測目標,這一策略只能在測試時使用。顯然,這種解決方案將大大增加內存和計算的復雜性,因此這種目標檢測子的效率將大幅下降。第二種方法是從輸入圖像中提取特征金字塔,在訓練和測試階段使用。與第一種使用圖像金字塔的解決方案相比,它的內存和計算成本更低。此外,特征金字塔模塊可以很容易地集成到最先進的基于深度神經網絡的檢測子中,從而得到端到端的解決方案。

雖然帶有特征金字塔的目標探測器取得了令人鼓舞的效果,但由于它們只是根據固有的多尺度金字塔結構來構造特征金字塔,而這種結構實際上是為分類任務而設計的。例如,如圖1所示,SSD直接獨立地使用兩層主干(即vgg16)和通過步長2的卷積獲得的四個額外層來構造特征金字塔;STDN僅使用densenet的最后一個dense塊通過池和尺度變換來構造特征金字塔;FPN通過自上而下融合深層和淺層來構造特征金字塔。一般來說,上述方法有以下兩個局限性。首先,金字塔中的特征圖對于對象檢測任務來說不夠有代表性,因為它們只是由為對象分類任務設計的主干的層(特征)構建的。其次,金字塔中的每個特征圖(用于檢測特定范圍內的對象)主要或甚至完全由主干的單層層構成,也就是說,它主要或僅包含單層信息。一般而言,較深層次的高層次特征對分類子任務的識別性更強,而較淺層次的低層次特征對目標定位回歸子任務的識別性更強。此外,低層次特征更適合描述外觀簡單的物體,而高層次特征更適合描述外觀復雜的物體(此處對于特征的把握值得注意)。在實踐中,具有類似大小的對象實例的外觀可能非常不同。例如,一個紅綠燈和一個遙遠的人可能有相當的大小,而且這個人的外表要復雜得多。因此,金字塔中的每個特征圖(用于檢測特定尺寸范圍內的物體)主要或僅由單層特征組成,將導致檢測性能不理想。

本文的目標是在避免現有方法的局限性的同時,構造一個更有效的特征金字塔來檢測不同尺度的目標。如圖2所示,為了實現這一目標,我們首先將主干提取的多級特征(即multiple layers)融合為基礎特征,然后將其輸入U形模塊(TUM)和特征融合模塊(FFM)中,提取出更具代表性的多級多層次特征。值得注意的是,每個U形模塊中的解碼器層具有相似的深度。最后,我們聚合了具有等效尺度的特征圖,構建了目標檢測的最終特征金字塔。顯然,構成最終特征金字塔的解碼器層要比主干中的層深得多,也就是說,它們更具代表性。此外,最終特征金字塔中的每個特征圖都由來自多個級別的解碼器層組成。因此,我們稱特征金字塔塊為多級特征金字塔網絡(MLFPN)

為了評估所提出的MLFPN的有效性,我們設計并訓練了一種功能強大的端到端單級目標探測器,我們稱之為M2DET(根據它是建立在多級和多尺度特征之上的),將MLFPN集成到SSD的體系結構中。M2DET實現了最新的最先進的結果(即單尺度推理策略下的AP為41.0,速度為11.8 fps,多尺度推理策略下的AP為44.2),在MS-COCO上由于現有one-stage檢測子。

相關工作

研究人員已經付出了大量的努力來提高不同尺度物體的探測精度——不管它是one-stage檢測子還是two-stage探測子。據我們所知,主要有兩種策略來解決這個尺度變化問題。

如圖2所示,MLFPN包含三個部分。首先,FFMV1融合了淺層和深層特征,產生了基礎特征,如VGG的conv4 3和conv5 3,為MLFPN提供了多級語義信息。第二,多個TUM和FFMV2交替堆疊。具體地說,每個TUM生成具有不同比例的幾個特征圖。FFMV2融合了上一個TUM的基本特性和最大輸出特性圖。融合后的特征圖被送入下一個TUM。注意,第一個tum沒有任何其他tum的先驗知識,所以它只從學習。輸出多級多尺度特征計算如下:

這兒表示基準特征,表示在第個TUM的第個尺度的特征,表示TUM的數量,表示第個TUM,表示FFMv1。第三SFAM采用concatenation操作和通道注意力機制聚合多級多尺度特征。

FFMs融合了M2DET中不同層次的特征,對構建最終的多層次特征金字塔至關重要。它們使用1X1卷積層壓縮輸入特性的通道,并使用串聯操作聚合這些特性圖。特別是,由于ffmv1在主干網中采用兩個不同尺度的特征映射作為輸入,因此在連接操作之前,它采用一個上采樣操作將深度特征重新縮放到相同的尺度。同時,FFMV2將前一個TUM的基本特征和最大輸出特征圖(這兩個特征具有相同的比例)作為輸入,并為下一個TUM生成融合特征。FFMV1和FFMV2的結構細節分別如圖4(a)和(b)所示。

TUMs:與fpn和retinanet不同,tum采用thinner的U形結構,如圖4(c)所示。編碼器是一系列3x3卷積層,步幅為2。解碼器將這些層的輸出作為其特征映射的參考集,而原FPN選擇Resnet主干網中每個階段最后一層的輸出。此外,我們在解碼器分支上加上1x1卷積層,再加上元素求和運算,以增強學習能力,保持特性的平滑。每個TUM解碼器中的所有輸出構成了當前級別的多尺度特征。總的來說,堆疊TUM的輸出形成了多層次的多尺度特征,而前部TUM主要提供淺層次特征,中部TUM提供中層次特征,后部TUM提供深層次特征。

SFAM:如圖3所示,SFAM目的是聚合TUMs產生的多級多尺度特征為多級特征。SFAM的第一個階段是沿著通道維度將等效尺度的特征連接在一起。聚合特征金字塔可以表示為。表示第i個尺度的特征。這里,聚合金字塔中的每個比例都包含來自多層次深度的特征。但是,簡單的串聯操作還不夠適應。在第二階段中,我們引入了一個通道注意力模塊,以鼓勵特性關注它們最受益的通道。根據SE模塊,我們使用全局平均池在壓縮步驟中生成信道統計。為了完全捕獲通道依賴性,以下激發步驟通過兩個完全連接的層學習注意力機制:

(事實上,使用的是兩個全連接層,注意力常用的方法)

我們將M2DET組裝成兩種主干(Simonyan和Zisserman 2015;He等人2016年)。在培訓整個網絡之前,需要在Imagenet 2012數據集上對主干進行預培訓(Russakovsky等人2015年)。MLFPN的所有默認配置都包含8個Tums,每個Tum有5個Strating Conv和5個upsample操作,因此它將輸出6個尺度的特性。為了減少參數數量,我們只為每個級別的TUM功能分配256個信道,這樣網絡就可以很容易地在GPU上進行訓練。至于輸入尺寸,我們按照原來的SSD、refinedet和retinanet,即320、512和800。

在檢測階段,我們在6個金字塔特征中各增加兩個卷積層,分別實現位置回歸和分類。六個功能圖的默認框的檢測比例范圍遵循原始SSD的設置。當輸入尺寸為800×800時,除保持最大特征圖的最小尺寸外,比例范圍按比例增大。在金字塔特征的每個像素處,我們設置了六個錨定,三個比率完全相同。之后,我們使用0.05的概率分數作為閾值,過濾掉大多數得分低的錨。然后我們使用soft-NMS(Bodla等人2017年)采用線性內核進行后處理,留下更精確的盒子。將閾值降低到0.01可以產生更好的檢測結果,但這會大大縮短推理時間,我們不認為這是為了追求更好的實用價值。

實驗

評價:

本文在第一部分提出了很多關于特征適應性的見解。提出的理論也是非常有效的,但是遺憾的是這依然是一個拼機器的工作。

參考文獻:Zhao Q, Sheng T, Wang Y, et al. M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network. 2018.

總結

以上是生活随笔為你收集整理的M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network AAAI2019的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。