日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

M2Det理解

發(fā)布時間:2023/12/31 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 M2Det理解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 問題
    • 主要挑戰(zhàn)
    • 探索
    • 作者目標
  • 方法
    • 簡介
    • 具體
      • MLFPN結(jié)構(gòu)
        • FFMs
        • TUMs
        • SFAM
  • 效果

2019 10月份看的檢測的文章,對backbone的探索,現(xiàn)在不做2D檢測了

問題

主要挑戰(zhàn)

實例對象之間的尺度差異是目標檢測任務的主要挑戰(zhàn)之一

探索

通常有兩種策略來解決這個問題

  • 對原image取多尺度(現(xiàn)在基本沒人用了,占用內(nèi)存大,計算復雜)
  • 在原image上提取的特征金字塔

其他人根據(jù)上述策略做過的嘗試

  • SSD(Liu等人,2016)直接單獨使用兩層骨架網(wǎng)絡的特征(即VGG16)和通過步幅為2的卷積獲得的四個額外層來構(gòu)建特征金字塔
  • STDN(Zhou et al.2018)僅使用DenseNet的最后一個Dense塊(Huang et al.2017),通過池化和尺度變換操作構(gòu)建特征金字塔
  • FPN(Lin et al.2017a)通過以自上而下的方式融合深層和淺層的特征來構(gòu)造特征金字塔
四種特征金字塔

\ ?

但,上述方法具有以下兩個限制

  • 對于對象檢測任務來說不夠典型(表達能力不夠),只是從專門用來處理分類的backbone network中提取出來的
  • 從backbone中提取的也只是一次一個單層,因此只是包含了單層信息

不同level的特征的性質(zhì)

類別低層特征高層特征
針對的任務位置回歸分類
適合的外觀簡單復雜
適合檢測的對象的大小

限制的表現(xiàn)
但是在實際的檢測中,可能存在大小很小但外觀很復雜的檢測對象,比如說很遠的紅路燈和很遠的人,大小一樣,外觀復雜度卻不一樣。因此,對那些只有單層level的特征圖來講,檢測性能不會特別好。

作者目標

構(gòu)建一個更有效的特征金字塔,用于檢測不同尺度的物體,同時避免上述現(xiàn)有方法的局限性。

方法

簡介

(MLFPN)從輸入圖像中提取特征,然后生成密集的邊界框和類別分數(shù)。在MLFPN中,FFMv1融合骨干網(wǎng)的特征圖以生成基本特征。每個TUM生成一組多尺度特征,然后交替連接的TUM和FFMv2s提取多級多尺度特征。 最后,SFAM將特征聚合為多級特征金字塔。 在實踐中,我們主要使用6個尺度和8個等級。

提出多層級特征金字塔(MLFPN)來構(gòu)造特征金字塔,用于檢測不同尺度的對象。

  • 首先,融合由骨干網(wǎng)絡提取的multi-level features作為base特征。
  • 然后,將上述base feature送入一組交替連接的簡化U形模塊(TUM)和特征融合模塊(FFM),并利用每個U形模塊的解碼器層作為檢測對象的特征。
  • 最后,將具有等效尺度(大小)( equivalent scales (sizes))的解碼器層集合(組合)起來,形成一個用于目標檢測的特征金字塔,其中每個特征圖由多個層次的層(特征)組成,這個特征金字塔比骨干中的層深得多,也更具代表性,每個特征圖都包含來自多個級別的解碼器層。

每個U形模塊中的解碼器層共享similar的深度?what

結(jié)構(gòu)圖 6個尺度8個level

\ ?

具體

MLFPN結(jié)構(gòu)

MLFPN由三個模塊組成,即特征融合模塊(FFM),簡化的U形模塊(TUM)和按基于尺度的特征聚合模塊(SFAM)。

  • FFMv1通過融合骨干網(wǎng)絡的特征圖,將語義信息豐富為基本特征。
  • 每個TUM生成一組多尺度特征,然后交替連接的TUMs和FFMv2s提取多級多尺度特征。
  • SFAM通過按比例縮放的特征連接操作和自適應注意力機制 將特征聚合到多級特征金字塔中

FFMs

功能
融合不同層次的特征,對于構(gòu)建最終的多級金字塔很重要

操作
使用1x1卷積層來壓縮輸入特征的通道,并使用連接操作來聚合特征圖

FFM有兩種形式處理不同的問題

  • FFM1:以骨干網(wǎng)絡的兩個不同層級的特征圖為輸入,生成一個base特征(尺寸等于輸入的低層特征圖)。在連接之前,會將深層特征上采樣到和低層特征一樣的維度。
  • FFMv2:以base特征和前一個TUM的最大輸出特征圖作為輸入,生成一個融合的特征,這個特征還會作為下一個FFMv2的輸入

a是FFM1,b是FFMv2

\ ?

亮點
SSD中只是提起了多層級特征分別進行檢測,而FFM1將不同層級特征結(jié)合到一塊,更有利于突破限制;
FFMv2又將有多層級多尺度的解析過的特征和base特征結(jié)合,更為兼顧不同層級和尺度

TUMs

結(jié)構(gòu)

  • 編碼器:一系列的卷積核為3×33\times 33×3,步長為2×22\times 22×2的卷積層(第一層)
  • 解碼器一系列的卷積核為3×33\times 33×3,步長為1×11\times 11×1的卷積層;還有一些上采樣層(第二層)

功能
得到結(jié)合了多層級特征的多尺度特征圖,the front TUM主要提供淺層特征,the middle TUM提供中等特征,the back TUM提供深層特征

操作

  • 先用編碼器得到不同深度和尺寸的特征
  • 然后用解碼器,從編碼器輸出的最深的特征開始,逐步上采樣,上采樣之后再用1×11\times 11×1的卷積層和逐元素求和的操作(以增強學習能力并保持特征的平滑性),來將上采樣后的特征和編碼器中的特征結(jié)合起來。
  • 每次結(jié)合后的特征有兩個去處:一個是繼續(xù)在解碼器中傳遞;一個是卷積壓縮通道后作為一個尺度的輸出。
  • TUM結(jié)構(gòu):有六個尺度的特征圖

    亮點
    TUM的解碼器的最后一層是由較高層級上采樣而來,且融合了不同層級特征圖的特征,所以,這個最后一層的特征,應該已經(jīng)可以解決一定的“小而復雜”的問題了。但是,這個特征畢竟是上采樣出來的,沒有那么有深度的抽象的信息,所以第一個TUM,還是有點淺,所以還要再加TUM,再進行卷積,再提取更深地信息,所以medium和deep特征對于多層級檢測是很關(guān)鍵的。

    SFAM

    效果

    為了評估所提出的MLFPN的有效性,我們設計并訓練了一個功能強大的端到端one-stage目標檢測器,將其集成到SSD架構(gòu)中,我們稱為M2Det,獲得了比現(xiàn)有技術(shù)更好的檢測性能。具體而言,在MS-COCO基準測試中,M2Det采用單尺度推理策略時,以11.8 FPS的速度實現(xiàn)了41.0的AP,當使用多尺度推理策略時,AP為44.2。這是一種新的最先進一階段探測器。

    總結(jié)

    以上是生活随笔為你收集整理的M2Det理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。