日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > 目标检测 >内容正文

目标检测

R-FCN每秒30帧实时检测3000类物体,马里兰大学Larry Davis组最新目标检测工作

發(fā)布時(shí)間:2024/9/21 目标检测 80 豆豆
生活随笔 收集整理的這篇文章主要介紹了 R-FCN每秒30帧实时检测3000类物体,马里兰大学Larry Davis组最新目标检测工作 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【導(dǎo)讀】美國(guó)馬里蘭大學(xué)、復(fù)旦大學(xué)和Gobasco人工智能實(shí)驗(yàn)室聯(lián)合提出R-FCN-3000實(shí)時(shí)3000類目標(biāo)檢測(cè)框架,對(duì)R-FCN框架中的物體檢測(cè)和分類進(jìn)行解耦。本文對(duì)R-FCN體系結(jié)構(gòu)進(jìn)行修改,其中位置敏感濾波器在不同的目標(biāo)類之間共享來(lái)進(jìn)行定位。對(duì)于細(xì)粒度的分類,這些位置敏感的濾波器是不需要的。因此,R-FCN-3000學(xué)習(xí)到了通用的物體性,也達(dá)到了更快的速度。R-FCN-3000在ImageNet檢測(cè)數(shù)據(jù)集上獲得34.9%的mAP,在每秒處理30幀圖像的同時(shí),可以以18%的優(yōu)勢(shì)超過(guò)YOLO-9000。作者相信,未來(lái)R-FCN-3000可以適用于更為廣闊的目標(biāo)檢測(cè)場(chǎng)景(如十萬(wàn)類目標(biāo)檢測(cè)),并可以更好的整合目標(biāo)類別先驗(yàn)。代碼將會(huì)公開(kāi)。


▌作者




  • Bharat Singh 馬里蘭大學(xué)計(jì)算機(jī)系博士生,主要研究方向?yàn)槟繕?biāo)及動(dòng)作識(shí)別

    http://www.cs.umd.edu/~bharat/


  • Hengduo Li 復(fù)旦大學(xué)在讀本科生

    https://www.linkedin.com/in/hengduo-li-50588032/


  • Abhishek Sharma 印度德里農(nóng)業(yè)供應(yīng)鏈科技初創(chuàng)公司Gobasco聯(lián)合創(chuàng)始人

    https://www.linkedin.com/in/abhishek-sharma-a1204921/


  • Larry S. Davis 馬里蘭大學(xué)教授

    http://www.umiacs.umd.edu/~lsd/


論文:R-FCN-3000 at 30fps: Decoupling Detection and Classification


摘要




我們提出了R-FCN-3000,一個(gè)大規(guī)模的實(shí)時(shí)目標(biāo)檢測(cè)器,其中的目標(biāo)檢測(cè)和分類是解耦的。為了獲得RoI的檢測(cè)分?jǐn)?shù),我們將物體性分?jǐn)?shù)(objectnessscore)乘以細(xì)粒度的類別分?jǐn)?shù)。我們的方法是對(duì)R-FCN體系結(jié)構(gòu)進(jìn)行修改,其中位置敏感濾波器在不同的目標(biāo)類之間共享來(lái)進(jìn)行定位。對(duì)于細(xì)粒度的分類,這些位置敏感的濾波器是不需要的。R-FCN-3000ImageNet檢測(cè)數(shù)據(jù)集上獲得34.9%的mAP,在每秒處理30幀圖像的同時(shí),超過(guò)YOLO-9000 18%。我們還表明,R-FCN-3000學(xué)習(xí)的物體性可以被推廣到新的類中,并且性能隨著訓(xùn)練目標(biāo)類的數(shù)量增加而增加。這個(gè)結(jié)論證明了我們可以學(xué)習(xí)通用目標(biāo)檢測(cè)器。本文將隨后提供代碼。


詳細(xì)內(nèi)容




隨著深度CNNs的出現(xiàn),目標(biāo)檢測(cè)在基準(zhǔn)數(shù)據(jù)集上的性能取得了重大飛躍。這歸功于CNN結(jié)構(gòu)的強(qiáng)大的學(xué)習(xí)能力。在過(guò)去的五年中,PASCALCOCO?mAP得分分別從33%提高到88%和從37%提高到73%(在重疊率50%的評(píng)價(jià)標(biāo)準(zhǔn)上)。雖然在有數(shù)十個(gè)類別的基準(zhǔn)數(shù)據(jù)庫(kù)上有了很大的改進(jìn),但是對(duì)于需要實(shí)時(shí)檢測(cè)數(shù)千個(gè)類別的現(xiàn)實(shí)生活中的目標(biāo)檢測(cè)進(jìn)展甚微。最近的一些努力已經(jīng)構(gòu)建了了大規(guī)模的檢測(cè)系統(tǒng),但是以犧牲準(zhǔn)確度為代價(jià)。

?

這篇文章提出了一個(gè)新穎的解決方案,能夠在比YOLO-9000提高18%的精度來(lái)完成大規(guī)模目標(biāo)檢測(cè)問(wèn)題,每秒可以處理30幀圖像,同時(shí)檢測(cè)3000個(gè)類別,被稱為R-FCN-3000

?

R-FCN-3000是對(duì)最近的一些目標(biāo)檢測(cè)體系結(jié)構(gòu)[文章中文獻(xiàn)6,5,23,25,29]進(jìn)行修改以實(shí)現(xiàn)實(shí)時(shí)大規(guī)模目標(biāo)檢測(cè)的任務(wù)。最近提出的全卷積(fullyconvolutional)分類檢測(cè)器計(jì)算給定圖像中目標(biāo)的每類分?jǐn)?shù)。其在有限的計(jì)算預(yù)算中顯示出驚人的準(zhǔn)確性。雖然全卷積方式為諸如目標(biāo)檢測(cè)[6],實(shí)例分割[22],跟蹤[10],關(guān)系檢測(cè)[41]等任務(wù)提供了一個(gè)有效的解決方案,但他們需要為每個(gè)類設(shè)置類特定的過(guò)濾器,以禁止他們應(yīng)用于其他的類。例如,R-FCN [5] / Deformable-R-FCN [6]要求每個(gè)類別有49/197個(gè)位置特定的濾波器。Retina-Net [23]對(duì)于每個(gè)卷積特征映射,每個(gè)類需要9個(gè)濾波器。

?

因此,這樣的結(jié)構(gòu)將需要數(shù)十萬(wàn)個(gè)用于檢測(cè)3000個(gè)類的過(guò)濾器,這將使得它們?cè)趯?shí)際應(yīng)用中速度非常慢。

這篇文章提出的R-FCN-3000結(jié)構(gòu)背后的重要啟發(fā)是解耦物體性檢測(cè)和對(duì)被檢測(cè)物體的分類,使得即使隨著類別數(shù)量的增加,對(duì)于定位的計(jì)算需求保持不變-參見(jiàn)圖1。這篇文章利用這樣的事實(shí),即許多目標(biāo)類別在視覺(jué)上相似并共享部件。例如,不同品種的狗都有共同的身體部位;因此,學(xué)習(xí)一套不同的濾波器來(lái)檢測(cè)每個(gè)種類是矯枉過(guò)正的。因此,R-FCN-3000為固定數(shù)量的超類執(zhí)行目標(biāo)檢測(cè)(使用位置敏感濾波器),然后在每個(gè)超類內(nèi)進(jìn)行細(xì)粒度分類(不使用位置敏感濾波器)。


通過(guò)對(duì)圖像的深層語(yǔ)義特征進(jìn)行聚類(在這種情況下是ResNet-1012048維特征)獲得超類。因此,這篇文章不需要語(yǔ)義層次的結(jié)構(gòu)。通過(guò)將超類概率與超類內(nèi)的細(xì)粒度類別的分類概率相乘,獲得給定位置處的細(xì)粒度類別的概率。

?

為了研究使用超類而不是單個(gè)目標(biāo)類別的效果,這篇文章將超類的數(shù)量從1改變到100,并評(píng)估ImageNet檢測(cè)數(shù)據(jù)集的性能。令人驚訝的是,即使有一個(gè)超類,檢測(cè)器也表現(xiàn)的很好!這一結(jié)果表明,位置敏感濾波器可以學(xué)習(xí)檢測(cè)通用的物體性。它也重新驗(yàn)證了過(guò)去很好的研究概念[1239]:目標(biāo)是一個(gè)通用的概念,可以學(xué)習(xí)一個(gè)通用的目標(biāo)檢測(cè)器。因此,為了執(zhí)行目標(biāo)檢測(cè),將RoI的物體性分?jǐn)?shù)乘以給定類別的分類概率就足夠了。

?

該結(jié)果可用于數(shù)千個(gè)類別的快速檢測(cè)器,因?yàn)椴辉傩枰總€(gè)類別的位置敏感濾波器。在PASCAL-VOC數(shù)據(jù)集中,只用本文提出的基于物體性的檢測(cè)器,作者觀察到,與可變形的R-FCN [6]檢測(cè)器相比,所有20個(gè)目標(biāo)類別的類別特定濾波器(class-specific filters)的mAP下降了1.5%。R-FCN-3000訓(xùn)練了3000個(gè)類,與ImageNet數(shù)據(jù)集上當(dāng)前最先進(jìn)的大型目標(biāo)檢測(cè)器(YOLO-9000)相比,獲得了18%的mAP提升。


最后,這篇文章在看不見(jiàn)的類(zero-shot?設(shè)定)上評(píng)估提出的目標(biāo)檢測(cè)器的普適性,并觀察到當(dāng)在更大數(shù)量的類上訓(xùn)練物體檢測(cè)器時(shí),泛化誤差減小。



模型簡(jiǎn)介




(1)框架

如圖2所示,R-FCN-3000使用RPN產(chǎn)生proposals。對(duì)于每個(gè)超類kP*P個(gè)位置敏感的濾波器。在進(jìn)行位置敏感的RoIpooling和對(duì)預(yù)測(cè)進(jìn)行平均之后,本文可以得到網(wǎng)絡(luò)對(duì)于分類和定位的得分。


為了得到超類概率,網(wǎng)絡(luò)在K個(gè)超類上進(jìn)行softmax。為了得到細(xì)粒度的類別概率,作者增加了兩個(gè)卷積層,再使用softmax

R-FCN-3000首先生成region proposals,這些region proposals作為輸入提供給超類檢測(cè)分支(如R-FCN),其,整體的預(yù)測(cè)每個(gè)超類(sc)的檢測(cè)分?jǐn)?shù)。另外,本文使用類無(wú)關(guān)的邊界框回歸步驟來(lái)改進(jìn)每個(gè)RoI的位置(這個(gè)步驟在圖中沒(méi)有顯示)。為了獲得語(yǔ)義類別,本文不使用位置敏感濾波器,而是以全卷積的方式預(yù)測(cè)每個(gè)類的分?jǐn)?shù)。最后,作者將RoI中的每個(gè)類別分?jǐn)?shù)進(jìn)行averagepooling,得到分類概率。分類概率乘以超類檢測(cè)概率來(lái)檢測(cè)3000個(gè)類別。當(dāng)K是1時(shí),超級(jí)檢測(cè)器來(lái)預(yù)測(cè)物體性。


(2)目標(biāo)函數(shù)

為了訓(xùn)練檢測(cè)器,作者使用在線難樣本挖掘(OHEM),并使用smooth L1 loss來(lái)進(jìn)行檢測(cè)框定位。


對(duì)于細(xì)粒度的分類,作者只在C個(gè)目標(biāo)類中使用softmax loss來(lái)進(jìn)行正樣本分類。由于相比于proposal的數(shù)量,positive ROI的數(shù)量非常少,因此作者對(duì)這個(gè)分支的loss進(jìn)行了一個(gè)因子為0.05的加權(quán),以保證這些梯度不會(huì)制約整個(gè)網(wǎng)絡(luò)訓(xùn)練。這種設(shè)置是重要的,因?yàn)檫@篇文章中的訓(xùn)練中使用了多任務(wù)損失。

結(jié)論




這篇文章證明,通過(guò)僅使用一組濾波器來(lái)進(jìn)行目標(biāo)與背景檢測(cè),可以預(yù)測(cè)通用的物體性得分。這種物體性分?jǐn)?shù)可以簡(jiǎn)單地與檢測(cè)對(duì)象的分類分?jǐn)?shù)相乘,在性能上只有一個(gè)較小的下降。最后,作者表明,可將學(xué)習(xí)到的物體性泛化至未出現(xiàn)的類,并且性能隨著訓(xùn)練目標(biāo)類的數(shù)量而增加。它支持物體性具有普遍性的假設(shè)。

?

本文提出了大規(guī)模目標(biāo)檢測(cè)的重大改進(jìn)方法,但許多問(wèn)題仍然沒(méi)有得到解決。一些有前景的研究問(wèn)題是:

  • 如何加快R-FCN-3000檢測(cè)100,000個(gè)類別的分類過(guò)程?

  • 一個(gè)典型的圖像包含有限數(shù)量的目標(biāo)類別-如何使用這個(gè)先驗(yàn)知識(shí)來(lái)加速推斷?

  • 如果還需要檢測(cè)對(duì)象及其部件,那么在這個(gè)架構(gòu)中需要做什么改變?

  • 由于在每個(gè)圖像中使用有效的類來(lái)標(biāo)記每個(gè)對(duì)象是代價(jià)很高的,所以如果某些目標(biāo)沒(méi)有在數(shù)據(jù)集中標(biāo)記出來(lái),可以學(xué)習(xí)魯棒的目標(biāo)檢測(cè)器嗎?


  • 參考文獻(xiàn)

    https://arxiv.org/abs/1712.01802

    總結(jié)

    以上是生活随笔為你收集整理的R-FCN每秒30帧实时检测3000类物体,马里兰大学Larry Davis组最新目标检测工作的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。