當前位置：首頁 >

人工智能 | 增强小目标检测（Augmentation for small object detection）

發布時間：2025/3/12 65 豆豆

生活随笔收集整理的這篇文章主要介紹了人工智能 | 增强小目标检测（Augmentation for small object detection）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

博主github：https://github.com/MichaelBeechan
博主CSDN：https://blog.csdn.net/u011344545

Augmentation for small object detection

Mate Kisantal kisantal.mate@gmail.com
Zbigniew Wojna zbigniewwojna@gmail.com
Jakub Murawski kuba.murawski96@gmail.com
Jacek Naruniec j.naruniec@ire.pw.edu.pl
Kyunghyun Cho kyunghyun.cho@nyu.edu

論文下載：https://arxiv.org/pdf/1902.07296.pdf

摘要：
近年來，目標檢測取得了長足的發展。盡管有了這些改進，但在檢測小目標和大目標之間的性近年來，物體檢測取得了令人矚目的進展。盡管有這些改進，但在檢測小物體和大物體之間的性能仍然存在顯著差距。我們在具有挑戰性的數據集MS COCO上分析當前最先進的模型Mask-RCNN。我們表明，小地面實況對象與預測錨點之間的重疊遠低于預期的IoU閾值。我們猜想這是由于兩個因素造成的; （1）只有少數圖像包含小物體，（2）即使在包含它們的每個圖像中，小物體也看起來不夠。因此，我們建議用小物體對這些圖像進行過采樣，并通過多次復制粘貼小物體來增強每個圖像。它允許我們將大型物體上的探測器質量與小物體上的探測器質量進行權衡。我們評估了不同的粘貼增強策略，最終，與MS COCO上的當前最先進的方法相比，我們在實例分割上實現了9.7％的相對改進，在小對象的目標檢測上實現了7.1％。

引言

檢測圖像中的物體是當今計算機視覺研究的基本任務之一，因為它通常是許多現實世界應用的起點，包括機器人和自動駕駛汽車，衛星和航空圖像分析，以及器官的定位和大量的醫學圖像。而物體檢測這一重要問題最近經歷了很多改進。 MS COCO物體檢測競賽的top-1解決方案，已經從2015年的平均精度（AP）0.373 發展到2017年的0.525（IoU = .50：.05：.95這是一項主要挑戰在MS COCO實例分段挑戰的背景下，可以在實例分割問題中觀察到類似的進展。盡管有這些改進，但現有解決方案通常在小型物體上表現不佳，其中小型物體在MS COCO的情況下如表1中所定義。從小物體和大物體的檢測之間的性能的顯著差異可以明顯看出。例如，參見圖1，其列出了MS COCO實例分段挑戰的最高排名提交。在實例分割任務中也觀察到類似的問題。例如，請參見圖2中當前最先進模型Mask-RCNN的樣本預測，其中模型錯過了大多數小對象。
數據集：http://cocodataset.org/#detection-leaderboard

小物體檢測在許多下游任務中至關重要。在汽車的高分辨率場景照片中檢測小物體或遠處的物體是安全地部署自駕車的必要條件。許多物體，例如交通標志或行人，在高分辨率圖像上幾乎看不到。在醫學成像中，早期檢測腫塊和腫瘤對于進行準確的早期診斷至關重要，因為這些元素很容易只有幾個像素。通過在材料表面上可見的小缺陷的定位，自動工業檢查還可以受益于小物體檢測。另一個應用是衛星圖像分析，其中必須有效地注釋諸如汽車，船舶和房屋之類的物體。平均每像素分辨率為0.5-5m，這些對象的大小只有幾個像素。換句話說，小物體檢測和分割需要更多關注，因為在現實世界中部署了更復雜的系統。因此，我們提出了一種改進小物體檢測的新方法。

我們專注于最先進的物體探測器，Mask R-CNN [18]，在具有挑戰性的數據集MS COCO上。我們注意到該數據集關于小對象的兩個屬性。首先，我們觀察到在數據集中包含小對象的圖像相對較少，這可能會使任何檢測模型偏向于更多地關注中型和大型對象。其次，小物體所覆蓋的區域要小得多，這意味著小物體的位置缺乏多樣性。我們猜想，當物體檢測模型出現在圖像的較少探索的部分時，難以在測試時間內推廣到小物體。

我們通過對包含小對象的圖像進行過采樣來解決第一個問題。第二個問題是通過在包含小對象的每個圖像中多次復制粘貼小對象來解決的。粘貼每個對象時，我們確保粘貼的對象不與任何現有對象重疊。這增加了小物體位置的多樣性，同時確保這些物體出現在正確的上下文中，如圖3所示。每個圖像中小物體數量的增加進一步解決了少量正匹配錨點的問題。我們在第3節中進行了定量分析。總體而言，在MS COCO中與目前最先進的方法Mask R-CNN相比，實例分割的相對改進率為9.7％，小物體的物體檢測率為7.1％。

識別檢測小物體的問題

在本節中，我們首先概述了MS COCO數據集和我們實驗中使用的對象檢測模型。然后，我們討論MS COCO數據集的問題以及訓練中使用的錨匹配過程，這有助于小對象檢測的難度。

MS COCO：

我們試驗了MS COCO檢測數據集[25]。 MS COCO 2017檢測數據集包含118,287個用于訓練的圖像，5,000個用于驗證的圖像和40,670個測試圖像。來自80個類別的860,001和36,781個對象使用地面實況邊界框和實例掩模進行注釋。

在MS COCO檢測挑戰中，主要評估指標是平均精度（average precision，AP）。通常，AP被定義為所有召回值的真陽性與所有陽性的比率的平均值。因為對象需要被定位和正確分類，所以如果預測的掩模或邊界框具有高于0.5的交叉結合（ intersection-over-union，IoU），則正確的分類僅被計為真正的正檢測。 AP分數在80個類別和10個IoU閾值之間取平均值，均勻分布在0.5和0.95之間。指標還包括跨不同對象尺度測量的AP。在這項工作中，我們的主要興趣是關于小物體的AP。

Mask R-CNN：
對于我們的實驗，我們使用[16]中的Mask R-CNN實現和ResNet-50 backbone，并調整[17]中提出的線性縮放規則來設置學習超參數。我們使用比[16]中的基線更短的訓練計劃。我們使用0.01的基本學習率訓練分布在四個GPU上的36k迭代模型。為了優化，我們使用隨機梯度下降，動量設置為0.9，權重衰減，系數設置為0.0001。在24k和32k迭代之后，在訓練期間，學習率按比例縮小0.1倍。所有其他參數保留在[16]的基線Mask R-CNN + FPN + ResNet-50配置中。

在我們的調查中，網絡的區域提案階段尤為重要。我們使用特征金字塔網絡（ feature pyramid network，FPN）來生成對象提議[24]。它預測了相對于五個尺度（32, 62, 122 , 256, 512）^2和三個縱橫比（1, 0.5, 2）的十五個錨箱的對象建議。如果錨具有高于0.7的IoU對抗任何地面實況框，或者如果它具有針對地面實況邊界框的最高IoU，則錨接收正標簽。

Small object detection by Mask R-CNN on MS COCO

在MS COCO中，訓練集中出現的所有對象中有41.43％是小的，而只有34.4％和24.2％分別是中型和大型對象。另一方面，只有約一半的訓練圖像包含任何小物體，而70.07％和82.28％的訓練圖像分別包含中型和大型物體。請參閱表2中的（Object Count and Images）對象計數和圖像。這確認了小對象檢測問題背后的第一個問題：使用小對象的示例較少。

通過考慮每個尺寸類別的總對象面積（Total Object Area），可以立即看出第二個問題。僅有1.23％的帶注釋像素屬于小對象。中等大小的對象占用面積的8倍以上，占總注釋像素的10.18％，而大多數像素，82.28％被標記為大對象的一部分。在該數據集上訓練的任何探測器都沒有看到足夠的小物體情況，包括圖像和像素。

如本節前面所述，來自區域提案網絡的每個預測錨點如果具有最高的IoU具有地面實況邊界框或者如果其具有高于0.7的任何地面實況框的IoU，則接收正標簽。這個過程非常適合大型物體，因為跨越多個滑動窗口位置的大型物體通常具有帶有許多錨箱的高IoU，而小物體可能僅與具有低IoU的單個錨箱匹配。如表2所列，只有29.96％的正匹配錨與小物體配對，而44.49％的正匹配錨與大物體配對。從另一個角度來看，它意味著每個大對象有2.54個匹配的錨點，而每個小對象只有一個匹配的錨點。此外，正如平均最大（Average Max IoU ）IoU度量標準所揭示的那樣，即使是小物體的最佳匹配錨箱通常也具有低IoU值。小物體的平均最大IoU僅為0.29，而中型和大型物體的最佳匹配錨點分別為IoU，0.57和0.66的兩倍。我們在圖中說明了這種現象。 5通過可視化幾個例子。這些觀察結果表明，小型物體對計算區域建議損失的貢獻要小得多，這使得整個網絡偏向于大中型物體。

過采樣和增強（Oversampling and Augmentation）

我們通過明確解決上一節中概述的MS COCO數據集的小對象相關問題，提高了對象檢測器在小對象上的性能。特別是，我們對包含小對象的圖像進行過度采樣并執行小對象增強，以鼓勵模型更多地關注小對象。雖然我們使用Mask R-CNN評估所提出的方法，但它通常可用于任何其他對象檢測網絡或框架，因為過采樣和增強都是作為數據預處理完成的。

Oversampling（過采樣）

我們通過在訓練期間對這些圖像進行過采樣來解決包含小對象的相對較少圖像的問題[4]。這是一種輕松而直接的方法，可以緩解MS COCO數據集的這一問題并提高小對象檢測的性能。在實驗中，我們改變過采樣率并研究過采樣的影響，不僅對小對象檢測，而且對檢測中大對象。

Augmentation（增強）

除了過采樣之外，我們還引入了專注于小對象的數據集擴充。 MS COCO數據集中提供的實例分割掩碼允許我們從其原始位置復制任何對象。然后將副本粘貼到不同的位置。通過增加每個圖像中的小對象的數量，匹配的錨的數量增加。這反過來又改善了小對象在訓練期間計算RPN的損失函數的貢獻。

在將對象粘貼到新位置之前，我們對其應用隨機轉換。我們通過將對象大小改變±20％并將其旋轉±15°來縮放對象。我們只考慮非遮擋對象，因為粘貼不相交的分割遮罩與中間不可見的部分通常會導致不太逼真的圖像。我們確保新粘貼的對象不與任何現有對象重疊，并且距圖像邊界至少五個像素。

在圖4中，我們以圖形方式說明了所提出的增強策略以及它如何在訓練期間增加匹配錨點的數量，從而更好地檢測小物體。

Experimental Setup（實驗參數設置）

Oversampling

在第一組實驗中，我們研究了包含小物體的過采樣圖像的影響。我們改變了兩個，三個和四個之間的過采樣率。我們創建了多個圖像副本，而不是實際的隨機過采樣，這些圖像與小對象脫機以提高效率。

Augmentation

在第二組實驗中，我們研究了使用增強對小物體檢測和分割的影響。我們復制并粘貼每個圖像中的所有小對象一次。我們還用小物體對圖像進行過采樣，以研究過采樣和增強策略之間的相互作用。

我們測試了三種設置。在第一個設置中，我們用帶有復制粘貼的小對象的小對象替換每個圖像。在第二個設置中，我們復制這些增強圖像以模擬過采樣。在最終設置中，我們保留原始圖像和增強圖像，這相當于用小對象對圖像進行過采樣兩倍，同時用更小的對象擴充復制的副本。

Copy-Pasting Strategies

有不同的方法來復制粘貼小對象。我們考慮三種不同的策略。首先，我們在圖像中選擇一個小對象，并在隨機位置復制粘貼多次。其次，我們選擇了許多小物體，并在任意位置復制粘貼這些物體一次。最后，我們在隨機位置多次復制粘貼每個圖像中的所有小對象。在所有情況下，我們使用上面第三個增強設置; 也就是說，我們保留原始圖像和增強副本。

Pasting Algorithms

粘貼小對象的副本時，有兩件事需要考慮。首先，我們必須確定粘貼的對象是否會與任何其他對象重疊。雖然我們選擇不引入任何重疊，但我們通過實驗驗證它是否是一個好策略。其次，是否執行額外的過程來平滑粘貼對象的邊緣是一種設計選擇。我們試驗具有不同濾波器尺寸的邊界的高斯模糊是否可以幫助比較沒有進一步處理。

Result and Analysis

Oversampling

通過在訓練期間更頻繁地對小物體圖像進行采樣（參見表3），可以改善小物體分割和檢測上的AP。通過3倍過采樣觀察到最大增益，這使小物體的AP增加1％（相當于8.85％的相對改善）。雖然中等對象尺度上的性能受影響較小，但是大對象檢測和分割性能始終受到過采樣的影響，這意味著必須基于小對象和大對象之間的相對重要性來選擇該比率。

Augmentation

在表4中，我們使用所提出的增強和過采樣策略的不同組合來呈現結果。當我們用包含更多小對象（第二行）的副本用小對象替換每個圖像時，性能顯著下降。當我們將這些增強圖像過采樣2倍時，小物體的分割和檢測性能重新獲得了損失，盡管總體性能仍然比基線差。當我們在增強驗證集上而不是原始驗證集上評估此模型時，我們看到小對象增強性能（0.161）增加了38％，這表明訓練有素的模型有效地過度擬合“粘貼”小物體但是不一定是原來的小物件。我們認為這是由于粘貼的偽影，例如不完美的對象遮罩和與背景的亮度差異，這些神經網絡相對容易發現。通過將過采樣和增強與p = 0.5（original+aug）的概率相結合來實現最佳結果，原始對象與增強小對象的比率為2：1。這種設置比單獨過采樣產生了更好的結果，證實了所提出的粘貼小物體策略的有效性。

Copy-Pasting strategies

Pasting Algorithms

Conclusion（結論）

我們研究了小物體檢測的問題。我們發現小物體平均精度差的原因之一是訓練數據中缺少小物體的表示。對于現有的現有技術的物體檢測器尤其如此，該物體檢測器需要存在足夠的物體以使預測的錨點在訓練期間匹配。我們提出了兩種策略來擴充原始的MS COCO數據庫來克服這個問題。首先，我們展示了在訓練過程中對包含小物體的圖像進行過采樣，可以輕松提高小物體的性能。其次，我們提出了一種基于復制粘貼小對象的增強算法。我們的實驗證明，與通過掩模R-CNN在MS COCO上獲得的現有技術相比，小物體的實例分割相比改善了9.7％，物體檢測為7.1％。如實驗所證實的，所提出的一組增強方法提供了對小物體和大物體的預測質量之間的權衡。

References

Abouelela, A., Abbas, H.M., Eldeeb, H., Wahdan, A.A., Nassar, S.M.: Automated
vision system for localizing structural defects in textile fabrics. Pattern recognition
letters 26(10), 1435–1443 (2005)

Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting
objects in context with skip pooling and recurrent neural networks. In: Proceedings
of the IEEE conference on computer vision and pattern recognition. pp. 2874–2883
(2016)

Bottema, M.J., Slavotinek, J.P.: Detection and classification of lobular and dcis
(small cell) microcalcifications in digital mammograms. Pattern Recognition Let-
ters 21(13-14), 1209–1214 (2000)

Buda, M., Maki, A., Mazurowski, M.A.: A systematic study of the class imbalance
problem in convolutional neural networks. arXiv preprint arXiv:1710.05381 (2017)

Cao, G., Xie, X., Yang, W., Liao, Q., Shi, G., Wu, J.: Feature-fused ssd: fast
detection for small objects. In: Ninth International Conference on Graphic and
Image Processing (ICGIP 2017). vol. 10615, p. 106151E. International Society for
Optics and Photonics (2018)

Chen, C., Liu, M.Y., Tuzel, O., Xiao, J.: R-cnn for small object detection. In: Asian
conference on computer vision. pp. 214–230. Springer (2016)

Chen, X., Kundu, K., Zhu, Y., Berneshawi, A.G., Ma, H., Fidler, S., Urtasun, R.:
3d object proposals for accurate object class detection. In: Advances in Neural
Information Processing Systems. pp. 424–432 (2015)

Cheng, P., Liu, W., Zhang, Y., Ma, H.: Loco: Local context based faster r-cnn for
small traffic sign detection. In: International Conference on Multimedia Modeling.
pp. 329–341. Springer (2018)

Dai, J., He, K., Sun, J.: Instance-aware semantic segmentation via multi-task net-
work cascades. In: Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. pp. 3150–3158 (2016)

Dai, J., Li, Y., He, K., Sun, J.: R-fcn: Object detection via region-based fully
convolutional networks. In: Advances in neural information processing systems.
pp. 379–387 (2016)

Deshmukh, V.R., Patnaik, G., Patil, M.: Real-time traffic sign recognition system
based on colour image segmentation. International Journal of Computer Applica-
tions 83(3) (2013)

Eggert, C., Zecha, D., Brehm, S., Lienhart, R.: Improving small object proposals
for company logo detection. In: Proceedings of the 2017 ACM on International
Conference on Multimedia Retrieval. pp. 167–174. ACM (2017)

Fang, L., Zhao, X., Zhang, S.: Small-objectness sensitive detection based on shifted
single shot detector. Multimedia Tools and Applications pp. 1–19 (2018)

Fathi, A., Wojna, Z., Rathod, V., Wang, P., Song, H.O., Guadarrama, S., Murphy,
K.P.: Semantic instance segmentation via deep metric learning. arXiv preprint
arXiv:1703.10277 (2017)

Fu, C.Y., Liu, W., Ranga, A., Tyagi, A., Berg, A.C.: Dssd: Deconvolutional single
shot detector. arXiv preprint arXiv:1701.06659 (2017)

Girshick, R., Radosavovic, I., Gkioxari, G., Dollár, P., He, K.: Detectron. https:
//github.com/facebookresearch/detectron (2018)

Goyal, P., Dollár, P., Girshick, R.B., Noordhuis, P., Wesolowski, L., Kyrola, A.,
Tulloch, A., Jia, Y., He, K.: Accurate, large minibatch sgd: Training imagenet in
1 hour. CoRR abs/1706.02677 (2017)

He, K., Gkioxari, G., Dollár, P., Girshick, R.: Mask r-cnn. In: Computer Vision
(ICCV), 2017 IEEE International Conference on. pp. 2980–2988. IEEE (2017)

Hu, P., Ramanan, D.: Finding tiny faces. In: Computer Vision and Pattern Recog-
nition (CVPR), 2017 IEEE Conference on. pp. 1522–1530. IEEE (2017)

Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., Fischer, I.,
Wojna, Z., Song, Y., Guadarrama, S., et al.: Speed/accuracy trade-offs for modern
convolutional object detectors. In: IEEE CVPR. vol. 4 (2017)

Kampffmeyer, M., Salberg, A.B., Jenssen, R.: Semantic segmentation of small ob-
jects and modeling of uncertainty in urban remote sensing images using deep con-volutional neural networks. In: Proceedings of the IEEE conference on computer
vision and pattern recognition workshops. pp. 1–9 (2016)

Li, J., Liang, X., Wei, Y., Xu, T., Feng, J., Yan, S.: Perceptual generative adver-
sarial networks for small object detection. In: IEEE CVPR (2017)

Li, Y., Qi, H., Dai, J., Ji, X., Wei, Y.: Fully convolutional instance-aware semantic
segmentation. In: 2017 IEEE Conference on Computer Vision and Pattern Recog-
nition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017. pp. 4438–4446 (2017)

Lin, T.Y., Dollár, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature
pyramid networks for object detection. In: CVPR. vol. 1, p. 4 (2017)

Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P.,
Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
on computer vision. pp. 740–755. Springer (2014)

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.:
Ssd: Single shot multibox detector. In: European conference on computer vision.
pp. 21–37. Springer (2016)

Menikdiwela, M., Nguyen, C., Li, H., Shaw, M.: Cnn-based small object detection
and visualization with feature activation mapping. In: 2017 International Confer-
ence on Image and Vision Computing New Zealand, IVCNZ 2017, Christchurch,
New Zealand, December 4-6, 2017. pp. 1–5 (2017)

Modegi, T.: Small object recognition techniques based on structured template
matching for high-resolution satellite images. In: SICE Annual Conference, 2008.
pp. 2168–2173. IEEE (2008)

Nagarajan, M.B., Huber, M.B., Schlossbauer, T., Leinsinger, G., Krol, A.,
Wismüller, A.: Classification of small lesions in dynamic breast mri: eliminating the
need for precise lesion segmentation through spatio-temporal analysis of contrast
enhancement. Machine vision and applications 24(7), 1371–1381 (2013)

Ng, H.F.: Automatic thresholding for defect detection. Pattern recognition letters
27(14), 1644–1649 (2006)

Ouyang, W., Wang, X.: Joint deep learning for pedestrian detection. In: Proceed-
ings of the IEEE International Conference on Computer Vision. pp. 2056–2063
(2013)

Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detec-
tion with region proposal networks. In: Advances in neural information processing
systems. pp. 91–99 (2015)

Ren, Y., Zhu, C., Xiao, S.: Small object detection in optical remote sensing images
via modified faster r-cnn. Applied Sciences 8(5), 813 (2018)

Sermanet, P., LeCun, Y.: Traffic sign recognition with multi-scale convolutional
networks. In: Neural Networks (IJCNN), The 2011 International Joint Conference
on. pp. 2809–2813. IEEE (2011)

Wojna, Z., Ferrari, V., Guadarrama, S., Silberman, N., Chen, L.C., Fathi, A.,
Uijlings, J.: The devil is in the decoder. arXiv preprint arXiv:1707.05847 (2017)

Yang, F., Choi, W., Lin, Y.: Exploit all the layers: Fast and accurate cnn object
detector with scale dependent pooling and cascaded rejection classifiers. In: Pro-
ceedings of the IEEE conference on computer vision and pattern recognition. pp.
2129–2137 (2016)

總結

以上是生活随笔為你收集整理的人工智能 | 增强小目标检测（Augmentation for small object detection）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Matlab | Matlab从入门到放
下一篇：计算机视觉与深度学习 | 复杂环境下的视