當前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

《深度学习》之目标检测最全详解（一）

發布時間：2023/12/20 目标检测 37 豆豆

生活随笔收集整理的這篇文章主要介紹了《深度学习》之目标检测最全详解（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標檢測

一.簡介

目標檢測，也叫目標提取，是一種基于目標幾何和統計特征的圖像分割，它將目標的分割和識別合二為一，其準確性和實時性是整個系統的一項重要能力。尤其是在復雜場景中，需要對多個目標進行實時處理時，目標自動提取和識別就顯得特別重要。
隨著計算機技術的發展和計算機視覺原理的廣泛應用，利用計算機圖像處理技術對目標進行實時跟蹤研究越來越熱門，對目標進行動態實時跟蹤定位在智能化交通系統、智能監控系統、軍事目標檢測及醫學導航手術中手術器械定位等方面具有廣泛的應用價值。

(圖片來自網絡)

二.發展歷程

（圖片來自網絡）
（圖片來自網絡）

（圖片來自網絡）

1、基于傳統圖像處理和機器學習算法的目標檢測與識別方法

傳統的目標檢測與識別方法主要可以表示為：目標特征提取->目標識別->目標定位。

這里所用到的特征都是認為設計的，例如SIFT (尺度不變特征變換匹配算法Scale Invariant Feature Transform), HOG(方向梯度直方圖特征Histogram of Oriented Gradient), SURF( 加速穩健特征Speeded Up Robust Features),等。通過這些特征對目標進行識別，然后再結合相應的策略對目標進行定位。

2、基于深度學習的目標檢測與識別方法

如今，基于深度學習的目標檢測與識別成為主流方法，主要可以表示為：圖像的深度特征提取->基于深度神經網絡的目標識別與定位，其中主要用到深度神經網絡模型是卷積神經網絡CNN。

目前可以將現有的基于深度學習的目標檢測與識別算法大致分為以下三大類：

基于區域建議的目標檢測與識別算法，如R-CNN, Fast-R-CNN, Faster-R-CNN;
基于回歸的目標檢測與識別算法，如YOLO, SSD;
基于搜索的目標檢測與識別算法，如基于視覺注意的AttentionNet，基于強化學習的算法。

三.目標檢測基本思路與步驟

3.1 基本思路

目標檢測的基本思路：同時解決定位（localization） + 識別（Recognition）。
多任務學習，帶有兩個輸出分支。一個分支用于做圖像分類，即全連接+softmax判斷目標類別，和單純圖像分類區別在于這里還另外需要一個“背景”類。另一個分支用于判斷目標位置，即完成回歸任務輸出四個數字標記包圍盒位置(例如中心點橫縱坐標和包圍盒長寬)，該分支輸出結果只有在分類分支判斷不為“背景”時才使用。詳細結構如下圖所示：

(圖片來自網絡)

3.2 步驟

傳統的目標檢測框架，主要包括三個步驟：

利用不同尺寸的滑動窗口框住圖中的某一部分作為候選區域；

提取候選區域相關的視覺特征。比如人臉檢測常用的Harr特征；行人檢測和普通目標檢測常用的HOG特征等；

利用分類器進行識別，比如常用的SVM模型。

3.3 兩類深度學習方法

目前目標檢測領域的深度學習方法主要分為兩類：兩階段（Two Stages）的目標檢測算法；一階段（One Stage）目標檢測算法。

兩階段（Two Stages）：首先由算法（algorithm）生成一系列作為樣本的候選框，再通過卷積神經網絡進行樣本（Sample）分類。

常見的算法有R-CNN、Fast R-CNN、Faster R-CNN等等。

一階段（One Stage ）：不需要產生候選框，直接將目標框定位的問題轉化為回歸（Regression）問題處理(Process)。

常見的算法有YOLO、SSD等等。

這些算法又可以根據是否基于候選區來劃分成兩類

3.4 基于候選區的算法

基于候選區域（Region Proposal）的，如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN；
使用候選區域方法（region proposal method）創建目標檢測的感興趣區域（ROI）。在選擇性搜索（selective search，SS）中，首先將每個像素作為一組。然后，計算每一組的紋理，并將兩個最接近的組結合起來。但是為了避免單個區域吞噬其他區域，首先對較小的組進行分組。繼續合并區域，直到所有區域都結合在一起。下圖第一行展示了如何使區域增長，第二行中的藍色矩形代表合并過程中所有可能的 ROI。

（圖片來自網絡）

基于區域的全卷積網絡檢測目標

3.5 基于端到端的算法

端到端指的是輸入是原始數據，輸出是最后的結果，原來輸入端不是直接的原始數據，而是在原始數據中提取的特征，這一點在圖像問題上尤為突出，因為圖像像素數太多，數據維度高，會產生維度災難，所以原來一個思路是手工提取圖像的一些關鍵特征，這實際就是就一個降維的過程。
　　
端到端的目標檢測算法

基于端到端（End-to-End），無需候選區域（Region Proposal）的，如YOLO、SSD。

對于上述兩種方式，基于候選區域（Region Proposal）的方法在檢測準確率和定位精度上占優，基于端到端（End-to-End）的算法速度占優。相對于R-CNN系列的“看兩眼”（候選框提取和分類），YOLO只需要“看一眼”。總之，目前來說，基于候選區域（Region Proposal）的方法依然占據上風，但端到端的方法速度上優勢明顯。

四.目標檢測精準度的評價指標

　　　　
（圖片來自網絡）

P-R 曲線
　　　　

計算 mAP 過程

對于一張圖片中的c類目標

算法檢測出來 T 個c類的目標

而真值是 TP+FN 個c類的目標

檢測結果中有 TP 個結果和真值的 IOU 達到某個設定的閾值

那么Precision定義為：

對所有圖片求平均得到Average Precision 的定義值：

對所有類求平均就得到mean Average Precision的定義值：

參考：《深度學習》花書
復旦大學《深度學習》

總結

以上是生活随笔為你收集整理的《深度学习》之目标检测最全详解（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二维码的原理竟如此简单，第一次有人说的这
下一篇：运动目标检测之光流法（2）：金字塔Luc