日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 目标检测 >内容正文

目标检测

吴恩达深度学习笔记12-Course4-Week3【目标检测】

發布時間:2025/3/12 目标检测 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 吴恩达深度学习笔记12-Course4-Week3【目标检测】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標檢測(Object detection)


一、目標定位(Object Localization)

圖像識別的三個層次:

  • 圖像分類:判斷圖像中是否包含某一類物體,并且假定每張圖像只有一個目標。
  • 目標定位:既要圖像分類,還要輸出這個目標位置。
  • 目標檢測:檢測出圖像包含的所有感興趣的目標,并定位。

目標定位:
需要修改輸出層的結構,和數據集的標簽。輸出層不僅要輸出各類別的概率,還要輸出目標的位置坐標。

損失函數和標簽:

  • Pc:表示是否包含要檢測目標。如果不包含為0,其它的輸出沒有意義。
  • 根據情況,可以對不同的輸出元素使用不同的損失函數,如:對多類別概率使用交叉熵損失函數;對邊界框值使用平方誤差; 對Pc使用 logistic regression 損失函數。

二、特征點檢測(Landmark Detection)

在訓練標簽中添加特征點,并修改模型的輸出層使其輸出特征點坐標值,從而實現特征點檢測。

兩個例子:

  • 人臉表情識別:通過標定數據集中特征點的位置信息,來對人臉進行不同位置不同特征的定位和標記。AR的應用就是基于人臉表情識別來設計的,如臉部扭曲、增加頭部配飾等。
  • 人體姿態檢測:通過對人體不同的特征位置關鍵點的標注,來檢測人體的姿態。

三、目標檢測(Object Detection)

訓練了一個分類模型。

  • 輸入X:將有目標的圖片進行適當的剪切,使圖像剛好只包括目標,訓練集中也應包含沒有目標的圖像。
  • 標簽Y:有目標為1,沒目標為0。

    實現目標檢測:把圖像裁剪成任意大小(可用滑動窗口實現),輸入分類器,即可判別出是否包含目標同時也知道了目標的位置。

四、卷積的滑動窗口實現(Convolutional Implementation of Sliding Windows)

滑動窗口檢測:

設置一系列尺寸不同的方框,每一種方框都從左向右、從上往下有規律的遍歷圖像,把每一個方框包含的圖片區域輸入不同的分類器,進行分類判別。即可實現目標檢測。

缺點是計算成本太大,方框尺寸的細分程度對定位的精度(粗粒度)影響很大。

卷積層替代全連接層:

利用1×1的卷積替代全連接層。

卷積實現滑動窗口:

不用把圖片進行分割后輸入模型,而是把這張圖片輸入到卷積神經網絡中進行計算,因為各子圖重疊部分可以共享大量的計算。只需一次前向傳播,就可以同時得到所有子圖的預測值。
輸出層尺寸為 :橫向子圖數 x 縱向子圖數 x 類別數


五、預測邊界框(Bounding Box Predictions)

受邊界框尺寸的細分程度的影響,預測結果和實際目標邊框可能會有偏離。

YOLO 算法很好的解決邊界框不準確的問題,下面會講。

邊界框值的意義:

  • bx by bh bw :目標的中心點 x、y 坐標和高、寬值。值的大小都是相比于格子尺寸的比例值。

六、交并比(Intersection Over Union)

兩個邊框:實際邊框和預測邊框。
IoU = 邊框交集 / 邊框并集


七、非極大值抑制(Non-max Suppression)

一個目標可能檢測出多個邊界框,用非極大值抑制解決。

以某一個分類類別為例:

  • 丟棄Pc小于一定值的預測結果,通常取0.5。
  • 選取Pc最大的邊界框,作為一個正確的預測輸出。丟棄與該邊界框有高交并比(通常取大于0.5)的預測結果。
  • 重復上一個步驟,直到所有邊界框都被遍歷了。

八、Anchor Boxes

解決一個格子只能預測一個目標的不足。

  • 人工定義 Anchor Boxes 的形狀。標簽中對應于 Anchor Boxes 數量設置幾個預測標簽組合成一個大標簽。
  • 把目標分配到其邊框與某個Anchor Boxe有最大IoU的所屬格子的這個Anchor Boxe對應的那一組預測標簽中。


九、YOLO Algorithm

訓練:

  • 劃分網格:將圖片分割成n×n個小的圖片。
  • 根據目標的中心點,為每個目標分配一個grid cell :中點在哪個grid cell ,就將該對象分配這個格子中,每個目標只分配給一個格子。
  • 數據標簽:對于每個 grid cell 都有一個包含分類和位置的標簽yi=[Pc bx by bh bw c1 c2 c3],因為標簽的位置值的大小可以是任意值,相比于滑動窗口寬高比不再固定,因此能得到更精確的邊框。

    node: 這里的yi標簽是沒有Anchor Boxes的,如果有Anchor Boxes應相應增加值。

  • 將 n×n 個格子的標簽合并起來,得到 n×n×8 的矩陣標簽。
  • 訓練模型。

    沒有Anchor Boxes:

    有Anchor Boxes:

預測:

  • 將圖片縮放成大小和模型要求一致后輸入模型得到大小為n×n×8的預測輸出。即可得到分類類別和邊框位置。
  • YOLO算法對于每張圖只進行一次前向傳播,算法運行速度快,基本達到實時應用的要求。

非極大值抑制:

  • 對每種類別單獨進行極大值抑制,輸出預測結果。

十、候選區域(Region Proposals)—— R-CNN

  • 把圖片分割成不同色塊,數量要遠遠小于窗口滑動的子圖數。
  • 把不同色塊的原圖輸入模型進行預測。并不信任輸入色塊的位置值,同樣要輸出邊界框的預測值。


總結

以上是生活随笔為你收集整理的吴恩达深度学习笔记12-Course4-Week3【目标检测】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。