日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2017CS231n笔记_S11分割,定位,检测

發(fā)布時(shí)間:2024/3/13 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2017CS231n笔记_S11分割,定位,检测 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

S11.0前言

S11.1語義分割

S11.1.1滑動(dòng)窗口方法

S11.1.2全卷積方法

S11.1.13上采樣

S11.2分類+定位

S11.2.1分類+定位

S11.2.2姿態(tài)估計(jì)

S11.3目標(biāo)檢測

S11.3.1目標(biāo)檢測作為回歸任務(wù)?

S11.3.2目標(biāo)檢測作為分類任務(wù)

S11.3.3Detection with Region Proposals

S11.3.4Detection without Proposals

S11.4實(shí)例分割


S11.0前言

本章節(jié)對分類之外的其他視覺任務(wù)進(jìn)行介紹,包括語義分割(Semantic Segmentation),分類+定位(Classification+Localization),目標(biāo)檢測(Classification+Localization)和實(shí)例分割(Instance Segmentation)。四種視覺任務(wù)結(jié)果如下圖所示。


S11.1語義分割

語義分割是像素級(jí)任務(wù),并不區(qū)分實(shí)例。語義分割是指輸入圖像,并對圖像中的每個(gè)像素做分類,為每個(gè)像素分配標(biāo)簽。語義分割并不區(qū)分同類目標(biāo)。

S11.1.1滑動(dòng)窗口方法

使用該方法的一個(gè)模型如下。模型將輸入圖片分為很多很多個(gè)小的局部圖像塊,然后用CNN判別局部圖像塊的中心像素的類別。但對于每個(gè)像素,都要判別該像素對應(yīng)的局部圖像塊,并且模型沒有共享這些圖像塊之間重疊的特征,因此模型的計(jì)算復(fù)雜度很高。該模型論文“Learning Hierarchical Features for Scene Labeling“。

S11.1.2全卷積方法

全卷積方法是指,圖像輸入到模型中,使用多個(gè)卷積層,輸出和輸入圖像相同大小的結(jié)果圖像。但這樣,會(huì)有一個(gè)問題,就是在原始圖像分辨率上做卷積會(huì)十分昂貴。因此,在多個(gè)卷積層之間先進(jìn)行降采樣(downsampling),再進(jìn)行上采樣(unsampling),使得輸出圖像的大小等同輸入圖像的大小。降采樣方法有:pooling和strided convolution。上采樣方法有:unpooling和transpose convolution。使用該方法的一個(gè)模型如下。模型論文"Fully Convolutional Networks for Semantic Segmentation"。但該方法的問題是,如何得到數(shù)據(jù)庫。可以考慮自己使用ps工具來得到每個(gè)輸入圖像對應(yīng)的目標(biāo)圖像。

S11.1.13上采樣

上采樣方法分為Unpooling和Transpose Convolution。

Unpooling:常見方法如下圖所示。設(shè)Unpooling層的輸出是輸出區(qū)域。Nearest Neighbor方法是在輸出區(qū)域中對像素進(jìn)行重復(fù)。Bed of Nails方法是輸出區(qū)域左上角的值為對應(yīng)的輸入像素值,輸出區(qū)域的其他值為0。Max Unpooling方法在使用時(shí),網(wǎng)絡(luò)中每個(gè)Max Pooling層對應(yīng)一個(gè)Max Unpooling層。在輸出區(qū)域中,對應(yīng)Max Pooling層中最大像素的位置(例如圖中5,6,7,8的位置)的值為降采樣輸入像素值(例如圖中1,2,3,4),輸出區(qū)域中其他位置的值為0。

Transpose Convolution:比如輸入是一個(gè)2*2的像素,例如上圖的1,2,3,4。假設(shè)轉(zhuǎn)置卷積層的過濾器大小為3*3。那么該層的計(jì)算是:使用1這個(gè)標(biāo)量與過濾器相乘,得到3*3的矩陣。那么分別使用1,2,3,4進(jìn)行上述操作,總共能得到4個(gè)3*3的矩陣。轉(zhuǎn)置卷積層有步常stride參數(shù)。根據(jù)這個(gè)參數(shù),4個(gè)3*3的矩陣在空間上可能有重疊的部分。那么重疊部分的值為每個(gè)矩陣中該位置值之和。該層還有其他名稱,如Deconvolution,Upconvolution,fractionally strided convolution,Backward strided convolution。


S11.2分類+定位

S11.2.1分類+定位

對于一幅含有貓的圖片,除了判別該圖像是貓,還想判斷貓?jiān)谀睦铩_@就是分類定位問題。提前知道有一個(gè)物體或多個(gè)物體是需要定位的。我們需要畫出一個(gè)框來包括整個(gè)貓咪。解決該任務(wù)的一個(gè)模型如下所示。首先,在一個(gè)預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)上生成圖像表示向量。然后用兩個(gè)全連接層。第一個(gè)全連接層用于圖像的分類。使用Softmax,交叉熵等損失函數(shù)來計(jì)算分類損失。第二個(gè)全連接層用于輸出位置值(x,y,w,h)。使用L1損失,平滑L1損失,L2等損失韓式來計(jì)算回歸損失。回歸和分類的區(qū)別在于,回歸的值是一個(gè)連續(xù)值,分類的值是一個(gè)離散值。網(wǎng)絡(luò)的整體損失是分類損失和回歸損失的加權(quán)和,需要手動(dòng)設(shè)置加權(quán)參數(shù)。網(wǎng)絡(luò)的訓(xùn)練方法可以是網(wǎng)絡(luò)整體一起訓(xùn)練,這種效果會(huì)好。但實(shí)際中有一個(gè)訓(xùn)練技巧,首先凍結(jié)卷積網(wǎng)絡(luò),分別訓(xùn)練來優(yōu)化兩個(gè)全連接部分網(wǎng)絡(luò)的參數(shù),直到兩個(gè)網(wǎng)絡(luò)收斂,最后再對整體網(wǎng)絡(luò)進(jìn)行訓(xùn)練/聯(lián)合調(diào)試。

S11.2.2姿態(tài)估計(jì)

在圖片中預(yù)測固定點(diǎn)的位置的想法可以應(yīng)用到分類+定位以外的其他問題上,比如姿態(tài)估計(jì)。姿態(tài)估計(jì)的任務(wù)是,輸入左邊的圖,輸出人的關(guān)節(jié)/點(diǎn)位(右邊的圖)。這樣網(wǎng)絡(luò)就能預(yù)測出這個(gè)人的姿態(tài)。一般在深度學(xué)習(xí)中,使用14個(gè)關(guān)節(jié)點(diǎn)的位置來定義人的姿態(tài)。

人體姿勢估計(jì)模型如下所示。模型接收圖片,然后使用使用CNN網(wǎng)絡(luò)來得到圖像表示向量,然后輸出14個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)值。分別計(jì)算14個(gè)關(guān)節(jié)點(diǎn)的回歸損失,這里使用L2損失。然后對所有損失求和。模型來自論文“DeepPose: Human Pose Estimation via Deep Neural Networks”。


S11.3目標(biāo)檢測

目標(biāo)檢測是一個(gè)內(nèi)容相當(dāng)豐富的話題,在計(jì)算機(jī)視覺領(lǐng)域占據(jù)核心地位。目標(biāo)檢測任務(wù)是,目標(biāo)的類別確定,根據(jù)輸入的圖像,每當(dāng)圖像中出現(xiàn)一個(gè)對象時(shí),確定這個(gè)對象的類別以及位置。與分類+定位不同的是,目標(biāo)檢測在最開始不確定圖像中對象的個(gè)數(shù)。

S11.3.1目標(biāo)檢測作為回歸任務(wù)?

如果將目標(biāo)檢測作為回歸任務(wù),那么對于下面第一張圖,需要預(yù)測4個(gè)值;第二張圖,需要預(yù)測16個(gè)值;而第三張圖,需要預(yù)測很多很多個(gè)值。但由于提前并不確定圖像中對象的個(gè)數(shù),因此需要預(yù)測的值的個(gè)數(shù)也不確定。因此將目標(biāo)檢測作為回歸任務(wù)會(huì)非常棘手。

S11.3.2目標(biāo)檢測作為分類任務(wù)

將目標(biāo)檢測作為分類任務(wù),應(yīng)用滑動(dòng)窗口的思想。將輸入圖像切分為小塊,將圖像塊輸入到CNN網(wǎng)絡(luò)中,進(jìn)行分類決策。當(dāng)網(wǎng)絡(luò)沒有見過的范圍之外的其他對象時(shí),就會(huì)將其識(shí)別為背景Background。但選擇圖像塊是一個(gè)問題,因?yàn)閳D像中對象的大小和位置不固定,那么圖像塊的大小,尺度,位置也不定。那么滑動(dòng)窗口方法就要測試成千上萬次。另外,每一個(gè)圖像塊都要輸入到CNN網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,計(jì)算復(fù)雜度過高,實(shí)際中不會(huì)這樣進(jìn)行。

S11.3.3Detection with Region Proposals

使用候選區(qū)域(Region Proposals)方法來進(jìn)行目標(biāo)檢測。該方法在深度學(xué)習(xí)中并不常見,更像傳統(tǒng)的計(jì)算機(jī)視覺方法。候選區(qū)域網(wǎng)絡(luò)采用信號(hào)處理,圖像處理等方法建立候選的區(qū)域。一般會(huì)在對象周圍給出上千個(gè)框,如下圖所示。相關(guān)論文: "Measuring the objectness of image windows","Selective Search for Object Recognition","BING: Binarized normed gradients for objectness estimation at 300fps","Edge boxes: Locating object proposals from edges"。使用候選區(qū)域的方法有Selective Search,R-CNN,Fast R-CNN,Faster R-CNN等。

Selective Search:一種常見的候選區(qū)域方法。該方法首先將輸入圖像切分為2000個(gè)候選區(qū)域,然后使用CNN網(wǎng)絡(luò)對候選區(qū)域進(jìn)行分類。這比窮盡所有的候選區(qū)域簡單一點(diǎn)。但區(qū)域中包含噪點(diǎn),它們中的大部分不是想要的。但召回率比較高。

R-CNN:論文"Rich feature hierarchies for accurate object detection and semantic segmentation"。給定輸入圖像,首先運(yùn)行區(qū)域選擇網(wǎng)絡(luò),找到大約2000個(gè)興趣區(qū)域(Regionis of Interest,RoI),并會(huì)邊界框進(jìn)行修正;接著由于興趣區(qū)域可能有不同尺寸,但都要輸入到CNN中進(jìn)行分類,因此,需要對興趣區(qū)域進(jìn)行切分,使得區(qū)域尺寸一致;最后將興趣區(qū)域輸入到CNN中進(jìn)行分類。但該算法的實(shí)現(xiàn)需要許多計(jì)算力;訓(xùn)練時(shí)間慢(84h);占用很多磁盤空間;區(qū)域選擇模型是固定的,并不學(xué)習(xí)參數(shù)。

Fast R-CNN:論文"Fast R-CNN"。給定輸入圖像,首先使用卷積網(wǎng)絡(luò)得到整個(gè)圖像的高分辨率特征映射;然后使用一些方法來選擇興趣區(qū)域RoI;接著使用RoI池化層來對固定RoI的尺寸;將固定尺寸的RoI輸入到全連接網(wǎng)絡(luò)中,進(jìn)行分類以及邊界框的回歸。因此模型中存在兩種損失。訓(xùn)練和測試時(shí)間都有大幅減少,測試時(shí)間耗在得到備選區(qū)域上。

Faster R-CNN:?論文"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks"。解決了備選區(qū)域耗時(shí)問題。在模型中插入候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network,RPN)來解決,RPN網(wǎng)絡(luò)從卷積映射圖中來預(yù)測候選區(qū)域。這使得網(wǎng)絡(luò)自身去做RoI的預(yù)測。RPN網(wǎng)絡(luò)有兩個(gè)損失,分類損失和邊界框損失。RPN的分類結(jié)果為兩類:有目標(biāo)或者沒有目標(biāo)。整個(gè)網(wǎng)絡(luò),給定輸入圖像,首先使用卷積網(wǎng)絡(luò)得到整個(gè)圖像的高分辨率特征映射;然后使用RPN來選擇興趣區(qū)域RoI;接著使用RoI池化層來對固定RoI的尺寸;將固定尺寸的RoI輸入到全連接網(wǎng)絡(luò)中,進(jìn)行分類以及邊界框的回歸。整個(gè)網(wǎng)絡(luò)有4個(gè)損失,RPN分類損失,RPN回歸損失,最終的分類損失(目標(biāo)的類別),最終的回歸損失。

S11.3.4Detection without Proposals

用于目標(biāo)檢測的另一種方法,是一種前饋模型,有兩種模型:YOLO和SSD。該類模型不對候選區(qū)域分別進(jìn)行處理,而是嘗試將其作為回歸問題處理。借助于大型網(wǎng)絡(luò),所有的預(yù)測一次完成。下圖是SSD模型方法。給定輸入圖像,將輸入圖像分成網(wǎng)格,例如7*7。以每個(gè)單元格為中心,分別畫一些基本邊界框,例如長的,寬的,正方形的三個(gè)基本邊界框。模型要預(yù)測邊界框與對象位置的偏移量;預(yù)測對象對應(yīng)類別的分?jǐn)?shù)。YOLO模型論文"You Only Look Once: Unified, Real-Time Object Detection"。SSD模型論文"SSD: Single-Shot MultiBox Detector"。


S11.4實(shí)例分割

實(shí)例分割是指,給定一幅圖片,輸出對象的位置,類別以及所在的整個(gè)區(qū)域。該任務(wù)像是混合了語義分割和目標(biāo)檢測的任務(wù)。Mask R-CNN模型是解決該問題的一個(gè)模型,如下所示。模型有兩個(gè)分支,上面的分支用于預(yù)測對象的類別和框,下面的分支對輸入候選框的像素進(jìn)行分類,確定該像素是不是屬于某個(gè)對象。模型論文 “Mask R-CNN”。


?

總結(jié)

以上是生活随笔為你收集整理的2017CS231n笔记_S11分割,定位,检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。