cnn 句向量_深度学习目标检测Fast R-CNN论文解读
前言
我們知道,R-CNN存在著以下幾個(gè)問(wèn)題:
SPP-net算法解決了R-CNN中重復(fù)卷積的問(wèn)題,但是R-CNN的其他缺點(diǎn)在SPP-net上依舊存在。
馨意:深度學(xué)習(xí)目標(biāo)檢測(cè)SPP-net論文解讀?zhuanlan.zhihu.comFast R-CNN是R-CNN作者對(duì)RCNN的改進(jìn)版。Fast R-CNN只進(jìn)行一次特征提取,并將RCNN的SVMs使用softmax所替代,并將分類(lèi)目標(biāo)函數(shù)和框預(yù)測(cè)目標(biāo)函數(shù)合并為多任務(wù)目標(biāo)函數(shù),速度和精度都大大提高。
論文名稱:
Fast R-CNN
論文下載:
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf?www.cv-foundation.org論文解讀:
Fast R-CNN架構(gòu),該架構(gòu)屬于端到端的多任務(wù)訓(xùn)練。上圖即為Fast R-CNN架構(gòu),具體流程為:
RoI pooling layer
RoI pooling layer是在SPP-net中使用的空間金字塔池化層SPP的特例,SPP有三層,而在RoI pooling layer中金字塔層只有一個(gè)。
Pre-trained networks
用了3個(gè)預(yù)訓(xùn)練的ImageNet網(wǎng)絡(luò)(CaffeNet/VGG_CNN_M_1024/VGG16)。
預(yù)訓(xùn)練的網(wǎng)絡(luò)初始化Fast R-CNN要經(jīng)過(guò)三次變形:
Fine-tuning
我們知道,SPPnet只能微調(diào)SPP層后面的全連接層,所以SPPnet就可以采用隨機(jī)梯度下降(SGD)來(lái)訓(xùn)練。
SPPnet采用的RoI-centric sampling:從所有圖片的所有RoI中均勻取樣,這樣每個(gè)SGD的mini-batch中包含了不同圖像中的樣本。
反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層,通常會(huì)覆蓋整個(gè)圖像,如果一個(gè)一個(gè)用RoI-centric sampling的話就又慢又耗內(nèi)存。
Fast R-CNN采用的image-centric sampling:mini-batch采用層次取樣,先對(duì)圖像取樣,再對(duì)RoI取樣,同一圖像的RoI共享計(jì)算和內(nèi)存。 另外,Fast R-CNN在一次微調(diào)中聯(lián)合優(yōu)化softmax分類(lèi)器和bbox回歸。
看似一步,實(shí)際包含了:多任務(wù)損失(multi-task loss)、小批量取樣(mini-batch sampling)、RoI pooling層的反向傳播(backpropagation through RoI pooling layers)、SGD超參數(shù)(SGD hyperparameters)。
Multi-task loss
兩個(gè)輸出層,一個(gè)對(duì)每個(gè)RoI輸出離散概率分布:
一個(gè)輸出bounding box回歸的位移:
k表示類(lèi)別的索引,前兩個(gè)參數(shù)是指相對(duì)于object proposal尺度不變的平移,后兩個(gè)參數(shù)是指對(duì)數(shù)空間中相對(duì)于object proposal的高與寬。把這兩個(gè)輸出的損失寫(xiě)到一起:
k*是真實(shí)類(lèi)別,式中第一項(xiàng)是分類(lèi)損失,第二項(xiàng)是定位損失,L由R個(gè)輸出取均值而來(lái)。
Mini-batch sampling
在微調(diào)時(shí),每個(gè)SGD的mini-batch是隨機(jī)找兩個(gè)圖片,R為128,因此每個(gè)圖上取樣64個(gè)RoI。從object proposal中選25%的RoI,就是和ground-truth交疊至少為0.5的。剩下的作為背景。
在調(diào)優(yōu)訓(xùn)練時(shí),每一個(gè)mini-batch中首先加入N張完整圖片,而后加入從N張圖片中選取的R個(gè)候選框。這R個(gè)候選框可以復(fù)用N張圖片前5個(gè)階段的網(wǎng)絡(luò)特征。
實(shí)際選擇N=2, R=128-> 每一個(gè)mini-batch中首先加入2張完整圖片,而后加入從2張圖片中選取的128個(gè)候選框。這128個(gè)候選框可以復(fù)用2張圖片前5個(gè)階段的網(wǎng)絡(luò)特征。
總結(jié)
- 最后一層的softmax換成兩個(gè):一個(gè)是對(duì)區(qū)域的分類(lèi),另一個(gè)是對(duì)Bounding box的微調(diào)。
- 訓(xùn)練時(shí)所有特征不在存到硬盤(pán)中,提升了速度。
- 添加ROI pooling層,實(shí)現(xiàn)了不同大小區(qū)域特征圖的pooling。
參考
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf?www.cv-foundation.org人工智能_目標(biāo)檢測(cè)_嗶哩嗶哩 (゜-゜)つロ 干杯~-bilibili?www.bilibili.comFast RCNN算法詳解_網(wǎng)絡(luò)_AI之路-CSDN博客?blog.csdn.netRCNN學(xué)習(xí)筆記(4):fast rcnn?blog.csdn.net總結(jié)
以上是生活随笔為你收集整理的cnn 句向量_深度学习目标检测Fast R-CNN论文解读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 油锅着火时,用什么方法灭火更合适?蚂蚁庄
- 下一篇: pascal行人voc_利用Pascal