日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition

發(fā)布時(shí)間:2023/12/10 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這篇文章是來自羅格斯大學(xué)的Han Zhang等人的工作。由題目可知與上一篇文章一樣,本文的作者也關(guān)注到了富有語義的局部(利用Part,Part,Part,重要事情強(qiáng)調(diào)三遍),作者不滿足于CUB-2011數(shù)據(jù)庫提供的head和body的定位結(jié)果,提出了small semantic parts 生成的方法

論文中使用的網(wǎng)絡(luò)分為兩個(gè)子網(wǎng)絡(luò),一個(gè)用于檢測(cè),一個(gè)用于分類。檢測(cè)子網(wǎng)絡(luò)采用一個(gè)新的自頂向下的方法生成用于檢測(cè)的細(xì)小的語義局部候選(small semantic part candidates),而分類子網(wǎng)絡(luò)采用一個(gè)新的part layers,該層主要是從由檢測(cè)子網(wǎng)絡(luò)檢測(cè)得到的局部提取特征,然后用于分類。最后將兩個(gè)子網(wǎng)絡(luò)都整合到成一個(gè)端到端的網(wǎng)絡(luò),可以提供檢測(cè),定位多個(gè)語句局部以及對(duì)整個(gè)物體的識(shí)別功能。整個(gè)網(wǎng)絡(luò)系統(tǒng)如下圖所示

下面具體介紹這兩個(gè)子網(wǎng)絡(luò)的細(xì)節(jié)實(shí)現(xiàn)。

1. 檢測(cè)子網(wǎng)絡(luò)

1.1 Geometrically-constrained Top-down Region Proposals for Small Semantic Parts

首先是需要檢測(cè)出細(xì)小的語義局部,論文是提出一種幾何限制的自頂向下的區(qū)域建議方法。這種方法類似于K-最近鄰方法。

這個(gè)方法首先是計(jì)算在一個(gè)矩形框內(nèi)的物體的HOG特征,并用HOG來表示該物體的大致全局形狀,然后基于這個(gè)特征,對(duì)于給定的圖片,從訓(xùn)練集中跳出K個(gè)最近的鄰居(也就是K張圖片),對(duì)這些圖片的特定的局部區(qū)域會(huì)根據(jù)給定的測(cè)試圖片來調(diào)整尺寸大小。這里論文還提出可以根據(jù)兩種形式的先驗(yàn)信息來得到最終的part region proposals,第一種比較強(qiáng)的是考慮到部件(part)的類標(biāo)簽以及其幾何形狀限制,這樣最后得到的部件總數(shù)是N=km,而每個(gè)部件的proposals則是k個(gè),k就是KNN方法找出來的K張圖片數(shù)量,而m則是表示每張圖片的部件(part)數(shù)量;第二種則是相對(duì)弱的信息,不考慮類標(biāo)簽,這種情況下,單個(gè)部件的proposals數(shù)量就等于部件的總數(shù),也就是N=km

最終得到的數(shù)量會(huì)比傳統(tǒng)的生成region proposals的要少一個(gè)數(shù)量級(jí)。

1.2 Fast RCNN based Part Detection

得到上一步的part region proposals后,就使用[1]的方法來回歸每一個(gè)part region proposal,并且分配一個(gè)部件的標(biāo)簽。對(duì)于每個(gè)物體,有m個(gè)部件,則將會(huì)有(m+1)個(gè)輸出,包括m個(gè)部件的標(biāo)簽以及表示背景標(biāo)簽的0值。每一個(gè)輸出都包括一個(gè)回歸的bounding box–b,一個(gè)自信度得分s[0,1]。并且如[1]所介紹的,會(huì)訓(xùn)練部件分類器和part regressor。這里需要好好看看[1]這篇論文才能更好了解。

對(duì)所有的part region proposals的分類都是并行的,并且對(duì)于分類結(jié)果的判定,作者認(rèn)為每個(gè)部件在一個(gè)測(cè)試圖片中應(yīng)該最多只有一次檢測(cè),應(yīng)該每個(gè)部件應(yīng)該選擇擁有最高自信度得分的bounding box,同時(shí)會(huì)剔除得分低于閾值的,也就是對(duì)應(yīng)的部件是實(shí)際不存在的,論文中對(duì)鳥類的檢測(cè)中,腿部這個(gè)部件就是這種情況。


2. 分類子網(wǎng)絡(luò)

分類子網(wǎng)絡(luò)對(duì)傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu)中增加了3個(gè)新的網(wǎng)絡(luò)層,分別是semantic part RoI pooling layerpart-based fully connected layer(pfc)concatenation fully connected layer(cfc)

semantic part RoI pooling layer:這一層的作用是從檢測(cè)子網(wǎng)絡(luò)中檢測(cè)得到的語義部件提取特征,并根據(jù)一個(gè)預(yù)定義好的順序重新組織這些特征。

part-based fully connected layer(pfc):這一層主要是將屬于同一部件的連接在一起,以便獲得mid-level part-specific features,也就是中層的特定部件特征。

concatenation fully connected layer(cfc):這一層則是將pfc層的結(jié)果連接在一起,也就是連接所有的部件,從而得到一個(gè)完整的網(wǎng)絡(luò),可以同時(shí)訓(xùn)練所有的部件。

2.1 Semantic Part RoI Pooling Layer

傳統(tǒng)的pooling層主要是用于增加平移不變性以及減少網(wǎng)絡(luò)的空間大小,即可以降低內(nèi)存的使用。但是不是所有特征圖中的特征都有用于分類的。

論文提出的新的pooling層是可以將pooling運(yùn)算只使用在物體的有語義的部件上的。

首先,每個(gè)部件區(qū)域會(huì)分成H×W(論文中給出的也就是3*3,文章開頭給出的圖中有標(biāo)明大小)大小的子窗口,然后在這些子窗口上執(zhí)行max-pooling運(yùn)算,對(duì)于沒有出現(xiàn)在語義部件的特征則拋棄。

然后,不同部件的經(jīng)過pooling操作的特征會(huì)根據(jù)一個(gè)預(yù)定好的順序排列(論文中給出鳥類部件的順序)。

2.2 Part-based Fully Connected Layer

這一個(gè)新的全連接層中每個(gè)節(jié)點(diǎn)只會(huì)連接同一種部件中的特征,目的是得到一個(gè)中級(jí)的部件信息,可以連接低級(jí)的圖像特征和高級(jí)的全局信息,同時(shí)也比傳統(tǒng)的全連接層的參數(shù)更少。

2.3 Concatenation Fully Connected Layer

之前很多基于部件的CNN方法都是為每個(gè)部件訓(xùn)練單獨(dú)的網(wǎng)絡(luò),然后再使用SVM來對(duì)聯(lián)合起來的特征向量進(jìn)行分類。而論文則提出這個(gè)新的全連接層來建立一個(gè)完整的網(wǎng)絡(luò)來處理不同的部件。這樣做的好處是可以將分類的誤差傳播回所有的部件,從而在訓(xùn)練的時(shí)候可以更新部件的權(quán)重。


3 Unifying Two Sub-networks

這里介紹如何將兩個(gè)子網(wǎng)絡(luò)聯(lián)合在一起形成一個(gè)統(tǒng)一的網(wǎng)絡(luò)。

作者是參考了[2]的做法——使用交替優(yōu)化的方法,分為3個(gè)步驟。

第一步,分別使用ImageNet的預(yù)訓(xùn)練模型分別微調(diào)兩個(gè)子網(wǎng)絡(luò),在這一步中,分類子網(wǎng)絡(luò)中使用的是oracle的部件標(biāo)注,而不是部件檢測(cè)的結(jié)果,同時(shí),這一步,兩個(gè)子網(wǎng)絡(luò)有著不同的卷積層。

第二步,使用分類子網(wǎng)絡(luò)的前n個(gè)卷積層代替檢測(cè)子網(wǎng)絡(luò)中的對(duì)應(yīng)卷積層,然后微調(diào)檢測(cè)子網(wǎng)絡(luò)中其他獨(dú)立的網(wǎng)絡(luò)層,這里n是一個(gè)超參數(shù),需要根據(jù)最終統(tǒng)一網(wǎng)絡(luò)的性能和效率來進(jìn)行調(diào)試。

最后一步,則使用來自檢測(cè)子網(wǎng)絡(luò)的檢測(cè)結(jié)果對(duì)分類子網(wǎng)絡(luò)進(jìn)行微調(diào),除了共享的卷積層外,即第二步選擇的前n個(gè)卷積層不用進(jìn)行微調(diào)。因此,兩個(gè)子網(wǎng)絡(luò)將擁有相同的卷積層,并最終變成一個(gè)統(tǒng)一的網(wǎng)絡(luò)。


4 小結(jié)

總的來說,文章作者基于鳥的形狀特性,在Proposal生成階段構(gòu)造了幾何限制條件,并基于此提出了一種Part Detection的方法。而Parts在鳥類Fine-Grained分類問題上對(duì)結(jié)果的提高有明顯幫助。作者將Part Detection和Classification結(jié)合成一個(gè)End-to-End的結(jié)構(gòu),同時(shí)進(jìn)行訓(xùn)練與測(cè)試,取得了優(yōu)異的結(jié)果。

這篇論文也是將重點(diǎn)放到特定部件上,不過其用的數(shù)據(jù)庫中是有提供bounding box的標(biāo)注的,相比上一篇看的論文的自動(dòng)檢測(cè)部件方法,這里的檢測(cè)網(wǎng)絡(luò)和分類網(wǎng)絡(luò),如果對(duì)于沒有任何bounding box的標(biāo)注的數(shù)據(jù)庫的話,可能就會(huì)需要人工標(biāo)注了,工作量就相對(duì)比較大了。不過,這也說明了使用部件來進(jìn)行精細(xì)圖像分類是目前比較熱門的一個(gè)方向,確實(shí)可以好好往這方面想想,還有什么可以改進(jìn)的。


其他參考論文:

[1] Fast RCNN
[2] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

總結(jié)

以上是生活随笔為你收集整理的论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。