日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

發(fā)布時(shí)間:2023/12/10 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這次閱讀的文章是Picking Deep Filter Responses for Fine-grained Image Recognition,這篇文章是來自上海交通大學(xué)Xiaopeng Zhang等人的工作,該文章提出了一種對(duì)深度網(wǎng)絡(luò)中的filter進(jìn)行挑選的方法,基于挑選的filter的結(jié)果構(gòu)建復(fù)雜特征表達(dá)。


0. 摘要

識(shí)別精細(xì)類別的子類別比較困難的原因是其在一些特別的部位上有比較高的局部和細(xì)微的不同。(due to the highly localized and subtle differences in some specific parts)

本文提出一種基于挑選深度filter response的兩個(gè)步驟的框架。步驟流程如下圖所示:

第一步是找出對(duì)于特別的部位(specific patterns)比較重要的較敏感的filters,然后通過選擇的新的正樣本和再訓(xùn)練的部件模型中交替迭代來學(xué)習(xí)一組部件檢測(cè)器(a set of part detectors)

第二步則是通過Spatially Weighted Fisher Vector(SWFV)編碼來選擇 filter response,這里根據(jù)Fisher Vector本身的重要性來給每個(gè)Fisher Vector分配一個(gè)權(quán)重,并將其合并到最終的圖片表示中(pool it into final image representation)。


1. 介紹

目前大多數(shù)精細(xì)分類都需要在訓(xùn)練階段或者測(cè)試階段需要有物體或者部件的標(biāo)注,在一些比較新的工作則只需要在訓(xùn)練階段需要,但是對(duì)于大規(guī)模的數(shù)據(jù)庫(kù),標(biāo)注是一個(gè)非常耗費(fèi)時(shí)間和精力的事情,同時(shí)在實(shí)際應(yīng)用中也需要用戶手工標(biāo)注,因此能夠自動(dòng)發(fā)現(xiàn)部件就可以擺脫進(jìn)行標(biāo)注這項(xiàng)工作,但是自動(dòng)發(fā)現(xiàn)標(biāo)注是一個(gè)經(jīng)典的先有雞還是先有蛋的問題——發(fā)現(xiàn)一個(gè)部件例子需要有一個(gè)準(zhǔn)確的外觀模型,但是沒有部件例子就不能學(xué)習(xí)到一個(gè)好的準(zhǔn)確的外觀模型。(without an accurate appearance model, examples of a part cannot be discovered, and an accurate appearance model cannot be learned without having part examples.)

本文的第一個(gè)貢獻(xiàn)是為精細(xì)圖像識(shí)別提出了一個(gè)自動(dòng)部件檢測(cè)的方法。首先是基于深度 filters的選擇性,提出一個(gè)新的用于學(xué)習(xí)檢測(cè)器的初始化方法。這個(gè)方法學(xué)習(xí)到的檢測(cè)器都是比較弱的,甚至大部分的檢測(cè)器都與我們的任務(wù)無關(guān),但是這個(gè)方法的關(guān)鍵是精心選擇具有重要和始終如一的響應(yīng)的深度 filters。其次,通過迭代選擇每類的正樣本和再訓(xùn)練正則化的部件模型來學(xué)習(xí)一組檢測(cè)器。使用正則化是考慮到正類樣本的多樣性和可靠性。

第二個(gè)貢獻(xiàn)是提出了一種非常適合精細(xì)圖像表示的特征,也就是將CNN的深度 filter responses作為局部的描述符,然后使用SWFV方法來對(duì)其進(jìn)行編碼。這個(gè)做法是可以更強(qiáng)調(diào)對(duì)識(shí)別有關(guān)鍵作用的響應(yīng),以及丟棄掉沒有用的響應(yīng)。

接下來是對(duì)論文提出的兩個(gè)步驟的具體介紹,分別是指學(xué)習(xí)部件檢測(cè)器以及使用SWFV編碼得到圖像表示進(jìn)行分類兩個(gè)步驟。


2. 學(xué)習(xí)部件檢測(cè)器(Learning Part Detectors)

對(duì)于部件檢測(cè)器的學(xué)習(xí)方法,分3個(gè)步驟,分別是正樣本初始化,正則化檢測(cè)器的訓(xùn)練以及檢測(cè)器的挑選(positive sample initialization, regularized detector training,and detector selection)。整個(gè)過程是一個(gè)弱監(jiān)督的過程,只需要訓(xùn)練樣本的標(biāo)簽,不需要任何物體或者部件級(jí)別的標(biāo)注。

選擇 Filters:正樣本初始化

利用CNN的不同層的濾波器是對(duì)特定部件敏感的,比如底層的濾波器主要是對(duì)角落以及一些邊緣連接,而高層則是對(duì)有更有語(yǔ)義意義的區(qū)域敏感。當(dāng)然,這些濾波器作為檢測(cè)器來說是比較弱的。

首先是利用選擇性搜索(selective search)生成一個(gè)大量的區(qū)域建議(generate a large pool of region proposals),以及隨機(jī)采樣的一個(gè)100萬個(gè)patches的子集。每個(gè)proposal調(diào)整成大小是107*107。然后,對(duì)所有channels中的響應(yīng)(應(yīng)該就是指特征圖,feature map)進(jìn)行排序,并選出排在前面1萬個(gè)響應(yīng),最后會(huì)得到得分排在前1萬區(qū)域的響應(yīng)分布。這個(gè)分布是稀疏的,論文在一個(gè)鳥類數(shù)據(jù)庫(kù)上做的分布顯示前面5%的channels包含超過90%的響應(yīng)。
分布如下圖所示:

這里,作者將這些channels稱為有區(qū)分性的濾波器(We refer to these channels as distinctive filters),下圖展示了在鳥類數(shù)據(jù)集上所挑選到的有區(qū)分性和沒有區(qū)分性的濾波器結(jié)果。

對(duì)這些選擇出來的濾波器,挑選具有排在前m(論文中m=100)個(gè)響應(yīng)的patches作為對(duì)應(yīng)的部件模型的初始正樣本。

正則化檢測(cè)器訓(xùn)練

選擇好初始的正樣本后,通過優(yōu)化一個(gè)線性SVM分類器來學(xué)習(xí)對(duì)應(yīng)的檢測(cè)器。

由于初始的正樣本并不是很好開始(如下圖所示,有些樣本中沒有準(zhǔn)確定位部件的位置),所以這里訓(xùn)練SVM檢測(cè)器是需要進(jìn)行迭代。

每次迭代,在前一輪迭代中排在前10%的檢測(cè)器都會(huì)作為新的正樣本。但是直接使用這個(gè)方法并不能有多大提高,因?yàn)閷W(xué)習(xí)到的檢測(cè)器容易對(duì)初始的正樣本過擬合,為了解決這個(gè)問題,論文是選擇將訓(xùn)練集均分成2個(gè)沒有重疊的子集,一個(gè)作為訓(xùn)練集,另一個(gè)作為驗(yàn)證集,并且在迭代過程中重復(fù)交換作為訓(xùn)練集和驗(yàn)證集的子集,直到收斂為止。

訓(xùn)練物體/部件檢測(cè)器的另一個(gè)問題就是最好的檢測(cè)器總是會(huì)鎖定幾個(gè)容易檢測(cè)的子類,而不能從大部分其他子類中發(fā)現(xiàn)到這些子類的正樣本。

為了解決這個(gè)問題,論文提出了一個(gè)在每輪訓(xùn)練中對(duì)每類的正樣本使用正則化的損失函數(shù)。

以上步驟如下列算法步驟所示

檢測(cè)器的選擇

論文提到上述算法最后會(huì)得到數(shù)十個(gè)檢測(cè)器,這里需要進(jìn)一步挑選,通過這些檢測(cè)器的識(shí)別準(zhǔn)確率進(jìn)行挑選,最后剔除識(shí)別率低于40%的檢測(cè)器,最終得到的檢測(cè)器會(huì)比較少,論文中的實(shí)驗(yàn)是得到少于10個(gè)。


3. Bag of Parts Image Representation

在得到上述訓(xùn)練好的檢測(cè)器后,就可以從每種圖片中檢測(cè)到對(duì)應(yīng)的部件。

一個(gè)直接的可以得到部件表示的方法就是直接使用從這些檢測(cè)器檢測(cè)到的部件中提取CNN的特征,這里主要是使用CNN的倒數(shù)第二個(gè)全連接層的特征,并且之前大部分工作都是如此做法。這種做法有兩個(gè)限制,一是背景的干擾,二是來自檢測(cè)的不準(zhǔn)確性,可能會(huì)丟失關(guān)鍵的細(xì)節(jié)。

論文提出的新的方法是計(jì)算部件顯著性圖和將CNN特征和SWFV合并在一起(we propose to compute part saliency map and pool CNN features with Spatially Weighted Fisher Vector(SWFV-CNN))。


4. 小結(jié)

文章中報(bào)告的結(jié)果表明,利用該方法在CUB-200-2011和Stanford Dogs兩個(gè)數(shù)據(jù)集上都取得了較優(yōu)異的成果。值得一提的是,該方法并未利用人工標(biāo)注信息(bbox+parts),在測(cè)試集上相比于利用標(biāo)注信息的方法有了顯著提高。該方法并非采用End-to-End的結(jié)構(gòu),在中間的環(huán)節(jié)如Spatial weighting, FV pooling需要針對(duì)數(shù)據(jù)分布的不同而做細(xì)致調(diào)整。

大概簡(jiǎn)單看完,論文的想法是挺好的,通過自動(dòng)檢測(cè)部件來避免工作量非常大的人工標(biāo)注,由于深度學(xué)習(xí),特別是CNN的強(qiáng)大,現(xiàn)在對(duì)數(shù)據(jù)庫(kù)的規(guī)模都是抱著越大越好,如果需要對(duì)圖片都進(jìn)行人工標(biāo)注,這真是一件非常痛苦的事情。

不過感覺論文中的關(guān)鍵應(yīng)該就是第一步中的選擇濾波器了,如何挑選到真正有用的濾波器作為用于檢測(cè)部件的detector就是非常重要,論文的做法似乎是對(duì)CNN中的所有特征圖進(jìn)行一個(gè)排序,首先是分不同channel,然后根據(jù)出現(xiàn)的頻率做一個(gè)分布,這些channel就被作為是有區(qū)分性的detector,并根據(jù)這個(gè)來選擇初始的正樣本。接著用這些正樣本來進(jìn)行挑選檢測(cè)器,使用SVM分類器來進(jìn)行迭代訓(xùn)練,并加入正則化來增加多樣性和可靠性。

不過對(duì)于具體的實(shí)現(xiàn)細(xì)節(jié)還是不太清楚,需要再多讀幾遍。

總結(jié)

以上是生活随笔為你收集整理的论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。