日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 《Selective Search for Object Recognition》

發(fā)布時(shí)間:2025/3/20 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记 《Selective Search for Object Recognition》 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記 《Selective Search for Object Recognition》

項(xiàng)目網(wǎng)址:http://koen.me/research/selectivesearch/

一句話概括,用了segmentation和grouping的方法來進(jìn)行object proposal,然后用了一個(gè)SVM進(jìn)行物體識別。

這篇論文是2012 IJCV上的一篇文章,主要介紹了選擇性搜索(Selective Search)的方法。物體識別(Object Recognition),在圖像中找到確定一個(gè)物體,并找出其為具體位置,經(jīng)過長時(shí)間的發(fā)展已經(jīng)有了不少成就。之前的做法主要是基于窮舉搜索(Exhaustive Search),選擇一個(gè)窗口(window)掃描整張圖像(image),改變窗口的大小,繼續(xù)掃描整張圖像。顯然這種做法是比較“原始的”,改變窗口大小,掃描整張圖像,直觀上就給人一種非常耗時(shí),結(jié)果太雜的印象。作者能夠突破思維定式,從另一個(gè)角度給出一種簡單而又有效的方法,油生敬意。我們不禁會想,為什么這么簡單的方法之前沒有想到呢。我想這個(gè)應(yīng)該跟對圖像認(rèn)識的觀念有關(guān)系,在都不知道如何做物體識別(Object Recognition)的時(shí)候,較為“原始的”窮舉搜索方法,給了大家一個(gè)方向,之后所有的人都沿著這個(gè)方向走,最后就忽略了對其他方向的認(rèn)識。花費(fèi)了這么多年,才找到另一個(gè)方向,這個(gè)轉(zhuǎn)變實(shí)屬不易。扯遠(yuǎn)了,總之,這種方法確實(shí)讓人耳目一新。

其實(shí)論文主要的部分在于選擇性的搜索,這里其實(shí)會有幾個(gè)關(guān)鍵點(diǎn):

1. 適應(yīng)不同尺度(Capture All Scales):窮舉搜索(Exhaustive Selective)通過改變窗口大小來適應(yīng)物體的不同尺度,選擇搜索(Selective Search)同樣無法避免這個(gè)問題。算法采用了圖像分割(Image Segmentation)以及使用一種層次算法(Hierarchical Algorithm)有效地解決了這個(gè)問題。(區(qū)域的有效選擇)
2. 多樣化(Diversification):單一的策略無法應(yīng)對多種類別的圖像。使用顏色(color)、紋理(texture)、大小(size)等多種策略對(【1】中分割好的)區(qū)域(region)進(jìn)行合并。(合并策略)
?3. 速度快(Fast to Compute):算法,就像功夫一樣,唯快不破!(算法速度)
?

What is an object?


如何判別哪些region屬于同一個(gè)物體?這個(gè)問題找不到一個(gè)統(tǒng)計(jì)的答案:

  • 對于圖b,我們可以根據(jù)顏色來分開兩只貓,但是不能根據(jù)紋理來分開。
  • 對于圖c,我們可以根據(jù)紋理來找到變色龍,但是不能根據(jù)顏色來找到。
  • 對于圖d,我們將車輪歸類成車的一部分,既不是因?yàn)轭伾嘟?#xff0c;也不是因?yàn)榧y理相近,而是因?yàn)檐囕喐郊釉谲嚨纳厦?#xff08;個(gè)人理解是因?yàn)檐嚒鞍边@車輪)
    所以,我們需要用多種策略結(jié)合,才有可能找到圖片中的所有物體。
    另外,圖a說明了物體之間可能具有的層級關(guān)系,或者說一種嵌套的關(guān)系——勺子在鍋里面,鍋在桌子上。

Multiscale


由于物體之間存在層級關(guān)系,所以Selective Search用到了Multiscale的思想。從上圖看出,Select Search在不同尺度下能夠找到不同的物體。
注意,這里說的不同尺度,不是指通過對原圖片進(jìn)行縮放,或者改變窗口大小的意思,而是,通過分割的方法將圖片分成很多個(gè)region,并且用合并(grouping)的方法將region聚合成大的region,重復(fù)該過程直到整張圖片變成一個(gè)最大的region。這個(gè)過程就能夠生成multiscale的region了,而且,也符合了上面“物體之間可能具有層級關(guān)系”的假設(shè)。

Selective Search方法簡介

  • 使用Efficient GraphBased Image Segmentation中的方法來得到region
  • 得到所有region之間兩兩的相似度
  • 合并最像的兩個(gè)region
  • 重新計(jì)算新合并region與其他region的相似度
  • 重復(fù)上述過程直到整張圖片都聚合成一個(gè)大的region
  • 使用一種隨機(jī)的計(jì)分方式給每個(gè)region打分,按照分?jǐn)?shù)進(jìn)行ranking,取出top k的子集,就是selective search的結(jié)果
  • ?

    策略多樣化(Diversification Strategies)

    論文作者給出了兩個(gè)方面的多樣化策略:顏色空間多樣化,相似多樣化。

    顏色空間多樣化

    作者采用了8中不同的顏色方式,主要是為了考慮場景以及光照條件等。這個(gè)策略主要應(yīng)用于【1】中圖像分割算法中原始區(qū)域的生成。主要使用的顏色空間有:(1)RGB,(2)灰度I,(3)Lab,(4)rgI(歸一化的rg通道加上灰度),(5)HSV,(6)rgb(歸一化的RGB),(7)C(具體請看論文【2】以及【5】),(8)H(HSV的H通道)

    相似度計(jì)算多樣化

    在區(qū)域合并的時(shí)候有說道計(jì)算區(qū)域之間的相似度,論文章介紹了四種相似度的計(jì)算方法。

    (1)顏色相似度

    使用L1-norm歸一化獲取圖像每個(gè)顏色通道的25 bins的直方圖,這樣每個(gè)區(qū)域都可以得到一個(gè)75維的向量,區(qū)域之間顏色相似度通過下面的公式計(jì)算:

    ?在區(qū)域合并過程中使用需要對新的區(qū)域進(jìn)行計(jì)算其直方圖,計(jì)算方法:

    距離的計(jì)算方式很簡單,就是對各個(gè)通道計(jì)算顏色直方圖,然后取各個(gè)對應(yīng)bins的直方圖最小值。這樣做的話兩個(gè)區(qū)域合并后的直方圖也很好計(jì)算,直接通過直方圖大小加權(quán)區(qū)域大小然后除以總區(qū)域大小就好了。

    (2)紋理(texture)相似度

    ?這里的紋理采用SIFT-Like特征。具體做法是對每個(gè)顏色通道的8個(gè)不同方向計(jì)算方差σ=1的高斯微分(GaussianDerivative),每個(gè)通道每個(gè)顏色獲取10 bins的直方圖(L1-norm歸一化),這樣就可以獲取到一個(gè)240維的向量,區(qū)域之間紋理相似度計(jì)算方式和顏色相似度計(jì)算方式類似,合并之后新區(qū)域的紋理特征計(jì)算方式和顏色特征計(jì)算相同:

    紋理距離計(jì)算方式和顏色距離幾乎一樣,我們計(jì)算每個(gè)區(qū)域的快速sift特征,其中方向個(gè)數(shù)為8,3個(gè)通道,每個(gè)通道bins為10,對于每幅圖像得到240維的紋理直方圖,然后通過上式計(jì)算距離。

    (3)大小(size)相似度

    ?這里的大小是指區(qū)域中包含像素點(diǎn)的個(gè)數(shù)。使用大小的相似度計(jì)算,主要是為了盡量讓小的區(qū)域先合并:

    如果僅僅是通過顏色和紋理特征合并的話,很容易使得合并后的區(qū)域不斷吞并周圍的區(qū)域,后果就是多尺度只應(yīng)用在了那個(gè)局部,而不是全局的多尺度。因此我們給小的區(qū)域更多的權(quán)重,這樣保證在圖像每個(gè)位置都是多尺度的在合并。

    (4)吻合(fit)相似度

    這里主要是為了衡量兩個(gè)區(qū)域是否更加“吻合”,其指標(biāo)是合并后的區(qū)域的BoundingBox(能夠框住區(qū)域的最小矩形(沒有旋轉(zhuǎn)))越小,其吻合度越高。其計(jì)算方式:

    不僅要考慮每個(gè)區(qū)域特征的吻合程度,區(qū)域的吻合度也是重要的,吻合度的意思是合并后的區(qū)域要盡量規(guī)范,不能合并后出現(xiàn)斷崖的區(qū)域,這樣明顯不符合常識,體現(xiàn)出來就是區(qū)域的外接矩形的重合面積要大。

    最后將上述相似度計(jì)算方式組合到一起,可以寫成如下,其中:

    補(bǔ)充一點(diǎn),參數(shù)初始化多樣性

    我們基于基于圖的圖像分割得到初始區(qū)域,而這個(gè)初始區(qū)域?qū)τ谧罱K的影響是很大的,因此我們通過多種參數(shù)初始化圖像分割也就是Efficient GraphBased Image Segmentation 的結(jié)果,也算是擴(kuò)充了多樣性。

    如何對region打分?

    這里我不是太確定,但是按照作者描述以及個(gè)人理解,覺得確實(shí)就是隨機(jī)地打分。

    通過上述的步驟我們能夠得到很多很多的區(qū)域,但是顯然不是每個(gè)區(qū)域作為目標(biāo)的可能性都是相同的,因此我們需要衡量這個(gè)可能性,這樣就可以根據(jù)我們的需要篩選區(qū)域建議個(gè)數(shù)啦。

    這篇文章做法是,給予最先合并的圖片塊較大的權(quán)重,比如最后一塊完整圖像權(quán)重為1,倒數(shù)第二次合并的區(qū)域權(quán)重為2以此類推。但是當(dāng)我們策略很多,多樣性很多的時(shí)候呢,這個(gè)權(quán)重就會有太多的重合了,排序不好搞啊。文章做法是給他們乘以一個(gè)隨機(jī)數(shù),畢竟3分看運(yùn)氣嘛,然后對于相同的區(qū)域多次出現(xiàn)的也疊加下權(quán)重,畢竟多個(gè)方法都說你是目標(biāo),也是有理由的嘛。這樣我就得到了所有區(qū)域的目標(biāo)分?jǐn)?shù),也就可以根據(jù)自己的需要選擇需要多少個(gè)區(qū)域了。

    對于某種合并策略$j$,定義$r^{j}_{i}$為位置在$i$的region,其中i代表它在合并時(shí)候的所位于的層數(shù)(i=1表示在整個(gè)圖片為一個(gè)region的那一層,往下則遞增),那么定義其分?jǐn)?shù)為$v^{j}_{i}=RND \times i$,其中$RND$為[0, 1]之間的一個(gè)隨機(jī)值。

    使用Selective Search進(jìn)行Object Recogntion


    大致流程如上圖。用的是傳統(tǒng)的“特征+SVM”方法:

    • 特征用了SIFT,原博客是HoG和BoW
    • SVM用的是SVM with a histogram intersection kernel
    • 訓(xùn)練時(shí)候:正樣本:groundtruth,負(fù)樣本,seletive search出來的region中overlap在20%-50%的。
    • 迭代訓(xùn)練:一次訓(xùn)練結(jié)束后,選擇分類時(shí)的false positive放入了負(fù)樣本中,再次訓(xùn)練

    這里有比較通俗的說明:

    通過前面的區(qū)域合并,可以得到一些列物體的位置假設(shè)L。接下來的任務(wù)就是如何從中找出物體的真正位置并確定物體的類別。 常用的物體識別特征有HOG(Histograms of oriented gradients)和 bag-of-words 兩種特征。在窮舉搜索(Exhaustive Search)方法中,尋找合適的位置假設(shè)需要花費(fèi)大量的時(shí)間,能選擇用于物體識別的特征不能太復(fù)雜,只能使用一些耗時(shí)少的特征。由于選擇搜索(Selective Search)在得到物體的位置假設(shè)這一步效率較高,其可以采用諸如SIFT等運(yùn)算量大,表示能力強(qiáng)的特征。在分類過程中,系統(tǒng)采用的是SVM。

    特征生成
    系統(tǒng)在實(shí)現(xiàn)過程中,使用color-SIFT特征(Evaluating color descriptors for object and scene recognition)以及spatial pyramid divsion方法(Spatial pyramid matching for recognizing natural scene categories)。在一個(gè)尺度下σ=1.2下抽樣提取特征。使用SIFT、Extended OpponentSIFT(Illumination-invariant descriptors for discrimative visual object categorization,Technical report, University of Amsterdam)、RGB-SIFT(Evaluating color descriptors for object and scene recognition)特征,在四層金字塔模型 1×1、2×2、3×3、4×4,提取特征,可以得到一個(gè)維的特征向量。(注:對SIFT特征以及金字塔模型還不是很了解,講得不是很清楚)
    訓(xùn)練過程
    訓(xùn)練方法采用SVM。首先選擇包含真實(shí)結(jié)果(ground truth)的物體窗口作為正樣本(positive examples),選擇與正樣本窗口重疊20%~50%的窗口作為負(fù)樣本(negative examples)。在選擇樣本的過程中剔除彼此重疊70%的負(fù)樣本,這樣可以提供一個(gè)較好的初始化結(jié)果。在重復(fù)迭代過程中加入hard negative examples(得分很高的負(fù)樣本)【9】,由于訓(xùn)練模型初始化結(jié)果較好,模型只需要迭代兩次就可以了。(樣本的篩選很重要!!)

    評估(evalutation)

    很自然地,通過算法計(jì)算得到的包含物體的Bounding Boxes與真實(shí)情況(ground truth)的窗口重疊越多,那么算法性能就越好。這是使用的指標(biāo)是平均最高重疊率ABO(Average Best Overlap)。對于每個(gè)固定的類別 c,每個(gè)真實(shí)情況(ground truth)表示為 ,令計(jì)算得到的位置假設(shè)L中的每個(gè)值l,那么 ABO的公式表達(dá)為:

    ? ? ? ?重疊率的計(jì)算方式:

    ? ? ? ?上面結(jié)果給出的是一個(gè)類別的ABO,對于所有類別下的性能評價(jià),很自然就是使用所有類別的ABO的平均值MABO(Mean Average Best Overlap)來評價(jià)。
    ?

    ?

    參考資料:

    【1】CSDN:Efficient Graph-Based Image Segmentation

    【2】Selective Search

    【3】CSDN:Selective Search for Object Recognition

    【4】Recognition Using Regions

    【5】Color Invariance

    【6】Evaluating color descriptors for object and scene recognition?

    【7】Spatial pyramid matching for recognizing natural scene categories

    【8】Illumination-invariant descriptors for discrimative visual object categorization,Technical report, University of Amsterdam(沒有找到相關(guān)鏈接)

    【9】Object detection with discriminatively trained part based models?

    【10】相關(guān)源代碼(matlab)

    【11】C++簡版代碼

    【12】CSDN:Selective Search for Object Recognition

    【13】CSDN:?

    圖像分割—基于圖的圖像分割(Graph-BasedImageSegmentation)

    ?

    之上是轉(zhuǎn)載的一篇博客添加了部分缺少的內(nèi)容,這里簡單說明一下個(gè)人理解:

    本文其實(shí)描述了一種圖像識別定位的方法,和RCNN是一樣的,而且RCNN方法也是基于該篇文章的方法。

    本文流程是

    1.根據(jù)Efficient GraphBased Image Segmentation給不同區(qū)域做出分割,也就是加上相應(yīng)的label,如下圖

    論文代碼在mathwork上有

    https://ww2.mathworks.cn/matlabcentral/fileexchange/25866-efficient-graph-based-image-segmentation?s_tid=srchtitle

    2.步驟1中的區(qū)域分割結(jié)果其實(shí)有時(shí)是過分割了的,可能是將同一物體分割成了兩部分甚至更多部分,所以在對圖像識別定位前,希望得到一些備選的區(qū)域(備選區(qū)域中有比較準(zhǔn)確分割的區(qū)域),希望識別目標(biāo)區(qū)域?qū)嶋H上在第1步中可能是占有了好幾個(gè)區(qū)域了的,所以我們希望將較相似的區(qū)域合并,合并的過程中會出現(xiàn)目標(biāo)區(qū)域的較準(zhǔn)確的分割,這里合并的合理選擇就有了必要,然后這里就有了計(jì)算兩個(gè)區(qū)域相似度的部分,優(yōu)先選擇相似度高的區(qū)域合并,合并后重新計(jì)算出相似度,再次合并直到合并到只剩一個(gè)區(qū)域即原始圖像。這里相似度計(jì)算由四個(gè)部分組成,可以看上文或者原文。合并的方式如下:

    可以看到備選的區(qū)域集就是R,R記錄下了每步相似度最高的聚合的區(qū)域。其實(shí)到這里,備選區(qū)域的選取就已經(jīng)完成了,也就是論文題目中的Selective Search,也是RCNN中用到的,后續(xù)用SVM對Sift算子對區(qū)域進(jìn)行區(qū)域識別,而RCNN則是使用CNN進(jìn)行區(qū)域識別。

    3.SIFT特征作為輸入,正負(fù)樣本作為輸出,用SVM做分類。樣本選擇方法上文有說明,可以看原文。

    總結(jié)

    以上是生活随笔為你收集整理的论文笔记 《Selective Search for Object Recognition》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 丰满的女人性猛交 | 人妻饥渴偷公乱中文字幕 | 亚洲一区二区观看播放 | 免费观看av的网站 | 诱人的乳峰奶水hd | 亚洲av无码一区二区三区在线播放 | 一级女性全黄久久生活片免费 | 人妻精油按摩bd高清中文字幕 | 色欲av永久无码精品无码蜜桃 | 九九色九九 | 青青在线视频 | 亚洲精品456 | 国产精品大屁股白浆一区 | 台湾佬美性中文娱乐 | 日本理论片中文字幕 | 欧美日韩激情在线观看 | 四虎影视网 | 99国产精品一区 | 视频一区免费 | 在办公室被c到呻吟的动态图 | 久久久蜜桃一区二区人 | 国产又粗又黄视频 | 精品国产97| 黄色片女人 | 国产精品日韩av | 国产精品久久久久久久裸模 | 在线a级 | 日日久 | 国产在线观 | 国产中文一区 | 五月天最新网址 | 久久久久亚洲精品系列色欲 | 国产精品永久免费 | 国产交换配乱淫视频免费 | 蜜臀av一区二区三区有限公司 | 日本免费一区二区三区四区五六区 | 漂亮人妻洗澡被公强 日日躁 | 色网视频| 污视频网站免费观看 | 免费黄色短片 | 黄色大片一级片 | 灌满闺乖女h高h调教尿h | 国产手机看片 | 视频在线播 | 自拍偷拍视频在线观看 | 影音先锋伦理片 | 视频一区日韩 | 人人妻人人爽一区二区三区 | 91大神精品 | www欧美在线| 在线看成人 | 日本精品免费在线观看 | 白石茉莉奈番号 | 玖草在线 | 免费av在线 | www.第四色 | 成人在线综合网 | 国产精品色综合 | 韩国毛片一区二区 | 日韩精品视频一区二区三区 | 另类专区欧美 | 色妹子综合 | 国产.com | 午夜影视体验区 | 国产精品情侣自拍 | 日韩在线免费av | 色www亚洲国产阿娇yao | 色爱亚洲 | 天天做天天爱 | 成人毛片基地 | 一级性毛片| 亚洲精品一二三四 | 久热一区 | 九九亚洲精品 | 日本少妇影院 | 欧美涩涩涩 | 樱花电影最新免费观看国语版 | 日韩视频h | 国产精品美女久久久久久 | 亚洲αv | 欧美黄页在线观看 | 天天搞天天 | 免费视频国产 | 亚洲精品免费观看 | 日韩免费黄色片 | 色乱码一区二区三在线看 | 午夜影音| 亚洲v视频| aaa大片十八岁禁止 中文字幕亚洲在线观看 | 蜜臀99久久精品久久久久小说 | 亚洲国产大片 | 人妻激情偷乱频一区二区三区 | 欧美精品在线第一页 | 久久亚洲AV成人无码一二三 | www.com亚洲 | 国产一级片a | 欧美肥老妇 | 人人看人人草 | 亚洲av男人的天堂在线观看 |