日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Siamese Network (应用篇2) :孪生网络用于图像块匹配 CVPR2015

發(fā)布時(shí)間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Siamese Network (应用篇2) :孪生网络用于图像块匹配 CVPR2015 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參考論文:Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks[J]. computer vision and pattern recognition, 2015: 4353-4361.

會(huì)議水平:CVPR2015

1. 摘要 及 目的

作者研究了如何從圖像數(shù)據(jù)中直接學(xué)習(xí)到一個(gè)普適性的相似度函數(shù)用于圖像匹配。匹配問題是是很多計(jì)算機(jī)視覺應(yīng)用問題的基礎(chǔ)。作者考慮到圖像會(huì)發(fā)生大規(guī)模的形貌尺度等變化,所以直接訓(xùn)練了一個(gè)CNN模型進(jìn)行參數(shù)擬合。特別的,作者研究了很多的神經(jīng)網(wǎng)絡(luò)框架,主要探索了那些網(wǎng)絡(luò)結(jié)構(gòu)更勝任圖像匹配問題。同時(shí),作者也進(jìn)行了大量的數(shù)據(jù)測試,結(jié)果證明,采用孿生網(wǎng)絡(luò)進(jìn)行圖像匹配具有非常大的優(yōu)勢。

2.方法 及 細(xì)節(jié)

圖1. 縮略圖。作者的目標(biāo)在于學(xué)習(xí)一個(gè)通用的相似性測度函數(shù),并應(yīng)用于圖像匹配中。為了編碼這樣一個(gè)函數(shù),作者大量探索了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

為了研究不同網(wǎng)絡(luò)結(jié)構(gòu)的速度與時(shí)間的考量,作者研究了當(dāng)下最普遍的雙通道卷積網(wǎng)絡(luò)、孿生卷積網(wǎng)絡(luò)、偽孿生網(wǎng)絡(luò)。

圖2. 作者研究的三種基本的網(wǎng)絡(luò)框架。左邊是雙通道卷積網(wǎng)絡(luò);右邊是孿生卷積網(wǎng)絡(luò)和偽孿生卷積網(wǎng)絡(luò)(孿生與偽孿生之間的區(qū)別在于孿生網(wǎng)絡(luò)共享權(quán)重,非孿生網(wǎng)絡(luò)不共享權(quán)重)。青色代表Conv+ReLU,,紫色代表Maxpooling,黃色代表全連接層(ReLU函數(shù)也存在于全連接層后)。

2.1 2-Channel是什么?有什么好處?

2-channel是把圖像對合并成一張圖像雙通道。對于灰度圖像這種方法可以理解,但是對于RGB圖像,該方法是否可行?原理在哪里還需要有更加明確的解釋。

和孿生結(jié)構(gòu)相比,2-channel方法明顯靈活性更大,同時(shí)也很容易去訓(xùn)練。但是,通常來講,訓(xùn)練階段2-channel結(jié)構(gòu)更浪費(fèi)時(shí)間,因?yàn)樗枰獙?biāo)準(zhǔn)圖像塊與所有的候選圖像塊進(jìn)行組合,原則上,這是很浪費(fèi)時(shí)間的。

這樣算法的最后一層直接是全連接層,輸出神經(jīng)元個(gè)數(shù)直接為1,直接表示兩張圖片的相似度。直接用雙通道圖片進(jìn)行訓(xùn)練會(huì)比較快,比較方便,當(dāng)然CNN,如果輸入的是雙通道圖片,也就是相當(dāng)于網(wǎng)絡(luò)的輸入的是2個(gè)feature?map,經(jīng)過第一層的卷積后網(wǎng),兩張圖片的像素就進(jìn)行了相關(guān)的加權(quán)組合并映射,這也就是說,用2-channel的方法,經(jīng)過了第一次的卷積后,兩張輸入圖片就不分你我了。而Siamese網(wǎng)絡(luò)是到了最后全連接的時(shí)候,兩張圖片的相關(guān)神經(jīng)元才聯(lián)系在一起,這就是2-channel 與Siamese給我感覺最大的區(qū)別。這個(gè)作者后面通過試驗(yàn),驗(yàn)證了從第一層開始,就把兩張圖片關(guān)聯(lián)在一起的好處,作者的原話:This?is?something?that?indicates?that?it?is?important?to?jointly?use?information?from?both?

patches?right?from?the?first?layer?of?the?network.

2.2 作者采用的策略

1. 作者采用了補(bǔ)充材料【1】中提及到的技術(shù),具體為利用small+ReLU代替更大的卷積層,也可以直接理解為加深網(wǎng)絡(luò)深度而不是拓寬網(wǎng)絡(luò)寬度。

2. 目標(biāo)-環(huán)境雙流網(wǎng)絡(luò)結(jié)構(gòu)。

圖 3. 目標(biāo)-環(huán)境雙流網(wǎng)絡(luò)架構(gòu)。實(shí)際上作者采用的依舊是孿生網(wǎng)絡(luò)架構(gòu)來處理,需要共享權(quán)重。實(shí)際上可以理解為多分辨率對圖像匹配效果的影響。

這個(gè)創(chuàng)新點(diǎn),需要對上面的網(wǎng)絡(luò)結(jié)構(gòu)稍作修改。假設(shè)我們輸入的是大小為64*64的一張圖片,那么Central-surround?two-stream?network的意思就是把圖片64*64的圖片,處理成兩張32*32圖片,然后再輸入網(wǎng)絡(luò),那么這兩張32*32的圖片是怎么計(jì)算得到的?這就是Central-surround方法,也就是第一張圖片是通過以圖片中心,進(jìn)行裁剪出32*32的圖片,也就淺藍(lán)色區(qū)域的圖片。其實(shí)這個(gè)就像多尺度一樣,在圖片處理領(lǐng)域經(jīng)常采用多分辨率、多尺度,比如什么sift、還有什么高斯金字塔什么的,總之作者說了,多分辨率可以提高兩張圖片的match效果

3. 空間金字塔網(wǎng)

圖 4. 空間金字塔策略應(yīng)用到孿生網(wǎng)絡(luò)。

空間金字塔池化采樣:這個(gè)又稱之為SPP(Spatial?pyramid?pooling)池化,這個(gè)又什么用呢?這個(gè)跟上面的有點(diǎn)類似,這個(gè)其實(shí)就類似于多圖片多尺度處理,我們知道現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)中,輸入層的圖片的大小一般都是固定的,這也是我之前所理解的一個(gè)神經(jīng)網(wǎng)絡(luò)。直到知道SPP,感覺視覺又開闊了許多,菜鳥又長見識了。我們知道現(xiàn)在的很多算法中,講到的訓(xùn)練數(shù)據(jù)圖片的大小,都是什么32*32,96*96,227*227等大小,也就是說訓(xùn)練數(shù)據(jù)必須歸一化到同樣的大小,那么假設(shè)我的訓(xùn)練數(shù)據(jù)是各種各樣的圖片大小呢?我是否一定要把它裁剪成全部一樣大小的圖片才可以進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練呢?這就是SPP算法所要解決的問題,訓(xùn)練數(shù)據(jù)圖片不需要?dú)w一化,而且江湖傳說,效果比傳統(tǒng)的方法的效果還好。

4. 數(shù)據(jù)增強(qiáng)、

To combat overfitting we augment training data by flipping both patches in pairs horizontally and vertically and rotating to 90, 180, 270 degrees.為了防止出現(xiàn)過擬合,作者也進(jìn)行了數(shù)據(jù)增強(qiáng),具體為水平和垂直翻轉(zhuǎn),旋轉(zhuǎn)圖像對90度,180度,270度。

2.3 損失函數(shù)

w指神經(jīng)網(wǎng)絡(luò)中的權(quán)重。o是指第i個(gè)訓(xùn)練樣本的神經(jīng)網(wǎng)絡(luò)輸出。yi∈{-1?or +1}是樣本的標(biāo)簽,-1是指負(fù)樣本對/非匹配對,+1是指正樣本對/匹配對。

作者使用了一個(gè)較大的學(xué)習(xí)率1.0 with 動(dòng)量 0.9.權(quán)重衰減仍使用了0.0005. 批訓(xùn)練的尺寸為128. 權(quán)重采用了隨機(jī)初始化的方式。

如果輸入的是一個(gè)負(fù)樣本,那么損失函數(shù)就會(huì)增加,必須要降低網(wǎng)絡(luò)的輸出o。這就滿足了輸入一個(gè)負(fù)樣本對,網(wǎng)絡(luò)輸出也很小,即相似度分?jǐn)?shù)較低。

如果輸入的是一個(gè)正樣本,損失函數(shù)會(huì)隨著o的增加而降低。這就滿足了輸入一個(gè)正樣本對,網(wǎng)絡(luò)輸出很大,即相似度分?jǐn)?shù)很高。

3. 結(jié)論

此圖此表毫無疑問在支持作者的觀點(diǎn)2-channel就是好。通過對比iii和iv確實(shí)在同等實(shí)驗(yàn)條件下2ch確實(shí)取得了明顯的優(yōu)勢。這個(gè)是從實(shí)驗(yàn)中觀測到的。具體為什么?作者也沒有講,初步感覺可能是卷積過程中,兩幅圖鄉(xiāng)發(fā)生了偶聯(lián)?幾個(gè)卷積下來,判別性的信息更加豐富了?但是這種方法是不是可以應(yīng)用到3D塊匹配的學(xué)習(xí)中,我還是保留態(tài)度的,需要實(shí)際測試一下。(在做iii和iv實(shí)驗(yàn)對比過程中,其實(shí)結(jié)構(gòu)也并不是完全一致的,有學(xué)者也提出了類似的疑問,第二個(gè)全連接層2-ch使用了256個(gè)神經(jīng)元,但是Siamese就是用了512個(gè)神經(jīng)元。在排除參數(shù)沒有訓(xùn)練穩(wěn)定情況下,出現(xiàn)這種情況確實(shí)讓人驚訝)

此外,關(guān)于獲得的特征圖如何做相關(guān)處理?作者并沒有采用相關(guān)函數(shù)計(jì)算相關(guān)系數(shù)的形式,直接采用了全連接層(只含有一個(gè)神經(jīng)元),可謂簡單粗暴啊!

?

4. 補(bǔ)充材料

【1】同樣數(shù)目的神經(jīng)元,加深網(wǎng)絡(luò)深度模型性能要優(yōu)于拓寬網(wǎng)絡(luò)深度: K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 3
【2】空間金字塔池化研究多尺度圖像查詢:He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

總結(jié)

以上是生活随笔為你收集整理的Siamese Network (应用篇2) :孪生网络用于图像块匹配 CVPR2015的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。