日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

双目深度估计中的自监督学习概览

發(fā)布時(shí)間:2024/10/8 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 双目深度估计中的自监督学习概览 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|張承灝

學(xué)校|中科院自動(dòng)化所碩士生

研究方向|深度估計(jì)

深度學(xué)習(xí)的蓬勃發(fā)展得益于大規(guī)模有標(biāo)注的數(shù)據(jù)驅(qū)動(dòng),有監(jiān)督學(xué)習(xí)(supervised learning)推動(dòng)深度模型向著性能越來(lái)越高的方向發(fā)展。但是,大量的標(biāo)注數(shù)據(jù)往往需要付出巨大的人力成本,越來(lái)越多的研究開(kāi)始關(guān)注如何在不獲取數(shù)據(jù)標(biāo)簽的條件下提升模型的性能,也就是自監(jiān)督學(xué)習(xí)(self-supervised learning)/無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。?

對(duì)于立體匹配(stereo matching),或者雙目深度估計(jì),像 LiDAR 這樣的設(shè)備是極其笨重且昂貴的,它所能收集的只是稀疏的深度信息,而我們需要的是密集的深度圖(dense depth map);而基于結(jié)構(gòu)光的設(shè)備往往只能在室內(nèi)場(chǎng)景下進(jìn)行深度信息標(biāo)注,在室外場(chǎng)景下難以達(dá)到較高的標(biāo)注質(zhì)量。因此,自監(jiān)督學(xué)習(xí)在立體匹配中得到越來(lái)越多的關(guān)注。

本文主要梳理了近年來(lái)自監(jiān)督學(xué)習(xí)在深度立體匹配中的應(yīng)用方法,希望和大家一起探討學(xué)習(xí)。

Stereo Matching

立體匹配也稱(chēng)作視差估計(jì)(disparity estimation),或者雙目深度估計(jì)。其輸入是一對(duì)在同一時(shí)刻捕捉到的,經(jīng)過(guò)極線校正的左右圖像??和??。而它的輸出是由參考圖像(一般以左圖作為參考圖像)中每個(gè)像素對(duì)應(yīng)的視差值所構(gòu)成的視差圖?。

視差是三維場(chǎng)景中某一點(diǎn)在左右圖像中對(duì)應(yīng)點(diǎn)位置的像素級(jí)差距。當(dāng)給定攝像機(jī)的基線距離??和焦距??之后,我們就可以從視差圖中自動(dòng)計(jì)算出深度?,。所以深度和視差是可以互相轉(zhuǎn)換,相互等價(jià)的。

立體匹配算法分為四個(gè)步驟:

  • 匹配代價(jià)計(jì)算(matching cost computation);

  • 代價(jià)聚合(cost aggregation);

  • 視差計(jì)算(disparity computation);

  • 視差精修(disparity refinement)

傳統(tǒng)的視差估計(jì)算法主要分為兩類(lèi):

  • 局部算法:主要基于滑動(dòng)窗口來(lái)計(jì)算局部窗口內(nèi)的匹配代價(jià);

  • 全局算法:通過(guò)優(yōu)化包括局部數(shù)據(jù)項(xiàng)和平滑項(xiàng)的能量函數(shù)來(lái)計(jì)算立體視圖之間的相關(guān)性;

傳統(tǒng)的視差估計(jì)算法對(duì)于各種應(yīng)用場(chǎng)景都具有等價(jià)的視差估計(jì)能力,不會(huì)因?yàn)閳?chǎng)景變化而產(chǎn)生較大的差異,因此有論文將傳統(tǒng)方法估計(jì)的視差圖作為帶有噪聲的標(biāo)簽來(lái)提升無(wú)監(jiān)督視差估計(jì)的性能,本文后面會(huì)提到。

隨著深度學(xué)習(xí)的發(fā)展以及大規(guī)模合成/仿真數(shù)據(jù)的推動(dòng),CNN 將上述四個(gè)步驟統(tǒng)一成一個(gè)端到端的網(wǎng)絡(luò),進(jìn)一步提升了視差估計(jì)的性能。本文主要探討的是自監(jiān)督學(xué)習(xí)在基于卷積神經(jīng)網(wǎng)絡(luò)的視差估計(jì)算法中的應(yīng)用情況。

Self-Supervised Learning

在基于卷積神經(jīng)網(wǎng)絡(luò)的立體匹配算法中,有監(jiān)督學(xué)習(xí)基本上是回歸的方法,即采用 smooth L1 loss 計(jì)算預(yù)測(cè)的視差值和真實(shí)視差值之間的誤差來(lái)監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)。自監(jiān)督學(xué)習(xí)算法則主要從圖像自身的特征結(jié)構(gòu),視差圖自身的特點(diǎn)或者借助傳統(tǒng)算法來(lái)構(gòu)造噪聲標(biāo)簽來(lái)訓(xùn)練深度模型。

Image Reconstruction Loss

和自編碼器類(lèi)似,我們最容易想到的就是通過(guò)重建圖像來(lái)作loss。假設(shè)原來(lái)的左圖(參考圖像)為??(i,j 表示像素點(diǎn)的位置坐標(biāo)),根據(jù)其預(yù)測(cè)的視差??以及原有的右圖?, 我們可以通過(guò) warping 操作得到重構(gòu)后的左圖??。這里的 warping 操作是根據(jù)左圖每個(gè)像素點(diǎn)對(duì)應(yīng)的視差值,在右圖中尋找對(duì)應(yīng)的像素點(diǎn)再差值得到的。

在 PyTorch 中用 grid_sample 函數(shù)來(lái)實(shí)現(xiàn),采樣器的原理是基于?Spatial Transformer Networks(STN)?[1] 得到的,對(duì)同一行中的兩個(gè)像素進(jìn)行雙線性采樣,這是一個(gè)可微的過(guò)程。

設(shè) N 為像素點(diǎn)的個(gè)數(shù),那么最簡(jiǎn)單的圖像重構(gòu)損失函數(shù)定義如下:

通常,經(jīng)過(guò)重構(gòu)的圖像可能具有很大的失真,僅僅采用重構(gòu)圖像和原圖的比較還不夠,我們會(huì)引入圖像質(zhì)量評(píng)價(jià)中的圖像相似度指標(biāo) SSIM [2] 來(lái)綜合的計(jì)算重構(gòu)圖像和原始圖像在光度上的誤差。

這里 α 是基本重構(gòu)誤差和相似度誤差的權(quán)重。一般采取單尺度的 SSIM 以及簡(jiǎn)化的 3*3 濾波,α 一般取 0.85,相似度誤差占據(jù)更大的比重。

Disparity Smoothness Loss?

由于我們需要密集的視差圖,為了使得視差在局部上保持平滑,我們可以對(duì)視差梯度 ?d 進(jìn)行 L1 懲罰。由于深度不連續(xù)性通常出現(xiàn)在圖像的梯度上,因此圖像的梯度 ?I 也被考慮進(jìn)來(lái)。

這里是分別使用了 x 方向和 y 方向的視差梯度和圖像梯度。?

Left-Right Disparity Consistency Loss?

以上兩種損失函數(shù)是自監(jiān)督學(xué)習(xí)中最基本,最常用的損失函數(shù)。下面這篇論文提出了左右視差一致性損失,雖然是基于單目圖像的,但是也可以用在雙目深度估計(jì)上。

論文標(biāo)題:Unsupervised Monocular Depth Estimation with Left-Right Consistency

論文來(lái)源:CVPR 2017 Oral

論文鏈接:https://arxiv.org/abs/1609.03677v3

開(kāi)源代碼:https://github.com/mrharicot/monodepth

論文提出的框架如下:

和原有方法不同,輸入是左圖(雙目是左右圖),輸出不僅是以左圖為參考圖像的視差圖?, 還有以右圖為參考圖像的視差圖?。除了應(yīng)用上述兩種損失函數(shù)外,還提出了一種左右視差一致性損失。

我們可以將以右圖為參考圖像的??作為 warping 操作的輸入圖像,再以左圖為參考圖像的??作為輸入的視差圖,經(jīng)過(guò) warping 操作就會(huì)得到??的重構(gòu)視差圖?。注意,這里得到的是重構(gòu)的視差圖,而非重構(gòu)的左圖。因此,左右視差一致性損失可以寫(xiě)作:

這里N是像素的個(gè)數(shù),?就是重構(gòu)出來(lái)的?。

這篇論文中由于預(yù)測(cè)了兩種不同的視差(以左圖為參考圖像的視差和以右圖為參考圖像的視差),因此上面提到的三種損失都可以有鏡像損失。比如,以原始左圖?,以及以右圖為參考圖像的視差圖??作為 warping 操作的輸入,那么得到就是重構(gòu)出來(lái)的右圖?。

Weighted Local Contrast Normalization

下面這篇論文通過(guò)分析重構(gòu)誤差的缺點(diǎn),提出了一種新的加權(quán)局部對(duì)比度歸一化操作,從而優(yōu)化了重構(gòu)誤差損失函數(shù)。

論文標(biāo)題:ActiveStereoNet: End-to-End Self-Supervised Learning for Active Stereo Systems

論文來(lái)源:ECCV 2018 Oral

論文鏈接:https://arxiv.org/abs/1807.06009v1

復(fù)現(xiàn)代碼:https://github.com/meteorshowers/StereoNet-ActiveStereoNet

論文提出了一個(gè)針對(duì)主動(dòng)視覺(jué)的端到端的深度學(xué)習(xí)方法,我們主要來(lái)看其對(duì)于重構(gòu)誤差的分析和改進(jìn)。作者認(rèn)為光度重構(gòu)誤差具有以下兩點(diǎn)不足:

  • 在視覺(jué)設(shè)備感知外部環(huán)境時(shí),接收到的信號(hào)強(qiáng)度與距離的平方成反比,這導(dǎo)致光度對(duì)距離具有明顯的依賴。

  • 明亮的像素點(diǎn)往往比暗的像素點(diǎn)更容易產(chǎn)生較大的殘差。?

基于以上兩個(gè)觀察,深度網(wǎng)絡(luò)在訓(xùn)練時(shí)傾向于在容易學(xué)習(xí)的地方學(xué)習(xí)(比如,明亮的區(qū)域),然后對(duì)其他區(qū)域進(jìn)行平滑處理(比如,較暗的區(qū)域)。

因此,對(duì)于較暗的像素點(diǎn),它需要更準(zhǔn)確的深度信息來(lái)監(jiān)督才能學(xué)得比較好。但是在自監(jiān)督學(xué)習(xí)中,我們?nèi)鄙俚恼沁@種準(zhǔn)確的深度信息(真實(shí)的視差標(biāo)簽),這樣就會(huì)導(dǎo)致較暗的區(qū)域?qū)W得很差。并且,當(dāng)前景和背景差異較大時(shí),這種損失會(huì)在被遮擋的區(qū)域產(chǎn)生更大的誤差,導(dǎo)致網(wǎng)絡(luò)無(wú)法再繼續(xù)學(xué)習(xí)下去。?

論文提出的加權(quán)局部對(duì)比度歸一化(WLCN)就是用來(lái)移除亮度與視差的相關(guān)性。具體來(lái)說(shuō),對(duì)每一個(gè)像素點(diǎn),計(jì)算以其為中心的 9*9 區(qū)域內(nèi)的所有像素點(diǎn)的局部均值 μ 和標(biāo)準(zhǔn)差 σ,這些局部的統(tǒng)計(jì)量用來(lái)歸一化當(dāng)前的像素點(diǎn)。

其中 η 是一個(gè)小常量。下圖展示了 LCN 歸一化后的結(jié)果。

由上圖可以看出,對(duì)于僅使用重構(gòu)誤差(左圖),在紅色框中較亮的部位對(duì)應(yīng)的重構(gòu)誤差較大。而采用 LCN 對(duì)輸入圖像歸一化處理后(中間圖),這些重構(gòu)誤差不會(huì)過(guò)渡的偏向明亮的區(qū)域。這表明 LCN 不僅消除了光度和視差之間的聯(lián)系,而且在遮擋區(qū)域能夠提供較好的殘差。

但是另一個(gè)問(wèn)題是,在弱紋理區(qū)域局部標(biāo)準(zhǔn)差??可能會(huì)趨近于 0,從而導(dǎo)致這部分的損失偏大。為了解決這個(gè)問(wèn)題,作者提出使用參考圖像在 9*9 局部區(qū)域的標(biāo)準(zhǔn)差??來(lái)作一個(gè)重新加權(quán)(re-weight)。因此,重構(gòu)誤差可以重寫(xiě)為:

從上面圖中的右邊可以看出,經(jīng)過(guò)重加權(quán)之后弱紋理區(qū)域的誤差也變小了,這是因?yàn)檫@部分對(duì)應(yīng)的權(quán)值??也趨近于 0 了。

Guided Confidence Loss?

除了挖掘圖像和視差本身的特性,我們還可以從外部借助一些帶有噪聲的標(biāo)簽作為監(jiān)督信息。在本文開(kāi)頭介紹過(guò),傳統(tǒng)方法雖然沒(méi)有基于深度學(xué)習(xí)的方法性能高,但是對(duì)各種場(chǎng)景具有較好的泛化能力。

下面這篇論文就是借助傳統(tǒng)方法先對(duì)圖像估計(jì)一次視差,再通過(guò)置信度的學(xué)習(xí)來(lái)自動(dòng)的鑒別帶有噪聲的標(biāo)簽,從而實(shí)現(xiàn)無(wú)標(biāo)簽條件下的深度模型學(xué)習(xí)。

論文標(biāo)題:Unsupervised Domain Adaptation for Depth Prediction from Images

論文來(lái)源:TPAMI 2019

論文鏈接:https://arxiv.org/abs/1909.03943v1?

復(fù)現(xiàn)代碼:https://github.com/CVLAB-Unibo/Unsupervised_Depth_Adaptation

假設(shè)由傳統(tǒng)算法(比如SGM [3])估計(jì)的視差值為?,這里 p 指的是圖像中的像素點(diǎn)。那么以視差圖作為輸入,幾層卷積層構(gòu)建置信度估計(jì)網(wǎng)絡(luò),就可以得到該視差圖中每一個(gè)像素點(diǎn)的置信度,由此構(gòu)成置信圖(confidence map),。

置信圖中每一點(diǎn)的范圍在 [0, 1],用來(lái)表示生成的視差值的可信程度。如果某點(diǎn)的置信度越高,那么該點(diǎn)處估計(jì)的視差值就越準(zhǔn),就越能夠作為真實(shí)標(biāo)簽來(lái)指導(dǎo)深度模型的訓(xùn)練。反之,亦然。

我們可以通過(guò)超參數(shù)??來(lái)控制用來(lái)指導(dǎo)深度模型訓(xùn)練的標(biāo)簽數(shù)量。比如??用來(lái)表示只有置信度大于 0.8 的視差值才能成為真正的監(jiān)督信息。由此看出實(shí)際的監(jiān)督信息是稀疏的,這與 KITTI 數(shù)據(jù)標(biāo)注是一致的,因?yàn)楹笳叩臉?biāo)注信息也是稀疏的深度值。但是實(shí)踐證明即使只有稀疏的深度信息,也能夠訓(xùn)練出性能很好的模型。

假設(shè)由深度模型估計(jì)的視差表示為?,那么論文提出的引導(dǎo)置信損失可以寫(xiě)作:

這里??表示的就是由超參數(shù)??控制的由傳統(tǒng)方法估計(jì)的稀疏標(biāo)簽,它具有較高的置信度。而深度模型估計(jì)的視差和傳統(tǒng)方法估計(jì)的視差以 L1 回歸的形式監(jiān)督,包含在 loss 計(jì)算中的像素點(diǎn)由置信度來(lái)控制。這種引導(dǎo)置信損失相當(dāng)于是給深度模型提供了值得信賴的監(jiān)督信息,但是卻是在沒(méi)有真實(shí)標(biāo)簽情況下實(shí)現(xiàn)的。

下圖給出了不同??控制的情況。


從 (e) 到 (h) 我們可以看出,?越小,監(jiān)督信息越多,但是相應(yīng)的噪聲也越多;?越大,雖然噪聲減少了,但是準(zhǔn)確的監(jiān)督信息也變少了。因此,超參數(shù)??也可以納入到損失函數(shù)中一起優(yōu)化。由于在優(yōu)化過(guò)程中,?容易收斂到1,作者提出了下面的改進(jìn)版損失函數(shù):

新加的項(xiàng)有兩個(gè)優(yōu)勢(shì),一是將超參數(shù)??納入最終的損失函數(shù)計(jì)算中一起優(yōu)化,避免了人為調(diào)參,可以自動(dòng)學(xué)習(xí)出最佳的值;二是可以約束??不收斂到1。

關(guān)于超參數(shù)??的生成,作者提出了兩種行之有效的方法:

  • 將??看做是一個(gè)可學(xué)習(xí)的變量,即上面的描述方式;

  • 將??看做是一個(gè)簡(jiǎn)單網(wǎng)絡(luò)?的輸出,該網(wǎng)絡(luò)可以采用 3 個(gè) 3*3 的卷積層,后面接一個(gè)全局平均池化得到。

下圖是關(guān)于超參數(shù)??的消融實(shí)驗(yàn)。

從上圖可以看出,無(wú)論是將??看作學(xué)習(xí)的變量(倒數(shù)第二行)還是網(wǎng)絡(luò)的輸出(最后一行),都不如人工交叉驗(yàn)證效果好(倒數(shù)第三行)。

總結(jié)

上面幾篇論文的分析主要關(guān)注的是自監(jiān)督學(xué)習(xí),論文中還有其他亮點(diǎn)沒(méi)有闡述,大家如果感興趣還可以詳細(xì)閱讀論文。從上面的分析中我們可以歸納出,近年來(lái)自監(jiān)督學(xué)習(xí)在立體匹配中主要從下面三個(gè)方面來(lái)考慮:?

  • 從圖像自身的特性出發(fā):如圖像重構(gòu)損失,圖像相似度計(jì)算,加權(quán)局部對(duì)比度歸一化;

  • 從視差圖的特點(diǎn)出發(fā):如視差平滑損失;

  • 從傳統(tǒng)方法中借鑒:如引導(dǎo)置信損失。?

未來(lái)的自監(jiān)督學(xué)習(xí)我認(rèn)為可以從兩方面著手,一是探索如何將圖像本身的特性和視差的關(guān)系構(gòu)建起來(lái),因?yàn)閳D像的 RGB 信息本身和視差信息是沒(méi)有關(guān)系的,圖像重構(gòu)誤差本身并不等價(jià)于視差回歸損失。二是如何獲取更加準(zhǔn)確的稀疏監(jiān)督信息,畢竟只需要稀疏的監(jiān)督信息就能學(xué)出很好的視差估計(jì)網(wǎng)絡(luò),但是前提是監(jiān)督信息必須準(zhǔn)確,也就是少而精。

參考文獻(xiàn)

[1]?https://arxiv.org/abs/1506.02025?

[2] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. Image quality assessment: from error visibility to structural similarity. TIP 2004.

[3] H. Hirschmuller. Accurate and efficient stereo processing by semi-global matching and mutual information. CVPR 2005.

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • BERT在多模態(tài)領(lǐng)域中的應(yīng)用

  • Designing GANs:又一個(gè)GAN生產(chǎn)車(chē)間

  • 圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE

  • ICLR 2020?| 多關(guān)系圖神經(jīng)網(wǎng)絡(luò)CompGCN

  • 深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽

  • ICCV 2019?| 基于層次解析的Image Captioning

#投 稿 通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的双目深度估计中的自监督学习概览的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。