日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配

發(fā)布時(shí)間:2024/10/8 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

??

?PaperWeekly 原創(chuàng) ·?作者|張承灝

單位|中科院自動(dòng)化所碩士生

研究方向|雙目深度估計(jì)

本文介紹的是中科大團(tuán)隊(duì)在 CVPR 2020 上提出的一種高效立體匹配網(wǎng)絡(luò)——自適應(yīng)聚合網(wǎng)絡(luò) AANet,它由兩個(gè)模塊組成:同尺度聚合模塊(ISA)和跨尺度聚合模塊(CSA)。AANet 可用來代替基于匹配代價(jià)體(cost volume)的 3D 卷積,在加快推理速度的同時(shí)保持較高的準(zhǔn)確率。

?

?

論文標(biāo)題:AANet: Adaptive Aggregation Network for Efficient Stereo Matching

論文地址:https://arxiv.org/abs/2004.09548v1

開源代碼:https://github.com/haofeixu/aanet


Introduction

在基于深度學(xué)習(xí)的立體匹配方法中,以 GC-Net [1] 為代表的基于 3D 卷積的方法逐漸成為主流,它是由左右圖的特征經(jīng)過 cancat 得到一個(gè) 4D 的 cost volume,之后利用 3D 卷積進(jìn)行代價(jià)聚合得到最終的視差圖。

近兩年來以此框架為基礎(chǔ)的模型在 KITTI 等數(shù)據(jù)集上成為新的 state-of-the-art,例如 PSMNet [2],GA-Net [3] 等。

這些方法估計(jì)的視差雖然準(zhǔn)確率高,但是存在兩個(gè)參數(shù)量和內(nèi)存占用量高的地方,

  • cost volume 是一個(gè) H×W×D×C 的 4D 張量,具有較高的參數(shù)量;

  • 利用 3D 卷積進(jìn)行代價(jià)聚合,計(jì)算量較大;

AANet 主要用來解決上述兩個(gè)方面,從而提升深度立體匹配網(wǎng)絡(luò)的效率。


Methods

上圖是 AANet 的整體框架圖。給定一對雙目圖像,首先通過共享特征金字塔網(wǎng)絡(luò)(類似 ResNet+FPN)提取 1/3,1/6 和 1/12 分辨率的特征,之后對三種分辨率的左右圖特征分別經(jīng)過correlation操作,得到多尺度的 3D 匹配代價(jià)。

接著經(jīng)過 6 個(gè)堆疊的 AAModules 進(jìn)行代價(jià)聚合,最后利用 soft argmin 操作回歸視差圖。AANet 可以得到三個(gè)尺度的輸出,在上采樣為原圖尺度時(shí)還采樣了 StereoDRNet [4] 中的精修模塊。

這里,AAModules 由 3 個(gè)同尺度聚合模塊(ISA)和一個(gè)跨尺度聚合模塊(CSA)組成,下面重點(diǎn)介紹這兩個(gè)模塊。

2.1 Adaptive Intra-Scale Aggregation (ISA)

同尺度聚合指的是只對相同分辨率的 cost volume 進(jìn)代價(jià)聚合,來源于傳統(tǒng)立體匹配方法中的局部代價(jià)聚合:


其中 是在像素點(diǎn) q 處,視差為 d 的經(jīng)過聚合的匹配代價(jià),像素點(diǎn) q 屬于p點(diǎn)的鄰接像素點(diǎn);而 是在像素點(diǎn) q 處,視差為 d 的原始匹配代價(jià), 是聚合權(quán)重。

傳統(tǒng)的局部代價(jià)聚合不能處理視差不連續(xù)的情況,容易造成物體邊緣和細(xì)微結(jié)構(gòu)的粗大邊緣問題(edge-fattening)。盡管基于深度學(xué)習(xí)的方法能夠自動(dòng)地學(xué)習(xí)權(quán)重 w,但是它們也還是采用固定窗口的規(guī)則卷積,并不能自適應(yīng)地進(jìn)行特征采樣。

為了解決上述問題,作者提出采用基于稀疏點(diǎn)的特征表示能夠更高效地進(jìn)行代價(jià)聚合,并借鑒可變形卷積來改進(jìn)代價(jià)聚合,提出了自適應(yīng)的同尺度聚合模塊(ISA):


其中 是聚合后的代價(jià), 是采樣點(diǎn)的數(shù)量(K=3), 是第 k 個(gè)點(diǎn)的聚合權(quán)重, 是像素點(diǎn)的固定偏置,而 是學(xué)習(xí)的附加正則化偏置。 類似可變形卷積的調(diào)制機(jī)制,用來調(diào)整聚合權(quán)重 。

和 可以由單獨(dú)的卷積層實(shí)現(xiàn),整個(gè) ISA 模塊由 3 個(gè)卷積和一個(gè)殘差模塊組成,類似 ResNet 中的 bottlemneck,三層分別是 1×1,3×3 和 1×1,其中 3×3 是可變形卷積。

上圖是兩個(gè)區(qū)域(綠色)的采樣點(diǎn)(紅色)分布情況,(a)在邊緣處采樣集中在相似的視差區(qū)域,(b)在大塊無紋理區(qū)域,采樣點(diǎn)成散落狀分布。這表明了自適應(yīng)聚合的優(yōu)勢。

2.2 Adaptive Cross-Scale Aggregation(CSA)

對于無紋理或者弱紋理區(qū)域,利用下采樣得到的粗糙尺度更能提取具有判別性的特征,但是對于一些細(xì)節(jié)特征,又需要較高分辨率的視差預(yù)測,因此多尺度聚合是一種常用的聚合方法。

作者借鑒傳統(tǒng)的跨尺度聚合方法,將其近似表達(dá)為:


其中 S 是經(jīng)過跨尺度聚合后的 cost volume,而 是在第 k 個(gè)尺度經(jīng)過 ISA 聚合后的 cost volume, 是使得 cost volume 能夠自適應(yīng)地在多個(gè)尺度聚合的通用函數(shù)表示形式。

作者將 以 HRNet [5] 的形式實(shí)現(xiàn)(HRNet 是用于姿態(tài)估計(jì)的模型),其具體構(gòu)成為:


其中 表示恒等映射函數(shù), 用來和 下采樣分辨率保持一致,而 表示雙線性上采樣到相同分辨率,之后接 1×1 卷積對齊特征通道。

這一整套構(gòu)成了 CAS 模塊,具體的可視化連接方式可以參考 HRNet,簡單來說是每個(gè)尺度特征都收到來自其他各層的特征,并統(tǒng)一到該層的分辨率融合。

2.3 Loss Function

和以往直接采用預(yù)測視差和視差 GT 作 smooth L1 loss 不同,作者認(rèn)為像 KITTI ?這樣的數(shù)據(jù)集只提供了稀疏的標(biāo)簽,可以使用已經(jīng)訓(xùn)練好的模型先進(jìn)行偽標(biāo)簽標(biāo)注,從而得到密集的標(biāo)簽信息,用來彌補(bǔ)真實(shí)標(biāo)簽沒有標(biāo)注的地方。

作者采用 GA-Net 進(jìn)行偽標(biāo)簽標(biāo)注,第 i 層的損失函數(shù)為:


其中 為第 i 層的視差輸出, 為 ground truth 視差, 為 GA-Net 標(biāo)注的偽標(biāo)簽, 是一個(gè)二值掩碼,用來標(biāo)記有效像素點(diǎn)。即 GT 標(biāo)注的視差用 GT,GT 沒有標(biāo)注的視差用偽標(biāo)簽。

最終的 loss 為, 為損失權(quán)重:


Experiments

作者采用了 KITTI 2012、KITTI 2015 和 SceneFlow 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

3.1 Ablation Study

首先作者做了消融分析,驗(yàn)證 ISA 和 CSA 模塊的有效性。

由上表可以看出,結(jié)合了 ISA 和 CSA 的 AANet 在兩個(gè)數(shù)據(jù)集上表現(xiàn)最佳。

從上圖的定性可視化看,在弱紋理區(qū)域能夠得到更銳化和細(xì)致的結(jié)果。

3.2 Comparison with 3D Convolutions

作者和有代表性的 4 個(gè)模型進(jìn)行了比較,其他 4 個(gè)模型都采用了 3D 卷積。將這 4 個(gè)模型的 backbone 換成一樣,再將 3D 卷積換成 AANet 的 ISA 和 CSA 模塊,構(gòu)成 XX-AA 模型。

從上表結(jié)果可以看出,除了 GA-Net,其他具備 AANet 模塊的模型準(zhǔn)確率都高一些。并且從參數(shù)量,計(jì)算量和內(nèi)存占用量以及運(yùn)行時(shí)間上都有降低,可見 AANet 的確讓立體匹配更加高效。

3.3 Benchmark Results

上表是在 KITTI 2012 和 KITTI 2015 上的結(jié)果,相比于精度高的模型,AANet 速度最快;相比于速度快的模型,AANet 精度最高,是一個(gè)不錯(cuò)的 trade-off。


Conclusion

3D 卷積的確是基于 cost volume 立體匹配方法的痛點(diǎn),想要讓立體匹配更高效,少用或者不用 3D 卷積是一個(gè)很好的解決思路。從立體匹配提速角度看,之后的研究可以從如何替代 3D 卷積,或者如何減少 3D 卷積的入手。

從其他相似領(lǐng)域角度看,如何將這種思路應(yīng)用到高分辨率立體匹配,多視角立體視覺(MVS),光流估計(jì),基于雙目的 3D 檢測等領(lǐng)域。

參考文獻(xiàn)

[1] Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, and Adam Bry. End-to-end learning of geometry and context for deep stereo regression. In CVPR 2017.

[2] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR 2018.

[3] Feihu Zhang, Victor Prisacariu, Ruigang Yang, and Philip HS Torr. Ga-net: Guided aggregation net for end-to-end stereo matching. In CVPR 2019.

[4] Rohan Chabra, Julian Straub, Christopher Sweeney, Richard Newcombe, and Henry Fuchs. Stereodrnet: Dilated residual stereonet. In CVPR 2019.

[5] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In CVPR 2019.


?

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • 從近年CVPR看域自適應(yīng)立體匹配

  • 雙目深度估計(jì)中的自監(jiān)督學(xué)習(xí)概覽

  • 用于深度立體匹配的自適應(yīng)單峰匹配代價(jià)體濾波

  • 多目標(biāo)跟蹤領(lǐng)域近期值得讀的幾篇論文

  • CVPR 2020最新熱點(diǎn):物體位姿估計(jì)

  • 對比學(xué)習(xí)(Contrastive Learning)相關(guān)進(jìn)展梳理

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

?

總結(jié)

以上是生活随笔為你收集整理的CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。