日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型

發(fā)布時間:2024/9/27 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

計算機視覺三大國際頂級會議之一的 ECCV 2020 已經(jīng)召開。今年 ECCV 共收到有效投稿 5025 篇,是 ECCV 2018 論文投稿數(shù)量的二倍還要多,接收論文1361 篇,接收率為 27%,相比上屆會議下降了約 5%。在接收論文中,oral論文數(shù)為 104 篇,占有效投稿總數(shù)的 2%,spotlight 論文數(shù)目為 161 篇,占比約 3%。其中,最佳論文獎由普林斯頓大學(xué) Zachary Teed 和 Jia Deng 摘得,論文題名為RAFT: Recurre-nt All-Pairs Field Transforms for Optical Flow。論文提出的RAFT模型由于其卓越的泛化能力,成為最新的光流baseline模型:該模型在KITTI在線評價指標中獲得5.10%的異常值比率,相比于當(dāng)前公布的最佳模型提升了16%,且在MPI-Sintel在線評價指標中獲得2.855px的端點誤差,相比于當(dāng)前公布的最佳模型提升了30%。本文首先將對光流的基本概念進行闡述,接著對RAFT光流計算模型的具體實施步驟以及對應(yīng)的思路進行介紹與分析。

1 光流的基本概念

光流是運動物體或場景表面像素點在投影平面的二維瞬時速度,因此圖像序列對應(yīng)的光流不僅攜帶其中運動目標與場景的運動信息,更包含了其結(jié)構(gòu)信息。

圖1-1 光流可視化效果展示

圖1-1分別展示了光流計算技術(shù)在運動目標檢測中的應(yīng)用,可以看到:精確的光流不僅可以給出連續(xù)圖像幀中每一像素點的運動信息,還可清晰地分割出運動目標輪廓,其中,通過不同的顏色區(qū)分運動方向,顏色的深淺定義運動矢量大小。

圖1-2光流計算技術(shù)應(yīng)用

21世紀以來,隨著計算機計算的不斷提升,光流計算技術(shù)廣泛的應(yīng)用于各種更高級的計算機視覺任務(wù)中。例如,圖1-2(a) 在針對視頻的人體行為識別的研究中,可利用人體行為的光流特征,增強在時空域中人體行為特征的表述能力,顯著降低異常值點對行為識別產(chǎn)生的不良影響。圖1-2(b) 在運動目標檢測與目標跟蹤的研究中:可根據(jù)光流檢測運動目標的結(jié)構(gòu)、位移特性,減少運動目標之間的匹配時間消耗,提升在攝像機運動情況下,目標檢測、跟蹤的魯棒性。圖1-2(c) 在機器人導(dǎo)航避障的研究中,可利用光流針對圖像區(qū)域的矢量信息,獲得機器人前方區(qū)域的避障信息,提升機器人行動決策的精度。

2 RAFT光流計算模型

RAFT光流計算模型由特征提取模塊、context提取模塊、視覺相似性(Visual Similarity)計算模塊以及更新迭代模塊共同組成。下文將分別對RAFT光流計算模型中各模塊的計算流程以及原理進行分析介紹。

2.1 特征提取模塊與context提取模塊

特征提取模塊的作用為提取輸入第一幀、第二幀圖像中的特征,其中特征的分辨率為輸入圖像的1/8。Context提取模塊的作用同樣為提取特征,只不過只提取第一幀圖像的上下文信息特征,分辨率同樣為輸入圖像的1/8。在結(jié)構(gòu)上,特征提取模塊context提取模塊的結(jié)構(gòu)基本類似,區(qū)別有兩點:首先模塊中選擇的規(guī)范化層不同,特征提取模塊采用的為instance規(guī)劃化技術(shù),而context提取模塊采用的為batch規(guī)劃化技術(shù)。其次特征提取模塊輸出單一的輸入圖像特征,而context提取模塊輸出兩份輸入的圖像特征。

2.2 視覺相似性(Visual Similarity)計算模塊

視覺相似性計算模塊的作用和2018cvpr光流領(lǐng)域經(jīng)典論文PWC-Net的思想類似,區(qū)別便是,PWC-Net是在每一層特征金字塔中利用上層金字塔預(yù)測光流對當(dāng)前層的第二幀圖像特征向第一幀圖像特征進行warp,然后對warp的第二幀圖像特征與原始第一幀圖像特征進行匹配獲得對應(yīng)的cost volume,PWC-Net中cost volume的尺寸為[batch, d, h, w],例如[2,81,24,80],代表第一幀圖像特征中的每一個像素點,與warp后第二幀圖像中以這個像素點為中心的9x9鄰域范圍內(nèi)的點做匹配(點乘操作),如上式所示,其中k=4,代表匹配的半徑長度為4,與分別代表第一幀圖像特征中的像素點與第二幀圖像特征中的像素點,總共對2個batch進行上述操作。

而RAFT中的視覺相似性計算模塊的計算流程是首先對第一幀圖像特征與第二幀圖像特征匹配獲得一個[batch, h, w, h, w]的cost volume,代表第一幀圖像中的每一個像素點,都與第二幀圖像特征中所有像素點進行匹

配,總共進行batch次上述操作。匹配過程如下式所示,其中與分別為第一幀圖像特征與第二幀圖像特征,i,j,k,l分別為第一幀與第二幀圖像特征的高、寬索引, h為圖像特征的通道維度索引。RAFT在原始圖像分辨率1/8的圖像特征上通過迭代優(yōu)化光流,光流的初始值設(shè)定為0,也就是說不產(chǎn)生移動,然后通過該光流索引上述尺寸為[batch, h, w, h, w]的cost volume(方便表示記作CT1),具體來說便是:在第一次迭代中,因為光流初始值為0,那么便利用上述CT1索引第二幀圖像中以當(dāng)前像素點為中心的9x9鄰域范圍內(nèi)點的匹配結(jié)果,后續(xù)迭代中,因光流迭代之后不為0,同樣進行上述索引,只不過需要在當(dāng)前點上施加一個光流的位移,通過此操作獲得的cost volume記作CT2,尺寸為[batch, d, h, w],d與PWC-Net論文中的參數(shù)一樣,一般為81。通過上述操作便可使匹配范圍進一步擴大,進而在下文中將要提到的更新迭代模塊中求得殘差光流,用來補償初始光流。可通過Pooling操作獲得不同分辨率下的CT2,用來獲得局部以及整體的特征。

2.3 更新迭代模塊

更新迭代模塊的輸入由四部分組成:兩份context提取模塊輸出,CT2,以及上層迭代過程輸出的光流。該模塊利用GRU模塊以及卷積操作,計算出相對于上次迭代過程輸出光流的殘差光流,然后與上次迭代過程輸出光流進行相加用作補償。需要注意的是,該模塊中利用卷積操作學(xué)習(xí)上采樣權(quán)值,使當(dāng)前1/8分辨率下的光流上采樣到與輸入圖像同尺寸,具體形式如下圖所示,其中w1-w9為利用卷積操作學(xué)習(xí)到的權(quán)重,也就是說,上采樣之后的光流結(jié)果中每一像素點的值都與其周圍的9個像素點有關(guān)。最后,輸出每一次迭代過程生成的全分辨率光流結(jié)果,用于損失函數(shù)計算,更新模型中的參數(shù)。

3 RAFT模型中的損失函數(shù)

RAFT模型中總共進行12次優(yōu)化迭代,也就是說會產(chǎn)生12個全分辨率下的光流結(jié)果。迭代次數(shù)越多,光流計算精度越精確。RAFT模型采用的是監(jiān)督算法,具體步驟可以表示為:通過求取12次光流迭代過程中的光流計算結(jié)果與光流真實值的L1范數(shù),并且迭代的次數(shù)越多,對應(yīng)L1范數(shù)結(jié)果的權(quán)值也就越大(說明該結(jié)果對整個損失函數(shù)的影響越大),如下式所示,其中,N=12。

4 總結(jié)

本文敘述了ECCV最佳論文RAFT的一般計算步驟,如有不足,請多多指教。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。