日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Consistent Video Depth Estimation——视频深度一致估计

發(fā)布時間:2024/1/18 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Consistent Video Depth Estimation——视频深度一致估计 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Paper?|?Code

文章核心

提出一種算法——重構單眼視頻中所有像素的稠密的幾何一致的深度,其利用了傳統(tǒng)的SFM(從運動中重構)來建立視頻中像素的幾何約束。與經典重建中的特殊先驗不同的是,本文使用的是基于學習的先驗(如:訓練卷積神經網絡來估計單張圖像的深度)。在測試階段,微調網絡來滿足特定輸入視頻的幾何約束,同時保留其在約束較少的視頻部分來合成看似合理的深度細節(jié)。定量分析,方法確實比以往的單眼重構方法具有更高的精度和更高的幾何一致性。可視化的情況下,本文的結果也似乎更為穩(wěn)定。本文的算法能夠處理-手拍的中等程度運動的視頻。面向的應用包括場景重建、視覺特效等。

介紹:

利用圖像序列進行三維場景重建的研究屢見不鮮。最初,視頻中的運動所帶來的場景結構的估計不穩(wěn)定,即模型魯棒性差,使其只能在實驗環(huán)境下,即具有高度校準和可預測的設置,才能表現(xiàn)良好。有時甚至產生的是稀疏結構(如:解決只跟蹤一些孤立點的深度)。隨后,由于高質量的開源重建系統(tǒng)和基于學習的技術的最新進展,從更隨便得到的視頻中,產生更密集的結構得到了良好的進展。

3D重建最簡單的輸入來源就是手機視頻,其最為普遍。如果能從這樣的輸入中實現(xiàn)完全密集和準確的重建,這將是非常有用的——然而,這個過程是相當困難的。

任何圖像重構系統(tǒng)都存在必須處理的典型問題,如紋理較差的區(qū)域、重復圖案、遮擋;視頻還存在更多的難題,比如更高的噪聲等級、震動、運動模糊、滾動快門變形、相鄰幀之間的小基線,包括動態(tài)的物體,比如人。因此,研究中總會遇到各種各樣的問題,比如在深度圖中缺失區(qū)域(b)、不一致的幾何形狀以及閃爍(c)等。

傳統(tǒng)的方法:稀疏的SFM+密集的多視圖點云——本質上匹配極線的補丁,如果匹配正確時,可以實現(xiàn)幾何上準確的重建。但是,由于前面提到的復雜性,匹配通常是有噪聲的,通常需要使用啟發(fā)式平滑先驗進行正則化。這通常會導致受影響區(qū)域出現(xiàn)不正確的幾何形狀,因此許多方法以低置信度完全丟棄像素,在重建中留下“洞”(如b1)。

最近,基于學習的單張圖像方法得到巨大進展。這樣就能擯棄啟發(fā)式正則化(heuristic regularization),直接從數(shù)據中學習場景的先驗,這樣可以更好地在傳統(tǒng)重建方法中,對先前弱甚至錯誤的部分能夠進行更好地合成場景的可信深度。尤其,在重建動態(tài)場景方面表現(xiàn)出色,因為從單幀的角度,靜態(tài)對象和動態(tài)對象是相同的。但是,如果對每幀都進行獨立的處理,那么估計的深度經常不規(guī)律地閃爍,而且它也不是度量的,(即與單張縮放因子的真實深度無關),這實際上就是視頻重建時幾何上的不一致,就好像物體隨相機在晃動,而不是在真實場景運動。

視頻深度估計的方法有哪些呢?

  • 通過遞歸神經網絡隱式地解決隨時間重建地幾何一致性問題
  • 明確的使用多視圖重建
  • 但是,解決的主要是靜態(tài)場景。(靜態(tài)場景還能算視頻???小趙困惑,先留疑)

    文章就提出了他們的方法:一種新的基于視頻的重構系統(tǒng)——結合了傳統(tǒng)方法的優(yōu)勢+基于學習的技術。具體而言:利用傳統(tǒng)獲得幾何約束的方法,實現(xiàn)精確、一致的深度,利用基于學習的先驗來合理的填充前者弱約束區(qū)域的方法。在測試時微調單個圖像深度估計網絡的權值,以便它學習滿足特定場景的幾何形狀,同時保持其在必要時合成可信的新深度細節(jié)的能力。我們的測試時間訓練策略允許我們同時使用短期和長期的約束,防止隨時間的漂移。

    結果:所得到的深度視頻是完全密集和詳細的,有清晰的物體邊界。整個視頻滿足幾何一致性,從而無閃爍出現(xiàn)。

    • 效果:靜態(tài)物體投射到世界空間時,十分穩(wěn)定。該方法甚至支持運動較緩慢的動態(tài)場景運動(如圖),遺憾的是,運動劇烈時,其效果就急速下降。
    • 應用:深度視頻的質量和幾何一致性可以促進新應用的出現(xiàn),如圖密集場景內的內容交互,全自動視頻特效。

    相關工作:

    1 Supervised monocular depth estimation——有監(jiān)督的單眼深度估計

    • 早期基于學習的方法將局部圖像特征回歸到深度或離散的幾何結構,然后進行一系列的后處理步驟?;谏疃葘W習的模型已成功應用于單張圖像深度估計,但是,訓練這些模型需要難以獲得的GT深度圖。
    • 前人的工作有:
      • 基于域適應性訓練合成數(shù)據集
      • 收集相對深度的注釋
      • 使用傳統(tǒng)的SFM與多視圖點云算法從網絡圖像、3D電影,獲取偽地面真實深度圖

    本文的方法建立在單圖像深度估計的最新進展的基礎上,進一步提高了視頻深度估計的幾何一致性。

    2 Self-supervised monocular depth estimation——自監(jiān)督的單眼深度估計

    • 訓練的數(shù)據集需求大,但其收集并不容易,自監(jiān)督學習的方法能夠直接從原始立體對或單眼視頻中進行單眼深度估計的學習,廣受關注。核心思想:應用不同的扭曲和最小化光度再投影誤差。
    • 最近用來訓練提高性能的方法有:光流、物體移動、曲面法線、邊緣、視覺度量;其他方面包括:立體信息、更好的網絡架構和訓練損失設計、尺度一致的自我運動網絡、結合三維幾何約束、以及從未知相機本質中學習。
    • 許多自監(jiān)督的方法都使用了光度損失。但是,即使幾何形狀不一致(特別是在紋理較差的區(qū)域),也可以滿足這些損失。此外,由于更大的外觀變化,它們不能很好地適用于時間上跨度大的框架。同時,在消融研究中,表明:長期的時間約束對于獲得良好的結果是重要的。

    3 Multi-view reconstruction——多視點重建

    • 多視點立體算法利用從任意視點捕獲的多張圖像來估計場景深度。最近基于學習的方法利用傳統(tǒng)的基于幾何的方法中成熟的原則,在多視圖重建中顯示了最先進的性能。
    • 但是,這些多視圖立體聲技術假設的是一個靜態(tài)場景。對于動態(tài)對象,這些方法要么產生錯誤的估計,要么以低置信度下降像素。

    相比之下,我們的方法產生密集的深度,即使存在中等程度的動態(tài)場景運動。

    4 Depth from video——視頻深度

    • 從單眼視頻中恢復密集的深度是一個具有挑戰(zhàn)性地問題。現(xiàn)有技術依賴于運動分割和對場景中的運動對象顯式運動建模,進而處理移動的物體。也有方法通過使用兩幀或多幀來合成運動估計和多視圖重建來估計深度?,F(xiàn)在流行估計視頻深度方法——基于將附近幀扭曲到參考視點構建cost volume,回歸深度(或預測深度的分布)。因此,該模型不考慮動態(tài)移動的對象。

    相比之下,雖然本文也利用了來自多視圖幾何的約束,但深度是從(微調的)單圖像深度估計模型中估計的,從而自然地處理動態(tài)對象,而不需要顯式的運動分割。

    5 Temporal consistency——時間一致性

    • 將視頻的每一幀做單張圖像深度估計,由于獨立處理,就會導致整體看時,出現(xiàn)幀閃爍問題。由此,前人提出了一系列加強時間一致性的方法:樣式轉換的上下文、基于圖像的圖形應用程序、視頻到視頻的合成、與應用程序無關的后處理算法。
    • 核心思想是引入“時間一致性損失”(在訓練或測試時間),從輸入視頻中估計時間對應的相似值。在視頻深度估計的背景下,明確的應用基于光流的一致性損失或含蓄的使用遞歸神經網絡來表示時間一致性,使估計的深度更具有時間一致性。

    本文工作的不同之處在于,目標是從一個幾何一致的視頻中產生深度估計。這對于隨意捕捉的視頻尤其重要,因為隨著時間的推移,實際的深度可能在時間上不一致。

    6 Depth-aware visual effects——深度感知視覺效果

    • 密集的深度估計有利于廣泛的視覺效果,如合成景深、新視點合成、遮擋感知增強現(xiàn)實。

    本文工作從隨意捕獲的視頻實現(xiàn)深度一致的估計,能夠實現(xiàn)視頻特效。

    7 Test-time training——測試時間訓練

    • 基于測試數(shù)據的學習已經被用于幾個不同的情況:視覺跟蹤中的在線更新、將物體探測器從圖像調整到視頻、以及學習視頻特定功能的重新識別。與本文最密切相關的工作是,通過使用測試視頻序列微調預先訓練好的模型來改進單眼深度估計結果。
    • 請注意,任何自監(jiān)督的方法都可以在測試時進行訓練。但是,以前的方法主要是實現(xiàn)每幀的精度,而本文的重點是實現(xiàn)具有全局幾何一致性的精確預測。

    與以往的方法相比,我們的方法以更高的時間平滑度實現(xiàn)了精確和詳細的重建,這對許多基于視頻的應用非常重要。

    除了這些目標之外,本文的方法和之前的方法之間還有一些重要的技術差異。前人的方法執(zhí)行一個二進制對象級分割,并估計每個對象的剛性轉換。這適用于剛性物體,如街景中的汽車,但不適用于高度變形的物體,如人。也有人使用了一個類似于本文的幾何損失,然而,它們只對連續(xù)的幀對和相對姿態(tài)進行訓練。本文使用絕對的姿態(tài)和長期的時間連接,消融實驗證明了其對獲得良好的結果是至關重要的。

    總覽:

    本文的方法以單目視頻作為輸入,并估計每個視頻幀的相機姿態(tài)以及密集的、幾何上一致的深度圖(達到比例模糊度)。術語幾何一致性不僅意味著深度映射不會隨時間而閃爍,而且還意味著所有的深度映射都是相互一致的。也就是說,可以通過像素的深度和相機姿態(tài)在幀之間精確地投射像素。例如,一個靜態(tài)點的所有觀測結果都應該映射到世界坐標系中的一個共同的3D點,而不會發(fā)生漂移。

    當輸入視頻是隨意捕獲的,其深度估計具有很多挑戰(zhàn)特性。因為它們經常是用手持、未校準的相機拍攝,拍攝的視頻存在運動模糊和滾動快門變形。惡劣的照明條件可能會導致噪音水平的增加和額外的模糊。最后,這些視頻通常包含動態(tài)移動的物體,如人和動物,從而打破了許多為靜態(tài)場景設計的重建系統(tǒng)的核心假設。

    傳統(tǒng)方法:正如在前面幾節(jié)中解釋的,在場景中有問題的部分,傳統(tǒng)的重建方法通常會產生“洞”(或者,如果被迫返回結果,估計非常嘈雜的深度)。但是,在這些方法有足夠的信心返回結果的領域,它通常是相當準確和一致的,因為它們強烈依賴于幾何約束。

    基于學習方法:最近基于學習的方法具有互補特性,這些方法可以很好地處理上述的挑戰(zhàn),因為它們利用強大的數(shù)據驅動,然后從任何輸入圖像預測可信的深度映射。然而,這些方法對每個幀都獨立地處理,會導致幾何上不一致和時間閃爍的結果。

    本文的想法是結合這兩種方法的優(yōu)勢。利用現(xiàn)有的單圖像深度估計網絡,經過訓練為一般顏色圖像合成可信(但不一致)深度,使用傳統(tǒng)重建方法從視頻中提取的幾何約束對網絡進行微調。因此,該網絡學會了在一個特定的視頻上產生幾何上一致的深度。


    本文方法分為兩個階段:

    預處理:

    • 作為提取視頻幀間幾何約束的基礎,首先使用現(xiàn)成的開源軟件COLMAP執(zhí)行傳統(tǒng)的動態(tài)結構(SfM)重建管道,為了改進動態(tài)運動視頻的姿態(tài)估計,應用MaskR-CNN來獲得對人進行分割并去除這些區(qū)域,以便更可靠的關鍵點提取和匹配,因為在我們的視頻中,人占了動態(tài)運動的大部分。這一步提供了精確的內在和外在攝像機參數(shù)以及稀疏點云重建。同時,還利用光流估計了幀對之間的密集對應關系。相機校準和密集的對應關系,加在一起,進而能夠制定本文的幾何損失,如下所述。
    • SfM重建的第二個作用是提供場景的尺度。由于本文的方法適用于單眼輸入,重建在尺度上是模糊的?;趯W習的深度估計網絡的輸出也是尺度不變的。因此,為了限制網絡必須改變的數(shù)量,調整了SfM重建的尺度,使其在魯棒平均意義上匹配基于學習的方法。

    測試時間訓練:

    • 在這一階段,主要是微調一個預先訓練的深度估計網絡,使它為特定的輸入視頻產生更幾何一致的深度。在每次迭代中,采樣一對幀,并使用當前的網絡參數(shù)估計深度圖。通過比較密集的對應關系使用當前的深度估計得到的重投影,可以驗證深度圖在幾何上是否一致。本文提出了2種損失:spatial lossdisparity loss并將其反向傳播以更新網絡的權重(為所有幀共享)。隨著時間的推移,對許多幀對進行迭代采樣,損失被降低,網絡學習估計該視頻幾何一致的深度,同時保持其在較少約束的部分提供合理的正則化的能力。
    • 本文最終的深度圖在幾何上是一致的,在整個視頻的時間上是一致的,同時準確地描述了清晰的遮擋邊界,即使是動態(tài)移動的物體。通過深度計算,可以獲得適當?shù)纳疃冗吘壍恼趽跣Ч?#xff0c;并使真實場景的幾何形狀與虛擬對象進行交互。

    預處理:

    1 Camera registration——相機參數(shù)

    • 使用SFM和多視圖立體重建軟件COLMAP來估計N個視頻的每張幀的相機內參、外參,以及一個半密集深度圖,同時,將未定義深度的像素的值設置為零。
    • 由于動態(tài)對象在重構中會出現(xiàn)嚴重誤差,因此應用MaskR-CNN獨立分割每一幀的人(因為人是視頻中最常見的“動態(tài)對象”),并抑制這些區(qū)域的特征提取(COLMAP提供了這個選項)。由于智能手機相機通常不會失真,本文使用SIMPLE_PINHOLE相機模型,并解決了所有幀的共享相機內部問題,以證明工作提供了一個更快、更健壯的重建。我們使用窮舉匹配器并啟用引導匹配。

    2 Scale calibration——尺度校準

    • SfM的尺度和基于學習的重建通常不匹配,因為這兩種方法都是尺度不變的。這表現(xiàn)在兩種方法產生的深度圖的不同值范圍內。為了使尺度與幾何損失相容,調整SfM尺度,這可以簡單地通過將所有相機平移乘以一個因子來實現(xiàn)。(公式細說見文)

    3 Frame sampling——幀采樣

    • 在后續(xù)工作中中,需要計算特定幀對的密集光流。對于視頻中的所有幀對,,其計算成本將非常高。因此,在此使用一個簡單的層次方案來將幀對的集合進行優(yōu)化。

    4?Optical flow estimation——光流估計

    • 計算所有的幀對的密集光流場。因為當幀對盡可能對齊時,光流估計效果最好,所以首先利用 homography warp對齊幀( 幀間距離可能遙遠 ),進而消除兩幀之間的自主運動(如,相機旋轉),因此利用光流網絡計算對齊幀之間的光流。為了考慮移動對象和遮擋/去遮擋(因為它們不滿足幾何約束或不可靠),應用 前向后一致性檢查 ,并刪除前向后誤差大于1像素的像素,產生一個二進制映射。此外,觀察到 幀對很少重疊的光流估計結果是不可靠的 ,因此,我們不考慮重疊面積 占圖像面積的20% 的任何幀對。

    關于輸入視頻的測試時間訓練:

    • 測試時間訓練過程,也就是說,如何通過微調深度網絡來強制深度網絡,從而為特定的輸入視頻產生更一致的深度。首先描述本文的幾何損失,然后是整個優(yōu)化過程。11

    1?Geometric loss =?spatial loss +disparity loss

    • 對于跟定的一對幀,光流場描述了哪些像素對顯示了相同的場景點??梢允褂霉饬鱽頊y試當前深度估計的幾何一致性:如果光流是正確的,并且光流位移點深度重投影點相同,那么深度一定是一致的。
    • 本文方法的想法是,將其它作為一個幾何損失,并通過網絡反向傳播任何一致性誤差,從而迫使它產生比以前更一致的深度。幾何損失由兩部分組成,即圖像空間損失和視差損失。

    2?Discussion——討論

    • 深度映射在假定為靜態(tài)場景情況下,光流映射可以解決動態(tài)移動情況。這種情況下,如何還能產生一個準確的深度估計呢?存在有兩種情況:
      • Consistent motion(例如,一輛移動的汽車)有時可以與極線幾何對齊,但導致估計錯誤的深度。
      • Consistent motion-極線不對齊或運動不一致(例如,揮舞的手)導致沖突的約束;根據經驗,測試時間訓練可以容忍這些沖突的約束,并產生準確的結果。

    3?Optimization——優(yōu)化

    • 利用幾何損失,使用標準的反向傳播來微調網絡的權重。使用預先訓練好的深度估計模型初始化網絡參數(shù),從而能夠實現(xiàn)遷移學習,以便在圖像上生成可信的深度圖,這對于傳統(tǒng)的基于幾何的重建系統(tǒng)具有挑戰(zhàn)性。使用固定數(shù)量的epoch(所有實驗設置為20個epoch)來微調網絡。在實踐中,發(fā)現(xiàn),通過這個簡單的微調步驟,網絡訓練不會過擬合數(shù)據,因為它不會失去在場景中無約束或弱約束部分合成合理深度的能力。同時,訓練處理了一定數(shù)量的錯誤監(jiān)督(例如,錯誤的信息傳遞)。

    4 Implementation details——復現(xiàn)細節(jié)

    • 經實驗了幾種單眼深度估計結構和預先訓練的權重。如果沒有其他說明,論文中的結果和伴隨的材料使用前人的網絡(單圖像模型)。如其所述,在評估中使用了其他網絡。給定一個輸入視頻,一個epoch定義在s中的所有幀對。在所有的實驗中,使用ADAM優(yōu)化器為0.0004。對不同長度的視頻進行測試時間訓練的時間也有所不同。對于一個244幀的視頻,在4個NVIDIATesla?M40gpu上的訓練需要40min。

    結果與評價:

    1 實驗設置

    • 數(shù)據集:自定義立體視頻數(shù)據集進行評估。測試集由靜態(tài)和動態(tài)場景組成,帶有中度運動的物體,此外,定量分析用到:the TUM dataset 、?the ScanNet dataset 、?the KITTI 2015 dataset。
    • 評估指標:為了評估和比較在本文自定義立體視頻數(shù)據集上的單眼視頻估計深度的質量,我們使用了以下三個不同的指標。
      • Photometric error ?- 光度誤差,使用光度誤差來量化恢復深度的準確性。所有的方法都是從左視頻流中估計深度的。使用估計的深度,將左側視頻流重新投影到右邊的像素,并計算光度誤差作為RGB差異的均方誤差。因為深度圖只能估計到尺度模糊。需要將估計的深度映射與立體視差對齊。具體地說,通過從立體對上的估計流中取水平分量來計算立體視差。對于每個視頻幀,使用基于RANSAC的線性回歸計算尺度和移位對齊到計算的立體視差。通過取所有幀的尺度/位移的平均值來獲得全局(視頻級)尺度和位移參數(shù)。
      • Instability-不穩(wěn)定性,在一個視頻中測量估計的深度圖隨時間的不穩(wěn)定性如下。首先,使用一個標準的KLT跟蹤器從輸入的單目視頻中提取一個稀疏的可靠跟蹤集。然后,將2D軌跡轉換為3D軌跡,使用相機姿態(tài)和校準深度將2D軌跡取消投影到3D。為了得到一個完美穩(wěn)定的重建,每個3D軌道都應該聚合到一個單一的3D點。因此,可以通過計算每對連續(xù)幀的三維點的歐氏距離來量化不穩(wěn)定性。
      • Drift-漂移程度,在許多情況下,雖然上面描述的3dtrack對于連續(xù)幀可能顯得有些穩(wěn)定,但誤差可能會累積,并隨著時間的推移導致漂移。為了測量一個特定的三維軌跡的漂移量,我們計算了由三維軌跡形成的協(xié)方差矩陣的最大特征值。直觀地說,這測量的是3D點在時間上的傳播程度。
    對于靜態(tài)序列,使用所有三個指標來評估估計的深度。對于動態(tài)序列,只評估光度誤差和不穩(wěn)定性,因為漂移度量不考慮在場景中動態(tài)移動的對象。

    2 定量分析

    比較方法:將本文的結果與目前最先進的三類深度估計算法進行了比較。

    • Traditional multi-view stereo system : COLMAP
    • Single-image depth estimation:Mannequin Challenge
    • Video-based depth estimation:WSVD?and NeuralRGBD

    Quantitative comparison:如上圖所示,光度誤差、不穩(wěn)定性和漂移度量與完整性的關系圖。在所有三個指標中,本文的方法都優(yōu)于以前算法。當評估不穩(wěn)定性和漂移指標時,本文結果特別突出,重點在于其一致性。如下表,描述的更為具體。

    Visual comparison:如下圖所示,對不同的深度估計方法做定性比較。傳統(tǒng)的多視圖立體方法在高紋理區(qū)域產生精確的深度,可以建立可靠的匹配。這些深度圖包含大孔(黑色像素),如下圖b所示?;趯W習的單圖像深度估計方法為每個單獨的視頻幀生成密集的、可信的深度圖。然而,隨著時間的推移,閃爍的深度會導致幾何上不一致的深度重建?;谝曨l的方法,如NeuralRGBD可以了時間閃爍,但由于用于深度估計的時間窗口有限,會出現(xiàn)漂移。

    3 消融實驗

    進行消融研究,以驗證采用的幾種設計選擇的有效性。首先研究了損失的影響以及管道中不同步驟的重要性,包括尺度校準和重疊測試。在下表中總結了這些結果。下圖也顯示了各種模塊的重要程度。

    實驗表明,使用長期約束有助于提高估計深度隨時間變化的穩(wěn)定性。由于視差損失也有助于減少時間閃爍,在下圖中進一步研究了兩種設計選擇的影響。結果表明,包括來自長期幀對的約束將導致更尖銳和時間上更穩(wěn)定的結果。相比之下,雖然添加視差損失可以減少時間閃爍,但當只使用連續(xù)的幀對時,它會產生模糊的結果。

    4 對公共基準測試的定量比較

    提供三個公開的基準數(shù)據集的定量結果,以評估本文的深度估計的性能。在所有的評估設置中,調整輸入圖像的大小,使最長的圖像尺寸為384。微調了20個epoch的單眼深度估計網絡(與立體視頻數(shù)據集中使用的評估設置相同)。?

    TUM-RGBD dataset:本文方法在所有的評估指標中都比之前的方法相比有很大的優(yōu)勢。特別是,提出的測試時間訓練顯著提高了Li等人的基線模型的性能

    ScanNet dataset:本文方法實現(xiàn)了與最先進的算法的競爭性能,性能略低于在掃描網訓練集上訓練的DeepV2D方法。

    ?KITTI dataset:結果表明,我們的方法確實提高了在80%以上的測試幀的性能(即使當與具有高分辨率輸出的模型相比)。然而,由于COLMAP在場景中具有大動態(tài)對象的序列中產生錯誤的姿態(tài)估計,微調方法不可避免地會產生具有非常大誤差的深度估計。本文的方法也難以處理重要的動態(tài)場景運動。因此,當結果在所有的測試幀上被平均時,方法并沒有得到明顯的改進。

    基于視頻的視覺效果

    一致的視頻深度估計使有趣的基于視頻的特殊效果。如下圖顯示了這些效應的樣本。

    缺陷:

    所提出的視頻深度估計方法存在一些局限性和缺點。

    ?Poses:方法目前依賴于COLMAP來從單眼視頻中估計相機的姿態(tài)。然而,在具有挑戰(zhàn)性的場景下,例如,有限的相機平移和運動模糊,COLMAP可能無法產生可靠的稀疏重建和相機姿態(tài)估計。較大的姿態(tài)誤差對本文的結果有很強的退化效應。這限制了方法對此類視頻的適用性。

    Dynamic motion:本文方法僅支持包含適度物體運動的視頻,不支持極端的物體運動。

    Flow:本文依賴于FlowNet2來建立幾何約束。不可靠的光流通過向前向后的一致性檢查進行過濾,但它可能以一致的方式偶然錯誤。在這種情況下,將不能產生正確的深度。嘗試使用稀疏流(在常規(guī)網格上對密集流進行子采樣),但效果不佳。

    Speed:當使用視頻中的所有幀來提取幾何約束時,不支持在線處理。例如,對于一個包含244幀和708個采樣流對的視頻,測試時間訓練步驟大約需要40分鐘。而在未來開發(fā)在線和快速的變體將對實際應用非常重要。

    總結:

    文章提出了一種簡單而有效的方法來估計從單眼視頻的一致深度。利用傳統(tǒng)的多視圖重建方法提取的幾何約束,并使用它們來微調預先訓練好的單幅圖像深度估計網絡。使用測試時間微調策略,網絡學習在整個視頻上產生幾何上一致的深度估計。同時,進行了廣泛的定量和定性評價。結果表明,本文方法優(yōu)于幾種最先進的深度估計算法。同時,一致的視頻深度估計使引人注目的基于視頻的視覺效果。

    總結

    以上是生活随笔為你收集整理的Consistent Video Depth Estimation——视频深度一致估计的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。