显著改善分割预测,ETH开源基于情景图储存网络的视频目标分割|ECCV2020
原文鏈接:https://bbs.cvmart.net/articles/3119
專注計算機視覺前沿資訊和技術干貨
微信公眾號:極市平臺
官網:https://www.cvmart.net/
本文主要解決視頻目標分割領域的一個基本問題:如何使分割模型能夠有效地適應特定視頻以及在線目標的外觀變化。
解決辦法:提出一個圖存儲網絡來對分割模型進行“學習更新”。
大概流程分為兩步:首先構建一個由全連接圖構成的情景存儲網絡,將幀存儲為節點,并通過邊捕獲跨幀的相關性。然后,可學習的控制器被嵌入以簡化內存的讀寫。
相比于以往模型的優勢:結構化的外部存儲使可以在視覺信息有限的情況下全面挖掘并快速存儲新知識。不同的存儲控制器通過梯度下降學習了一種抽象的表示方法,可以利用這種表示學習進行預測 。另外,圖存儲網絡產生的框架,可以推廣到one-shot和zero-shot視頻目標分割任務。
論文 https://arxiv.org/pdf/2007.07020.pdf
代碼 https://github.com/carrierlxk/GraphMemVOS.git
1.引言
視頻目標分割(VOS)旨在像素級別對視頻中的一個目標進行預測,目前根據第一幀的視頻是否有注釋可以把VOS分為兩類:one-shot視頻目標分割(O-VOS)和zero-shot視頻目標分割(Z-VOS)。
O-VOS:提供第一幀的視頻注釋,可以對視頻其他部分帶標簽的目標進行分割預測。
Z-VOS:在沒有任何測試時間指示的情況下自動推斷主要目標。
O-VOS的主要困難:沒有關于特定目標的假設,應用場景有干擾對象。
支持集:視頻的第一幀注釋。
查詢集:視頻的其余幀。
針對O-VOS以往的解決方法:較早的方法,在每個帶注釋的目標上構建network ?netuning-缺點:耗時。當前流行的方法,建立一個匹配框架,將該任務描述為支持集和查詢集之間的匹配流程。
O-VOS方法的限制:
1.首先學習通用匹配網絡,然后將其直接應用于測試視頻,無法充分利用第一幀目標特定信息。 結果導致其不能有效地適應輸入視頻。
2.由于分割目標可能會出現外觀變化,因此執行在線模型更新很有意義。
3.基于匹配的方法僅對查詢和每個支持幀之間的配對關系建模,而忽略了支持集中的上下文。
本文受到了最近小樣本學習的記憶增強網絡的啟發而提出的方法:開發了一個圖存儲網絡,以通過單次前饋使在線分割模型適應特定目標。
本文模型的一些優勢:圖存儲網絡簡潔,快速。 對于內存更新,模型在固定大小的圖內存上執行消息傳遞,而不增加內存消耗。模型提供了一個框架; 它概括了Z-VOS任務,而主流方法缺乏自適應能力。這項工作代表了在統一網絡設計中同時解決O-VOS和Z-VOS的第一部分。
2.方法
2.1 預備知識:情景記憶網絡
背景:記憶網絡通過外部存儲組件增強了神經網絡,使網絡可以顯式訪問過去的經驗。常應用于小樣本學習和目標追蹤中。
解決的相關任務:情景外部存儲器網絡解決視覺問題回答和視覺對話中的推理問題。
基本思想:使用可學習的讀寫運算符從內存中檢索回答問題所需的信息。給定輸入表示的集合,情節記憶模塊通過神經注意力選擇要關注的輸入部分。然后在考慮查詢以及存儲的情況下生成“內存摘要”表示形式。情節中的每個迭代為存儲模塊提供有關輸入的相關信息。最后存儲模塊具有在每次迭代中檢索新信息并獲得有關輸入的新表示的能力。
2.2 學習更新
目標:從第一幀中帶注釋的目標學習,在后續幀中對其進行預測。
傳統方法:將網絡連接到一起,并為每個特定的視頻執行在線學習。
本文的方法:根據訓練任務的分布對各種任務構造基于情境記憶的學習器,從而使學習的模型在新的不可見的任務(測試視頻)上表現良好。將O-VOS作為“學習更新”的分割網絡來處理。
過程:
i)從one-shot支持集中提取任務表示
ii)給定任務表示形式,更新查詢的分割網絡。如圖1所示,增強具有圖結構的情景存儲網絡(即圖存儲網絡),以便:i)立即使分割網絡適應特定的對象,而不是執行大量的迭代; ii)充分利用視頻序列中的上下文。
本文的圖存儲網絡具有兩種能力:在模型初始化階段學會從one-shot支持集調整分割網絡,學會在幀處理階段利用分割幀來更新分段網絡。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-8OITJLxy-1597473017742)(https://bbs.cvmart.net/uploads/images/202008/11/71/4UYE0sxGwS.png?imageView2/2/w/1240/h/0)]
圖1 圖存儲網絡
2.3圖存儲網絡
結構:由一個外部圖存儲器和用于存儲操作的可學習控制器組成。
外部圖存儲器:為新知識編碼提供了短期存儲,其圖結構允許全面探索上下文。
控制器:進行讀取和寫入操作,與圖存儲器交互,通過權重的緩慢更新來長期存儲。 通過控制器,模型可學習兩方面的內容:1.其放入內存的表示類型,2.以后如何將這些表示用于細分預測的通用策略。
圖存儲網絡的核心思想:執行情節推理的K個步驟,以有效挖掘內存中的結構并更好地捕獲目標特定的信息。
圖存儲網絡的具體流程:
存儲器被組織為一個大小固定的全連接圖G=(M,E)G =(M,E)G=(M,E),其中節點mi∈Mm_i∈Mmi?∈M表示第i個存儲單元,邊ei,j=(mi,mj)∈Ee_i,j =(m_i,m_j)∈Eei?,j=(mi?,mj?)∈E表示 單元格mim_imi?和mjm_jmj?之間的關系。
給定一個查詢幀,支持集被認為是第一個帶注釋的幀和先前分割的幀的組合。 從支持集采樣的N(=∣M∣)N(= | M |)N(=∣M∣)幀初始化圖內存。對于每個存儲節點mim_imi?,通過將全卷積存儲編碼器應用于支持幀以捕獲空間視覺特征以及分割mask信息,來生成其初始嵌入mi0∈RW×H×Cm^0_i∈R^{W×H×C}mi0?∈RW×H×C。
圖內存讀取。 全卷積查詢編碼器也應用于查詢幀,以提取視覺特征q∈RW×H×Cq∈R^{W×H×C}q∈RW×H×C。 一個可學習的讀取控制器首先將q作為輸入并生成其初始狀態h0h_0h0?:
其中fP(?)f_P(·)fP?(?)表示映射函數。
在每個情節推理步驟k∈1,...,Kk∈{1,...,K}k∈1,...,K,讀取控制器通過讀取內容與外部圖存儲器進行交互。 遵循鍵值檢索機制,先計算查詢與每個內存節點mim_imi?之間的相似度:
接下來通過softmax歸一化函數計算讀取權重wikw^k_iwik?:
考慮到某些節點由于底層相機移動或視線不佳而產生噪聲,因此wikw^k_iwik?可以測量存儲單元mim_imi?的置信度。 然后使用此權重檢索內存聚合mkm_kmk?以線性組合內存單元:
通過等式(2-4),存儲器模塊檢索與hkh_khk?最相似的存儲器單元,以獲得存儲器聚合mkm_kmk?。 讀取內存匯總后,讀取控制器將更新其狀態,如下所示:
其中WsW_sWs?和UsU_sUs?是卷積核,σ表示Sigmoid激活函數。 “ *”和“?”分別代表卷積運算和Hadamard乘積。 更新門aka^kak控制要保留多少先前的隱藏狀態hk?1h^{k-1}hk?1。 通過這種方式,控制器的隱藏狀態對圖存儲器和查詢表示進行編碼。
情景圖內存更新:
每次通過內存匯總后,都需要使用新的查詢輸入來更新情節圖內存。 在每個步驟k,可學習的存儲器通過考慮其先前狀態mk?1m^{k-1}mk?1寫入控制器,來自讀取控制器hkh^khk的當前內容以及來自其他單元${m^{k-1}_j} 的狀態來更新每個存儲單元。首先將從的狀態來更新每個存儲單元。 首先將從的狀態來更新每個存儲單元。首先將從m_j到到到m_i的關系的關系的關系e^k$公式化為其特征矩陣的內積相似性:
其中We∈RC×CW_e \in R^{C \times C}We?∈RC×C表示可學習的權重矩陣,mik?1∈R(WH)×Cm^{k-1}_i\in R^{(WH)\times C}mik?1?∈R(WH)×C和mjk?1∈R(WH)×Cm^{k-1}_j\in R^{(WH)\times C}mjk?1?∈R(WH)×C被固定為矩陣表示形式。ei,jke^k_{i,j}ei,jk?存儲與mim_imi?和mjm_jmj?中所有位置對 對應的相似性分數。
然后,對于mim_imi?,從其他單元格計算歸一化的信息cikc^k_icik?,并對其歸一化的內積相似性進行加權:
其中softmax(·)標準化輸入的每一行。
匯總來自鄰居的信息后,內存寫控制器將mim_imi?的狀態更新為:
圖內存更新允許每個內存單元將鄰居信息嵌入到其表示中,以便全面探索支持集中的上下文。 此外,通過對圖結構進行迭代推理,每個存儲單元對新的查詢信息進行編碼,并逐漸改進表示形式。與傳統的存儲網絡相比,本文的圖存儲網絡具有兩個優點:i)將內存寫操作融合到內存更新過程中,而不會增加內存大小,并且ii)避免設計復雜的內存寫策略。 圖2顯示了內存讀取和更新。
最終分割Readout 在對情節性存儲器進行K步更新之后,利用來自存儲器讀取控制器的最終狀態hKh_KhK?來支持對查詢的預測:
讀數函數fR(?)f_R(·)fR?(?)給出最終的分割概率圖。
圖 2 內存讀取和更新
2.4 網絡架構
網絡配置 總體模型以端到端的全卷積實現;查詢編碼器和內存編碼器都具有相同的結構;圖存儲器,讀控制器(等式(5))和寫控制器(等式(8))均使用具有1×1卷積內核的ConvGRU實現;投影函數fP(等式(1))也通過1×1卷積層實現;讀出函數fR(等式(9))由一個解碼器網絡實現,該網絡由四個塊組成,這些塊具有與相應的ResNet50塊的skip-connection;解碼器中每個卷積層的內核大小設置為3×3,最后一個1×1卷積層除外;查詢和內存編碼器實現為ResNet50的四個卷積塊,由ImageNet上預訓練的權重初始化;
輸入:查詢編碼器以RGB查詢幀作為輸入;內存編碼器,輸入為RGB支持幀;存儲器編碼器以二進制掩碼和實例標簽圖作為輸入
訓練 對于O-VOS,按照“遞歸訓練”訓練模型。通過對支持集進行采樣以構建圖存儲器和相關查詢集來形成每個訓練周期。遞歸訓練的核心是模仿推理過程。對每個視頻采樣N + 1幀構建支持集(前N幀)和查詢集(最后一幀)。N個支持幀可以由N節點存儲器圖表示。將交叉熵損失應用于監督訓練。
為了防止圖記憶僅記住實例與單向矢量標簽之間的關系,本文采用了標簽關閉策略。如圖3所示,分割網絡通過考慮當前的訓練樣本而不是記住目標和給定標簽之間的特定關系來學習區分當前幀中的特定實例。
為了進一步提高性能,通過合成視頻擴展了訓練集。對于靜態圖像,采用視頻生成技術通過不同的變換操作來獲得模擬的視頻剪輯。靜態圖像來自現有的圖像分割數據集。在對合成視頻進行預訓練之后,將真實視頻數據用于微調。
對于Z-VOS,遵循與O-VOS類似的訓練協議,但是輸入模態僅具有RGB數據。本文專注于對象級別的Z-VOS設置,因此不使用標簽切換策略。
推理
訓練后直接將網絡應用于測試集。對O-VOS按順序處理每個測試視頻。前N個幀直接計算內存匯總(等式(4))并將這些幀寫入內存。從第(N + 1)幀開始,在分割之后將使用該幀更新圖內存。考慮到第一幀及其注釋始終提供最可靠的信息,重新初始化存儲有關第一幀信息的節點。因此使用第一個帶注釋的幀,最后一個分割的幀和從先前的分割幀中采樣的N-2個幀,以及它們的預定義或分割掩碼來構建內存。對于多實例的情況,為每個實例獨立運行模型,并為每個實例獲得soft-max概率掩碼。對于Z-VOS,從同一視頻中隨機采樣N幀以構建圖內存,然后根據所構建的內存處理每個幀。
考慮到全局信息比局部信息對于處理潛在的對象遮擋和相機移動更重要,因此通過使用全局采樣的幀重新初始化圖形存儲器來獨立處理每個幀。
3.實驗結果
3.1O-VOS的性能
O-VOS使用DAVIS17 和Youtube-VOS 數據集
圖4 O-VOS的量化結果
3.2 Z-VOS的性能
Z-VOS使用DAVIS16 和Youtube-Objects數據集
表 3 Z-VOS在DAVIS16的評估
表 4 Z-VOS在Youtube-Object的評估
圖 5 Z-VOS的量化結果
4 總結
本文主要提出了一種新的圖存儲機制,可以有效地使分割網絡適應特定視頻。通過對存儲圖進行情節推理,所提出的模型能夠生成視頻專用的存儲摘要,從而顯著改善最終的分割預測。 同時,可以通過可學習的內存控制器來實現在線模型更新。圖存儲網絡簡潔,快速。 模型在內存更新時可以在固定大小的圖內存上執行消息傳遞,而不增加內存消耗。
關注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術干貨/招聘面經等
總結
以上是生活随笔為你收集整理的显著改善分割预测,ETH开源基于情景图储存网络的视频目标分割|ECCV2020的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算成本缩减100倍!港中文提出语义分割
- 下一篇: 武大上交发布首篇「图像匹配」大领域综述!