ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记
? 理解出錯之處望不吝指正。
? 本文模型叫做DSiam。作者提出一個Dynamic Siamese Network,可以使用一個transformation learning model來在線學習目標的外觀變化并且壓制背景信息。本文的另一個創新點在于作者提出了一個自適應聚合各個層的特征的方法(elementwise multi-layer fusion)。并且,本模型不用像以往的基于Siamese的模型使用pairs訓練,而是使用整個video sequence一起訓練。
? 模型的整體結構如下(虛線代表的是Siamese Network的步驟):
? 傳統的Siamese Network最終的結果通過下式計算(代表時間,代表第層):
???
? 在本文提出的模型中,公式如下:
???
? 這里代表target appearance variation transformation,目的是使當前幀得到的特征圖相對于前些幀的特征圖的變化變得平滑。代表background suppression transformation,目的是在特征圖中“高亮”目標,減輕不相干的背景信息。“”代表循環卷積操作。
? 對于和,作者都是用的是如下的正則線性回歸進行訓練。
???
? 由于循環卷積操作,該式可以在頻域快速計算(那個“五角星”代表共軛):
???
? 和的損失函數如下所示(具體每個符號代表什么可以在圖中看出):
???
???
???
???
???
? 作者提到的elementwise multi-layer fusion其實就是訓練一個矩陣,矩陣中的數值代表不同特征圖的不同位置的權重,最終得到的respone map計算如下:
???
???
?
? 使用single layer的網絡結構如下圖所示:
???
? 作者詳細推導了RLR和CirConv的梯度,使得模型可以端到端的訓練:
???
???
???
? 訓練的過程就是,首先經過前向傳播,對于給定的N幀視頻序列,我們進行tracking后得到N個響應圖,用表示。同時,N個gound truth用表示。則損失函數即為:
???
???
? 使用BPTT(backpropagation through time)和SGD進行梯度傳播和參數更新。
總結
以上是生活随笔為你收集整理的ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICCV 2017 UCT:《UCT:
- 下一篇: CVPR 2010 MOSSE:《Vis