日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记

發布時間:2023/12/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記

1 引子

? 在本文中,我們提出了一種新穎的協作時空(CoST)特征學習操作,它與權重共享共同學習時空特征。

? 給定3D體積視頻張量,我們通過從不同角度觀看它們,將其展平為三組2D圖像。 然后將2D卷積應用于每組2D圖像。

圖1示出了來自示例性視頻剪輯的三個視圖的2D快照,其中一個人在體育場高跳。 H-W的視圖是人類熟悉的自然景觀。 通過在時間T上從該視圖逐幀掃描視頻,我們能夠理解視頻內容。 盡管來自涉及T(即T-W和T-H)的視圖的快照難以為人類解釋,但它們包含與正常H-W視圖完全相同的信息量。

作者在給出給出視頻序列的3D向量 T * H * W,作者首先從不同的視角把它分解成3個2D圖像集合,然后用卷積操作分別對三個圖像集合進行卷積。從三個視角得到的視頻序列分別是

1 H-W視角,就是把H-W看作一個平面,T作為單獨的一個維度把平面擴充。

2 T-W視角,就是把T-W看做一個平面,H作為單獨的一個維度把平面擴充

3 T-H視角,就是把T-H看做一個平面,W作為一個單獨的維度把平面擴充。

這樣的設計可以讓每一幀都包含豐富的動作信息,而不是在兩幀之間有動作信息,使用2D卷積可以直接捕捉時序動作線索,另外可以使用2D卷積學習時空特征而不用3D特征。

2 CoST

2.1 cost與 c3d 比較:

下圖對比CoST操作和C3D(3x3x3)和C3D(3x1x1),C3D(3x3x3)利用3D卷積把時間和空間特征聯合提取出來,C3D(3x1x1)首先用3x1x1的卷積提取時間上的特征,然后用1x3x3的卷積提取空間特征。

作者用3個3x3的2D卷積核從三個視角分別進行卷積操作,然后通過加權求和將三個特征圖進行融合,需要注意的是,這里三個卷積核參數是共享的!!!。

注釋:三個卷積核參數共享使得cost的參數量遠少于C3D,在github非官方的cost模型實現中,cost模型參數量幾乎是C3D的1/3。如果沒有參數共享,cost在參數量上與C3D相當。同時作者在論文中也詳細給出了參數能共享的原因。)

2.2 CoST(b)結構

作者設計兩種CoST結構,這里只講CoST(b)結構。 如圖所示:

輸入的的X是T×H×W×C1,C是輸入特征的通道,三個視角的卷積操作可以表示為:

其中?表示3D卷積操作,w是增加一個維度的三個視角的共享參數。

這里的卷積可以理解為:對于H-W視角,把H-W看做一個平面,T看做是平面的堆疊,其中每一個平面有C1個通道。如果單獨的看一個平面,只對一個平面進行卷積操作,則卷積核的大小為C1x3x3,卷積結果大小為H×W。從視角出發,共有T個這樣的平面,則所用的平面進行卷積之后,大小為T×H×W。因為一共用C2個卷積核,所以經過卷積之后特征圖的大小為T×H×W×C2.上述的公式中忽略了平面的通道數C1.

得到三個視角的特征后,對其進行加權求和得到該層的最終輸出:

α=[αhw,αtw,αth],其中α是一個C2×3大小的矩陣,其中3表示三個視角,C2表示得到特征圖的通道數。為了避免從多個視圖得到的響應發生巨大的爆炸,用softmax對α進行歸一化處理。

系數α是基于特征被網絡預測得到的,這個設計靈感來源于self-attention。每個樣本的系數值取決于樣本自己。


在上圖中,首先用全局pooling將三個視角的特征pooling為1x1x1,然后用1x1×1的卷積核進行卷積,這里的參數是共享的,接下來拼接在一起然后送入到全連接層,(特別的,在, the three sets of features feeds intoa fully connected (FC) layer, FC layer is applied to each row of the C2 × 3 matrix, which captures the contextual information among different views.)最后用softmax進行歸一化處理。

非官方源代碼分析 點擊這里

參考 :
[1] 非常感謝 https://zhuanlan.zhihu.com/p/111704731 ,不妥侵刪

總結

以上是生活随笔為你收集整理的Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。