视频行为理解
from:https://x-algo.cn/index.php/2019/08/31/3220/
行為識(shí)別是用來識(shí)別“人自身”、“人和人”、“人和物”的“行為”。比如“抽煙”,“打架”。這個(gè)任務(wù)有好幾個(gè)數(shù)據(jù)集,接下來先介紹一下各個(gè)數(shù)據(jù)集。
數(shù)據(jù)集
HMDB-51(2011)
- 其中包含51 action,7k clips;
- 這個(gè)數(shù)據(jù)集合包含不同種類的視頻(camera motion, viewpoint, video quality and?occlusion)
- 和以往的數(shù)據(jù)集比較,這個(gè)視頻數(shù)據(jù)更加真實(shí),并且會(huì)有遮擋機(jī)位變化等。
- 當(dāng)前數(shù)據(jù)集通過靜態(tài)的人體關(guān)節(jié)變化不能識(shí)別對(duì)應(yīng)的行為
- 51個(gè)action中,每一個(gè)至少包含101個(gè)clip
下圖為和其他數(shù)據(jù)集的對(duì)比:
和其他數(shù)據(jù)集合的對(duì)比
數(shù)據(jù)樣例:點(diǎn)擊我;
包含的行為種類有:
51個(gè)種類的分組
論文:H. Kuehne, et al. HMDB: A large video database for human motion recognition. In ICCV, pages 2556-2563, 2011.
UCF-101(2012)
- 101類別,13k樣本,27小時(shí)時(shí)長(zhǎng)
- 整個(gè)數(shù)據(jù)可以分為五類,每一類數(shù)據(jù)都會(huì)有25個(gè)元數(shù)據(jù)(不同的 background or actors ):
- 人物交互:呼啦圈,雜耍球,跳繩
- 單人行為:開合跳:弓步壓腿,引體向上
- 多人行為 :軍事游行,雙人舞蹈,樂隊(duì)前進(jìn)
- 演奏樂器:吉他,鋼琴
- 運(yùn)動(dòng):棒球投球,籃球投球
數(shù)據(jù)整體情況
論文:K. Soomro, et al. UCF101: A dataset of 101 human action classes from videos in the wild. CoRR, abs/1212.0402, 2012.
Sports-1M(2014)
- 487 classes,1 millionYouTube videos
- 數(shù)據(jù)并不是通過人工標(biāo)注的,而是通過視頻的文本信息標(biāo)注,會(huì)有一定的錯(cuò)誤率
論文:A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F.-F. Li. Large-scale video classification with convolutional neural networks. In CVPR, pages 1725-1732, 2014.
ActivityNet v1.3(2015)
- 203類,28k個(gè)視頻,平均每個(gè)類有137個(gè)untrimmed視頻,每個(gè)視頻平均1.41個(gè)行為
- 提供三個(gè)場(chǎng)景的行為理解:
- 沒有剪輯的視頻分類
- 剪輯之后的行為分類
- 剪輯之后的行為檢測(cè)(detection)
- 層級(jí)結(jié)構(gòu)標(biāo)注,例如: /家庭行為/家務(wù)/內(nèi)部清潔/擦窗,別的數(shù)據(jù)集一般是兩層結(jié)構(gòu),后期不好維護(hù)和擴(kuò)展
- 樣本為覆蓋人們?nèi)粘8哳l行為而設(shè)計(jì)
一個(gè)四層的例子
論文:B. G. F. C. Heilbron, V. Escorcia, B. Ghanem, J. C. Niebles. ActivityNet: A large-scale video benchmark for human activity understanding. In CVPR, pages 961-970, 2015.
Charades(2016)
- 157 類action,46類object,15個(gè)場(chǎng)景,9848個(gè)視頻,平均長(zhǎng)度12秒,2.7w描述
- Charades是非常真實(shí)的生活化的視頻,這些視頻往往不會(huì)出現(xiàn)在movie、TV、YouTuBe上面,嘗試用關(guān)鍵詞搜索在網(wǎng)上也不會(huì)找到這些視頻,因?yàn)檫@些視頻多數(shù)都是生活中非常“無聊”的場(chǎng)景
- Hollywood in Homes,其實(shí)就是在自己家里“演戲”,然后采集樣本。數(shù)據(jù)集主打 daily activities
- 數(shù)據(jù)集地址:https://allenai.org/plato/charades/
看書、喝水、開冰箱的動(dòng)作在生活中,和在youtube上面的差異非常大,youtube上面多數(shù)是娛樂類的非典型的視頻,如下圖:
和其他的數(shù)據(jù)集的比較:
Charades和其他數(shù)據(jù)集的比較
論文:Hollywood in Homes: Crowdsourcing Data Collection?for Activity Understanding Gunnar Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev,?Abhinav GuptaYouTube-8M(2016)
- 4800類(visual entity),8百萬視頻,500k小時(shí),一個(gè)視頻可以有多個(gè)類別實(shí)體
- 嘗試使用實(shí)體標(biāo)簽對(duì)視頻主要內(nèi)容描述
- 機(jī)器打的分類,通過元信息和點(diǎn)擊數(shù)據(jù)校驗(yàn),類別均為圖譜中的實(shí)體且視覺可識(shí)別,實(shí)體包括:
- 活動(dòng)(體育運(yùn)動(dòng),游戲)
- 物體(汽車,食物,產(chǎn)品)
- 場(chǎng)景(旅行)
- 事件
- 提供1.9 billion frame feature下載,特征提取器是Inception網(wǎng)絡(luò)
- Sports-1M專注于運(yùn)動(dòng),ActivityNet專注于行為,不夠多樣性和通用;在遷移學(xué)習(xí)場(chǎng)景YouTube-8M比前兩者更加具有優(yōu)勢(shì)
數(shù)據(jù)級(jí)別的分布:
S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan. YouTube-8M: A large-scale video classification benchmark. CoRR, abs/1609.08675, 2016.Kinetics (2017)
- ?動(dòng)機(jī):構(gòu)造large scale、high quality、challenging enough的數(shù)據(jù)集
- 僅僅用于分類,每一個(gè)片段大概10秒,包含語音信息,都是剪輯過的視頻。不能用于temporal localization
- 自稱為HMDB-51和UCF-101的繼任者,前兩者類別少、樣本少、多樣性少
- 類別是一個(gè)兩層結(jié)構(gòu),包括下面幾類行為:
- 單人:畫圖、喝水、笑、壓腿
- 人和人之間:接吻、握手、擁抱
- 人和物:打開盒子、洗盤子、修剪草坪
- 一個(gè)clip只會(huì)有一個(gè)action分類,但是實(shí)際中會(huì)有多個(gè)行為(一邊刷牙一邊跳舞、一邊發(fā)短信一邊開車)
Kinetics數(shù)據(jù)對(duì)比
W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman. The Kinetics human action video dataset. CoRR, abs/1705.06950, 2017.
常用模型
深度學(xué)習(xí)之前常用模型
一般是三步走:
DT:https://hal.inria.fr/hal-00725627v2/document
iDT:https://hal.inria.fr/hal-00873267v2/document
3D卷積和2D卷積
如下圖:來自知乎我不壞
2D卷積
3D卷積
?
?
?
?
?
?
?
?最初的探索(2014)
文章嘗試在時(shí)序維度做不同的組合,所有的模型最后都是通過加權(quán)平均進(jìn)行分類:
- 探索目標(biāo):
- 什么樣的時(shí)序cnn結(jié)構(gòu)可以更好的對(duì)局部動(dòng)作建模
- 什么樣的動(dòng)作信息會(huì)影響性能,以及影響的量
- 加速方法:兩路處理
- 一路在低分辨率處理;
- 一路在高分辨率處理,但是只處理中間一部分
提出時(shí)序模型Fusion的集中方式:
兩路融合:
輸入是178*178的大小,一路是全局的89*89,一路是中心的89*89,輸入像素個(gè)數(shù)是原來的一半。具體如下圖:
雙路采樣
并未在視頻行為識(shí)別的任務(wù)上打敗手工設(shè)計(jì)特征的方法
Large-scale Video Classification with Convolutional Neural Networks(2014)
Two-Stream ConvNet(2014)
- 使用RGB+光流作為模型輸入
- RGB對(duì)場(chǎng)景、物體建模
- 光流對(duì)相機(jī)運(yùn)動(dòng)、物體運(yùn)動(dòng)建模
- 嘗試對(duì)光流的加工:
- 原始光流
- 軌跡(累計(jì)求和)
- 雙向光流
- 平均光流(相機(jī)運(yùn)動(dòng))
- 網(wǎng)絡(luò)并未對(duì)時(shí)序建模
模型的整體結(jié)構(gòu)如下圖,兩路模型最后的輸出都是softmax
在第二路的輸入中是光流的信息,那么輸入的光流其實(shí)是可以有不同的形式的,一種就是兩幀之間的位移,一種是多幀之間的位移,也就是從開始幀到t幀之間的軌跡,如下圖:
左邊為兩幀之間光流,右邊為軌跡
Two-Stream Convolutional Networks for Action Recognition in Videos
LRCN(2014)
使用LSTM進(jìn)行上層的融合,LRCN( LONG-TERM RECURRENT CONVOLUTIONAL NETWORK)屬于late-fusion,論文中output為分類結(jié)果,后面在加一層求平均就可以得到最終輸出,模型的缺點(diǎn)是采樣不夠的話會(huì)導(dǎo)致區(qū)分不出來開門還是關(guān)門:
基礎(chǔ)結(jié)構(gòu)
可以用到的更多的場(chǎng)景
Long-term recurrent convolutional networks for visual?recognition and description
Pooling位置探索(2015)
- 更多的上層融合方式的探索
- 更長(zhǎng)的融合長(zhǎng)度(120幀)
- RGB和光流分別預(yù)測(cè),然后融合
- Feature Pooling都使用Max-pooling,效果較好的原因是對(duì)分類影響比較大的是幾個(gè)稀疏的關(guān)鍵幀
對(duì)各種Pooling的探索,maxpooling/藍(lán)色,全連接/黃色,3d卷積/綠色
不同的pooling方式效果
Beyond Short Snippets: Deep Networks for Video Classification
Rank-Pooling?(2016)
- 在最后一層融合的時(shí)候,采用pooling的方式直接融合
- 增加后面幀的重要性
?
Learning End-to-end Video Classification with Rank-PoolingTSN(2016)
TSN(Temporal Segments Network)特點(diǎn):
- 長(zhǎng)序列建模的框架
- Two-Stream的處理的是單幀輸入+多幀光流,無法對(duì)長(zhǎng)視頻很好建模
- 模型流程:
- 長(zhǎng)視頻均勻切為K段
- 從每一段選擇一個(gè)子片段送入模型
- 模型進(jìn)行前向傳播,每一個(gè)片段得到自己對(duì)應(yīng)的分類結(jié)果
- 對(duì)分類結(jié)果融合(本論文是求平均)并輸出結(jié)果
TRN(2018)
Temporal Relation Network
- ?不同粒度抽幀,不同采樣步長(zhǎng)模型的ensemble,是對(duì)TSN的一種升級(jí)版
- 多幀融合采用兩層的MLP,不同的步長(zhǎng)的模型MLP不共享
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
C3D(2015)
模型簡(jiǎn)稱為C3D,提出了一個(gè)結(jié)構(gòu)簡(jiǎn)單的end2end的處理視頻的模型
- 對(duì)各種超參數(shù)的探索,3D卷積更加適合捕獲時(shí)序特征
- 所有層都是可用3x3x3 kernel和 2x2的pooling可以得到最好性能
- C3D可以對(duì)視頻提取好特征,然后使用線性分類器就可以得到很好的性能
- 訓(xùn)練速度快,容易收斂,訓(xùn)練Sports-1M的時(shí)候抽取5個(gè)2秒的視頻片段
Learning Spatiotemporal Features with 3D Convolutional Networks(2015)
P3D(2017)
- C3D太耗費(fèi)資源,嘗試分解3x3x3卷積進(jìn)行加速
- 在時(shí)間維度進(jìn)行分解下圖中S=1x3x3,T=3x1x1
- 把層數(shù)擴(kuò)展到199層
P3D 不同種類的block
Learning Spatio-Temporal Representation with Pseudo-3D Residual NetworksI3D(2017)
Inflated 3D ConvNet?:- 本文驚艷之處在于提出一種將2D卷積膨脹為3D的方法,可以更好的利用ImageNet模型積累
- 通過對(duì)膨脹的卷積權(quán)重除以膨脹長(zhǎng)度,實(shí)現(xiàn)從2D到3D權(quán)重的初始化且等同訓(xùn)練boring視頻,boring視頻的定義是在時(shí)間維度重復(fù)一張圖片生成的視頻,這里還是為了更好的繼承InceptionV1
- 下圖中,前三種是已有的模型,后兩種(主要是最后一種)是提出來的I3D模型
- 膨脹之后三個(gè)維度的感受野計(jì)算如下圖
- e方案是最優(yōu)的方案,分別對(duì)RGB和光流進(jìn)行3D卷積。然后bagging到一起
InceptionV1
左圖為膨脹之后的結(jié)構(gòu)
Quo Vadis, Action Recognition? A New Model and the Kinetics DatasetSlowFast Network(2018)
- Slow 一秒采2幀,側(cè)重單幀理解
- Fast 一秒采8幀,側(cè)重時(shí)序理解
- Fast部分雖然處理的圖片多,但是計(jì)算量只有整體的20%,減少模型的參數(shù)量(卷積個(gè)數(shù))
- 不在時(shí)間維度進(jìn)行pooling,time維度的卷積stride=1
- HW維度卷積大小和stride都一致,SlowFast融合的時(shí)候就是在T和C之間轉(zhuǎn)換
- Fast的作用類似光流,好處是不用以來外部方法提取特征了
參考
https://zhuanlan.zhihu.com/p/36330561總結(jié)
- 上一篇: 添加Graphic Drivers PP
- 下一篇: Linux下的各种文件阅读器