日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频行为理解

發(fā)布時(shí)間:2025/7/25 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频行为理解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

from:https://x-algo.cn/index.php/2019/08/31/3220/
行為識(shí)別是用來識(shí)別“人自身”、“人和人”、“人和物”的“行為”。比如“抽煙”,“打架”。這個(gè)任務(wù)有好幾個(gè)數(shù)據(jù)集,接下來先介紹一下各個(gè)數(shù)據(jù)集。
數(shù)據(jù)集

HMDB-51(2011)

  • 其中包含51 action,7k clips;
  • 這個(gè)數(shù)據(jù)集合包含不同種類的視頻(camera motion, viewpoint, video quality and?occlusion)
  • 和以往的數(shù)據(jù)集比較,這個(gè)視頻數(shù)據(jù)更加真實(shí),并且會(huì)有遮擋機(jī)位變化等。
  • 當(dāng)前數(shù)據(jù)集通過靜態(tài)的人體關(guān)節(jié)變化不能識(shí)別對(duì)應(yīng)的行為
  • 51個(gè)action中,每一個(gè)至少包含101個(gè)clip

下圖為和其他數(shù)據(jù)集的對(duì)比:

和其他數(shù)據(jù)集合的對(duì)比

數(shù)據(jù)樣例:點(diǎn)擊我;

包含的行為種類有:

  • 面部表情:微笑,大笑,咀嚼,交談
  • 面部和物體行為:吸煙,吃,喝
  • 身體動(dòng)作:車輪翻,鼓掌,爬
  • 身體和物體之間行為:梳頭發(fā),抓東西,擊劍
  • 51個(gè)種類的分組

    論文:H. Kuehne, et al. HMDB: A large video database for human motion recognition. In ICCV, pages 2556-2563, 2011.

    UCF-101(2012)

    • 101類別,13k樣本,27小時(shí)時(shí)長(zhǎng)
    • 整個(gè)數(shù)據(jù)可以分為五類,每一類數(shù)據(jù)都會(huì)有25個(gè)元數(shù)據(jù)(不同的 background or actors ):

    • 人物交互:呼啦圈,雜耍球,跳繩
    • 單人行為:開合跳:弓步壓腿,引體向上
    • 多人行為 :軍事游行,雙人舞蹈,樂隊(duì)前進(jìn)
    • 演奏樂器:吉他,鋼琴
    • 運(yùn)動(dòng):棒球投球,籃球投球

    數(shù)據(jù)整體情況

    論文:K. Soomro, et al. UCF101: A dataset of 101 human action classes from videos in the wild. CoRR, abs/1212.0402, 2012.

    Sports-1M(2014)

    • 487 classes,1 millionYouTube videos
    • 數(shù)據(jù)并不是通過人工標(biāo)注的,而是通過視頻的文本信息標(biāo)注,會(huì)有一定的錯(cuò)誤率

    論文:A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F.-F. Li. Large-scale video classification with convolutional neural networks. In CVPR, pages 1725-1732, 2014.

    ActivityNet v1.3(2015)

    • 203類,28k個(gè)視頻,平均每個(gè)類有137個(gè)untrimmed視頻,每個(gè)視頻平均1.41個(gè)行為
    • 提供三個(gè)場(chǎng)景的行為理解:
    • 沒有剪輯的視頻分類
    • 剪輯之后的行為分類
    • 剪輯之后的行為檢測(cè)(detection)
    • 層級(jí)結(jié)構(gòu)標(biāo)注,例如: /家庭行為/家務(wù)/內(nèi)部清潔/擦窗,別的數(shù)據(jù)集一般是兩層結(jié)構(gòu),后期不好維護(hù)和擴(kuò)展
    • 樣本為覆蓋人們?nèi)粘8哳l行為而設(shè)計(jì)

    一個(gè)四層的例子

    論文:B. G. F. C. Heilbron, V. Escorcia, B. Ghanem, J. C. Niebles. ActivityNet: A large-scale video benchmark for human activity understanding. In CVPR, pages 961-970, 2015.

    Charades(2016)

    • 157 類action,46類object,15個(gè)場(chǎng)景,9848個(gè)視頻,平均長(zhǎng)度12秒,2.7w描述
    • Charades是非常真實(shí)的生活化的視頻,這些視頻往往不會(huì)出現(xiàn)在movie、TV、YouTuBe上面,嘗試用關(guān)鍵詞搜索在網(wǎng)上也不會(huì)找到這些視頻,因?yàn)檫@些視頻多數(shù)都是生活中非常“無聊”的場(chǎng)景
    • Hollywood in Homes,其實(shí)就是在自己家里“演戲”,然后采集樣本。數(shù)據(jù)集主打 daily activities
    • 數(shù)據(jù)集地址:https://allenai.org/plato/charades/

    看書、喝水、開冰箱的動(dòng)作在生活中,和在youtube上面的差異非常大,youtube上面多數(shù)是娛樂類的非典型的視頻,如下圖:

    和其他的數(shù)據(jù)集的比較:

    Charades和其他數(shù)據(jù)集的比較

    論文:Hollywood in Homes: Crowdsourcing Data Collection?for Activity Understanding Gunnar Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev,?Abhinav Gupta

    YouTube-8M(2016)

    • 4800類(visual entity),8百萬視頻,500k小時(shí),一個(gè)視頻可以有多個(gè)類別實(shí)體
    • 嘗試使用實(shí)體標(biāo)簽對(duì)視頻主要內(nèi)容描述
    • 機(jī)器打的分類,通過元信息和點(diǎn)擊數(shù)據(jù)校驗(yàn),類別均為圖譜中的實(shí)體且視覺可識(shí)別,實(shí)體包括:
    • 活動(dòng)(體育運(yùn)動(dòng),游戲)
    • 物體(汽車,食物,產(chǎn)品)
    • 場(chǎng)景(旅行)
    • 事件
    • 提供1.9 billion frame feature下載,特征提取器是Inception網(wǎng)絡(luò)
    • Sports-1M專注于運(yùn)動(dòng),ActivityNet專注于行為,不夠多樣性和通用;在遷移學(xué)習(xí)場(chǎng)景YouTube-8M比前兩者更加具有優(yōu)勢(shì)

    數(shù)據(jù)級(jí)別的分布:

    S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan. YouTube-8M: A large-scale video classification benchmark. CoRR, abs/1609.08675, 2016.

    Kinetics (2017)

    • ?動(dòng)機(jī):構(gòu)造large scale、high quality、challenging enough的數(shù)據(jù)集
    • 僅僅用于分類,每一個(gè)片段大概10秒,包含語音信息,都是剪輯過的視頻。不能用于temporal localization
    • 自稱為HMDB-51和UCF-101的繼任者,前兩者類別少、樣本少、多樣性少
    • 類別是一個(gè)兩層結(jié)構(gòu),包括下面幾類行為:
    • 單人:畫圖、喝水、笑、壓腿
    • 人和人之間:接吻、握手、擁抱
    • 人和物:打開盒子、洗盤子、修剪草坪
    • 一個(gè)clip只會(huì)有一個(gè)action分類,但是實(shí)際中會(huì)有多個(gè)行為(一邊刷牙一邊跳舞、一邊發(fā)短信一邊開車)

    Kinetics數(shù)據(jù)對(duì)比

    W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman. The Kinetics human action video dataset. CoRR, abs/1705.06950, 2017.

    常用模型

    深度學(xué)習(xí)之前常用模型

    一般是三步走:

  • 局部特征提取,一般是特征點(diǎn)的提取
  • 定長(zhǎng)處理,一般是直方圖統(tǒng)計(jì)
  • 詞袋模型的分類器,例如SVM
  • DT:https://hal.inria.fr/hal-00725627v2/document

    iDT:https://hal.inria.fr/hal-00873267v2/document

    3D卷積和2D卷積

    如下圖:來自知乎我不壞

    2D卷積

    3D卷積

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?最初的探索(2014)

    文章嘗試在時(shí)序維度做不同的組合,所有的模型最后都是通過加權(quán)平均進(jìn)行分類:

    • 探索目標(biāo):
    • 什么樣的時(shí)序cnn結(jié)構(gòu)可以更好的對(duì)局部動(dòng)作建模
    • 什么樣的動(dòng)作信息會(huì)影響性能,以及影響的量
    • 加速方法:兩路處理
    • 一路在低分辨率處理;
    • 一路在高分辨率處理,但是只處理中間一部分

    提出時(shí)序模型Fusion的集中方式:

    兩路融合:

    輸入是178*178的大小,一路是全局的89*89,一路是中心的89*89,輸入像素個(gè)數(shù)是原來的一半。具體如下圖:

    雙路采樣

    并未在視頻行為識(shí)別的任務(wù)上打敗手工設(shè)計(jì)特征的方法

    Large-scale Video Classification with Convolutional Neural Networks(2014)

    Two-Stream ConvNet(2014)

    • 使用RGB+光流作為模型輸入
    • RGB對(duì)場(chǎng)景、物體建模
    • 光流對(duì)相機(jī)運(yùn)動(dòng)、物體運(yùn)動(dòng)建模
    • 嘗試對(duì)光流的加工:
      • 原始光流
      • 軌跡(累計(jì)求和)
      • 雙向光流
      • 平均光流(相機(jī)運(yùn)動(dòng))
    • 網(wǎng)絡(luò)并未對(duì)時(shí)序建模

    模型的整體結(jié)構(gòu)如下圖,兩路模型最后的輸出都是softmax

    在第二路的輸入中是光流的信息,那么輸入的光流其實(shí)是可以有不同的形式的,一種就是兩幀之間的位移,一種是多幀之間的位移,也就是從開始幀到t幀之間的軌跡,如下圖:

    左邊為兩幀之間光流,右邊為軌跡

    Two-Stream Convolutional Networks for Action Recognition in Videos

    LRCN(2014)

    使用LSTM進(jìn)行上層的融合,LRCN( LONG-TERM RECURRENT CONVOLUTIONAL NETWORK)屬于late-fusion,論文中output為分類結(jié)果,后面在加一層求平均就可以得到最終輸出,模型的缺點(diǎn)是采樣不夠的話會(huì)導(dǎo)致區(qū)分不出來開門還是關(guān)門:

    基礎(chǔ)結(jié)構(gòu)

    可以用到的更多的場(chǎng)景

    Long-term recurrent convolutional networks for visual?recognition and description

    Pooling位置探索(2015)

    • 更多的上層融合方式的探索
    • 更長(zhǎng)的融合長(zhǎng)度(120幀)
    • RGB和光流分別預(yù)測(cè),然后融合
    • Feature Pooling都使用Max-pooling,效果較好的原因是對(duì)分類影響比較大的是幾個(gè)稀疏的關(guān)鍵幀

    對(duì)各種Pooling的探索,maxpooling/藍(lán)色,全連接/黃色,3d卷積/綠色

    不同的pooling方式效果

    Beyond Short Snippets: Deep Networks for Video Classification

    Rank-Pooling?(2016)

    • 在最后一層融合的時(shí)候,采用pooling的方式直接融合
    • 增加后面幀的重要性

    ?

    Learning End-to-end Video Classification with Rank-Pooling

    TSN(2016)

    TSN(Temporal Segments Network)特點(diǎn):

    • 長(zhǎng)序列建模的框架
    • Two-Stream的處理的是單幀輸入+多幀光流,無法對(duì)長(zhǎng)視頻很好建模
    • 模型流程:
    • 長(zhǎng)視頻均勻切為K段
    • 從每一段選擇一個(gè)子片段送入模型
    • 模型進(jìn)行前向傳播,每一個(gè)片段得到自己對(duì)應(yīng)的分類結(jié)果
    • 對(duì)分類結(jié)果融合(本論文是求平均)并輸出結(jié)果

    TRN(2018)

    Temporal Relation Network

    • ?不同粒度抽幀,不同采樣步長(zhǎng)模型的ensemble,是對(duì)TSN的一種升級(jí)版
    • 多幀融合采用兩層的MLP,不同的步長(zhǎng)的模型MLP不共享

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    C3D(2015)

    模型簡(jiǎn)稱為C3D,提出了一個(gè)結(jié)構(gòu)簡(jiǎn)單的end2end的處理視頻的模型

    • 對(duì)各種超參數(shù)的探索,3D卷積更加適合捕獲時(shí)序特征
    • 所有層都是可用3x3x3 kernel和 2x2的pooling可以得到最好性能
    • C3D可以對(duì)視頻提取好特征,然后使用線性分類器就可以得到很好的性能
    • 訓(xùn)練速度快,容易收斂,訓(xùn)練Sports-1M的時(shí)候抽取5個(gè)2秒的視頻片段

    Learning Spatiotemporal Features with 3D Convolutional Networks(2015)

    P3D(2017)

    • C3D太耗費(fèi)資源,嘗試分解3x3x3卷積進(jìn)行加速
    • 在時(shí)間維度進(jìn)行分解下圖中S=1x3x3,T=3x1x1
    • 把層數(shù)擴(kuò)展到199層

    P3D 不同種類的block

    Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

    I3D(2017)

    Inflated 3D ConvNet?:
    • 本文驚艷之處在于提出一種將2D卷積膨脹為3D的方法,可以更好的利用ImageNet模型積累
    • 通過對(duì)膨脹的卷積權(quán)重除以膨脹長(zhǎng)度,實(shí)現(xiàn)從2D到3D權(quán)重的初始化且等同訓(xùn)練boring視頻,boring視頻的定義是在時(shí)間維度重復(fù)一張圖片生成的視頻,這里還是為了更好的繼承InceptionV1
    • 下圖中,前三種是已有的模型,后兩種(主要是最后一種)是提出來的I3D模型
    • 膨脹之后三個(gè)維度的感受野計(jì)算如下圖
    • e方案是最優(yōu)的方案,分別對(duì)RGB和光流進(jìn)行3D卷積。然后bagging到一起

    下圖為InceptionV1的結(jié)構(gòu):

    InceptionV1

    左圖為膨脹之后的結(jié)構(gòu)

    Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

    SlowFast Network(2018)

    • Slow 一秒采2幀,側(cè)重單幀理解
    • Fast 一秒采8幀,側(cè)重時(shí)序理解
    • Fast部分雖然處理的圖片多,但是計(jì)算量只有整體的20%,減少模型的參數(shù)量(卷積個(gè)數(shù))
    • 不在時(shí)間維度進(jìn)行pooling,time維度的卷積stride=1
    • HW維度卷積大小和stride都一致,SlowFast融合的時(shí)候就是在T和C之間轉(zhuǎn)換
    • Fast的作用類似光流,好處是不用以來外部方法提取特征了

    SlowFast Networks for Video Recognition

    參考

    https://zhuanlan.zhihu.com/p/36330561

    總結(jié)

    以上是生活随笔為你收集整理的视频行为理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。