日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Action recognition进展介绍

發(fā)布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Action recognition进展介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文地址:http://blog.csdn.net/wzmsltw/article/details/70239000

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以及計(jì)算能力的進(jìn)步(GPU等),現(xiàn)在基于視頻的研究領(lǐng)域越來越受到重視。視頻與圖片最大的不同在于視頻還包含了時序上的信息,此外需要的計(jì)算量通常也大很多。目前主要在做視頻中動作定位相關(guān)的工作,為了開拓思路,讀了不少視頻分析相關(guān)領(lǐng)域的文章,所以打算寫幾篇博客,對視頻分析相關(guān)的幾個領(lǐng)域做一個簡要的介紹。

這篇主要介紹Action Recognition(行為識別)這個方向。這個方向的主要目標(biāo)是判斷一段視頻中人的行為的類別,所以也可以叫做Human Action Recognition。雖然這個問題是針對視頻中人的動作,但基于這個問題發(fā)展出來的算法,大都不特定針對人,也可以用于其他類型視頻的分類。

任務(wù)特點(diǎn)及分析

目的

給一個視頻片段進(jìn)行分類,類別通常是各類人的動作

特點(diǎn)

簡化了問題,一般使用的數(shù)據(jù)庫都先將動作分割好了,一個視頻片斷中包含一段明確的動作,時間較短(幾秒鐘)且有唯一確定的label。所以也可以看作是輸入為視頻,輸出為動作標(biāo)簽的多分類問題。此外,動作識別數(shù)據(jù)庫中的動作一般都比較明確,周圍的干擾也相對較少(不那么real-world)。有點(diǎn)像圖像分析中的Image Classification任務(wù)。

難點(diǎn)/關(guān)鍵點(diǎn)

  • 強(qiáng)有力的特征:即如何在視頻中提取出能更好的描述視頻判斷的特征。特征越強(qiáng),模型的效果通常較好。
  • 特征的編碼(encode)/融合(fusion):這一部分包括兩個方面,第一個方面是非時序的,在使用多種特征的時候如何編碼/融合這些特征以獲得更好的效果;另外一個方面是時序上的,由于視頻很重要的一個特性就是其時序信息,一些動作看單幀的圖像是無法判斷的,只能通過時序上的變化判斷,所以需要將時序上的特征進(jìn)行編碼或者融合,獲得對于視頻整體的描述。
  • 算法速度:雖然在發(fā)論文刷數(shù)據(jù)庫的時候算法的速度并不是第一位的。但高效的算法更有可能應(yīng)用到實(shí)際場景中去。

常用數(shù)據(jù)庫

行為識別的數(shù)據(jù)庫比較多,這里主要介紹兩個最常用的數(shù)據(jù)庫,也是近年這個方向的論文必做的數(shù)據(jù)庫。

  • UCF101:來源為YouTube視頻,共計(jì)101類動作,13320段視頻。共有5個大類的動作:1)人-物交互;2)肢體運(yùn)動;3)人-人交互;4)彈奏樂器;5)運(yùn)動。數(shù)據(jù)庫主頁
  • HMDB51:來源為YouTube視頻,共計(jì)51類動作,約7000段視頻。數(shù)據(jù)庫主頁

在Actioin Recognition中,實(shí)際上還有一類骨架數(shù)據(jù)庫,比如MSR Action 3D,HDM05,SBU Kinect Interaction Dataset等。這些數(shù)據(jù)庫已經(jīng)提取了每幀視頻中人的骨架信息,基于骨架信息判斷運(yùn)動類型。不做詳細(xì)介紹

研究進(jìn)展

傳統(tǒng)方法

iDT(improved dense trajectories)特征:”Action recognition with improved trajectories”

  • iDT方法(13年)是深度學(xué)習(xí)進(jìn)入該領(lǐng)域前效果最好,穩(wěn)定性最好,可靠性最高的方法,不過算法速度很慢。這個方法是該實(shí)驗(yàn)室之前工作(Dense Trajectories and Motion Boundary Descriptors for Action Recognition)的改進(jìn)。此前寫的筆記見iDT論文筆記,算法代碼分析見iDT代碼分析
  • 基本思路:DT算法的基本思路為利用光流場來獲得視頻序列中的一些軌跡,再沿著軌跡提取HOF,HOG,MBH,trajectory4種特征,其中HOF基于灰度圖計(jì)算,另外幾個均基于dense optical flow計(jì)算。最后利用FV(Fisher Vector)方法對特征進(jìn)行編碼,再基于編碼結(jié)果訓(xùn)練SVM分類器。而iDT改進(jìn)的地方在于它利用前后兩幀視頻之間的光流以及SURF關(guān)鍵點(diǎn)進(jìn)行匹配,從而消除/減弱相機(jī)運(yùn)動帶來的影響,改進(jìn)后的光流圖像成為warp optical flow

“Action Recognition with Stacked Fisher Vectors”基于iDT方法的改進(jìn)效果最好的是這篇文章。使用了兩層的fv編碼,筆記見StackedFV筆記

深度學(xué)習(xí)方法

由于這個方向這幾年的論文實(shí)在太多,所以這部分挑選了一些近年比較有代表性的論文進(jìn)行簡要介紹。更多的論文可以上谷歌學(xué)術(shù)通過搜索Action Recognition找到。

(1) Two Stream 方法

“Two-Stream Convolutional Networks for Action Recognition in Videos”(2014NIPS)


- Two Stream方法最初在這篇文章中被提出,基本原理為對視頻序列中每兩幀計(jì)算密集光流,得到密集光流的序列(即temporal信息)。然后對于視頻圖像(spatial)和密集光流(temporal)分別訓(xùn)練CNN模型,兩個分支的網(wǎng)絡(luò)分別對動作的類別進(jìn)行判斷,最后直接對兩個網(wǎng)絡(luò)的class score進(jìn)行fusion(包括直接平均和svm兩種方法),得到最終的分類結(jié)果。注意,對與兩個分支使用了相同的2D CNN網(wǎng)絡(luò)結(jié)構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)見下圖。
- 實(shí)驗(yàn)效果:UCF101-88.0%,HMDB51-59.4%

“Convolutional Two-Stream Network Fusion for Video Action Recognition”(2016CVPR)

  • 這篇論文的主要工作為在two stream network的基礎(chǔ)上,利用CNN網(wǎng)絡(luò)進(jìn)行了spatial以及temporal的融合,從而進(jìn)一步提高了效果。此外,該文章還將基礎(chǔ)的spatial和temporal網(wǎng)絡(luò)都換成了VGG-16 network。
  • 實(shí)驗(yàn)效果:UCF101-92.5%,HMDB51-65.4%

”Temporal Segment Networks: Towards Good Practices for Deep Action Recognition”(2016 ECCV)


- 論文的講解可以參考:https://blog.csdn.net/zhang_can/article/details/79618781。同時TSN也是2016年ActivityNet比賽,“untrimmed video classification”的冠軍
- 這篇文章是港中文Limin Wang大神的工作。他在這方面做了很多很棒的工作,可以followt他的主頁:http://wanglimin.github.io/ 。
- 這篇文章提出的TSN網(wǎng)絡(luò)也算是spaital+temporal fusion,結(jié)構(gòu)圖見下圖。這篇文章對如何進(jìn)一步提高two stream方法進(jìn)行了詳盡的討論,主要包括幾個方面(完整內(nèi)容請看原文):
1. 輸入數(shù)據(jù)的類型:除去two stream原本的RGB image和 optical flow field這兩種輸入外,這篇文章中還嘗試了RGB difference及 warped optical flow field兩種輸入。最終結(jié)果是 RGB+optical flow+warped optical flow的組合效果最好。
2. 網(wǎng)絡(luò)結(jié)構(gòu):嘗試了GoogLeNet,VGGNet-16及BN-Inception三種網(wǎng)絡(luò)結(jié)構(gòu),其中BN-Inception的效果最好。
3. 訓(xùn)練策略:包括 跨模態(tài)預(yù)訓(xùn)練,正則化,數(shù)據(jù)增強(qiáng)等。
- 實(shí)驗(yàn)效果:UCF101-94.2%,HMDB51-69.4%

“Beyond Short Snippets: Deep Networks for Video Classification”

這篇文章主要是用LSTM來做two-stream network的temporal融合。效果一般
實(shí)驗(yàn)效果:UCF101-88.6%

(2) 3D 卷積

“3D Convolutional Neural Networks for Human Action Recognition”

“Learning spatiotemporal features with 3d convolutional networks”


- C3D是facebook的一個工作,采用3D卷積和3D Pooling構(gòu)建了網(wǎng)絡(luò)。論文筆記見C3D論文筆記 。通過3D卷積,C3D可以直接處理視頻(或者說是視頻幀的volume)
- 實(shí)驗(yàn)效果:UCF101-85.2% 可以看出其在UCF101上的效果距離two stream方法還有不小差距。我認(rèn)為這主要是網(wǎng)絡(luò)結(jié)構(gòu)造成的,C3D中的網(wǎng)絡(luò)結(jié)構(gòu)為自己設(shè)計(jì)的簡單結(jié)構(gòu),如下圖所示。
- 速度:C3D的最大優(yōu)勢在于其速度,在文章中其速度為314fps。而實(shí)際上這是基于兩年前的顯卡了。用Nvidia 1080顯卡可以達(dá)到600fps以上。所以C3D的效率是要遠(yuǎn)遠(yuǎn)高于其他方法的,個人認(rèn)為這使得C3D有著很好的應(yīng)用前景。

“ConvNet Architecture Search for Spatiotemporal Feature Learning”(2017 CoRR)

作者在其項(xiàng)目主頁 放出了新版本的Res-C3D網(wǎng)絡(luò)的caffe模型。新版本的模型大小是之前的一半,速度比C3D快了很多,效果也比之前提高了幾個百分點(diǎn)(UCF上)。

其他方法

“A Key Volume Mining Deep Framework for Action Recognition”

  • 本文主要做的是key volume的自動識別。通常都是將一整段動作視頻進(jìn)行學(xué)習(xí),而事實(shí)上這段視頻中有一些幀與動作的關(guān)系并不大。因此進(jìn)行關(guān)鍵幀的學(xué)習(xí),再在關(guān)鍵幀上進(jìn)行CNN模型的建立有助于提高模型效果。本文達(dá)到了93%的正確率嗎,為目前最高。
  • 實(shí)驗(yàn)效果:UCF101-93.1%,HMDB51-63.3%

”Deep Temporal Linear Encoding Networks”

  • 本文主要提出了“Temporal Linear Encoding Layer” 時序線性編碼層,主要對視頻中不同位置的特征進(jìn)行融合編碼。至于特征提取則可以使用各種方法,文中實(shí)驗(yàn)了two stream以及C3D兩種網(wǎng)絡(luò)來提取特征。
  • 實(shí)驗(yàn)效果:UCF101-95.6%,HMDB51-71.1% (特征用two stream提取)。應(yīng)該是目前為止看到效果最好的方法了(CVPR2017里可能會有更好的效果)

小結(jié)

可以看出,這幾年action recognition領(lǐng)域發(fā)展的非常快,有各種各樣的方法被提出。但要注意,action recognition一般是對預(yù)先分割過的短視頻進(jìn)行分類,而真實(shí)環(huán)境中的視頻一般都是沒有預(yù)先切分過的,而且會包含大量無關(guān)信息。所以我認(rèn)為這個領(lǐng)域的研究很像對Image Classification的研究,比較基礎(chǔ),可以為相關(guān)領(lǐng)域的研究提供有力的工具。

總結(jié)

以上是生活随笔為你收集整理的Action recognition进展介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。