日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频摘要发展综述

發(fā)布時間:2023/12/18 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频摘要发展综述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

現(xiàn)如今城市生活節(jié)奏越來越快,用戶在瀏覽一些視頻時,可能并不想花費大量的時間來看一個完整的視頻。更多時候,用戶只想知道這個視頻最精華的信息,也是基于這種需求,谷阿莫等影視評論者才得到如此多的關(guān)注。此時,視頻摘要就體現(xiàn)出其價值所在了。

?

什么是視頻摘要?

?

視頻摘要,就是以自動或半自動的方式,通過分析視頻的結(jié)構(gòu)和內(nèi)容存在的時空冗余,從原始視頻中提取有意義的片段/幀。從摘要的技術(shù)處理過程來講,視頻摘要一般可以分成兩種,靜態(tài)視頻摘要和動態(tài)視頻摘要。現(xiàn)階段,我們公司主要致力于靜態(tài)視頻摘要的研究。接下來就和大家主要說一下靜態(tài)視頻摘要。

?

什么是靜態(tài)視頻摘要?

?

靜態(tài)視頻摘要,又稱為視頻概要,即用一系列從原始視頻流中抽取出來的靜態(tài)語義單元來表示視頻內(nèi)容的技術(shù)。簡單來說,就是在一段視頻中提取出一些關(guān)鍵幀,通過將多個關(guān)鍵幀組合成視頻摘要,使用戶可以通過少量的關(guān)鍵幀快速瀏覽原始視頻內(nèi)容。進一步發(fā)展的話可以為用戶提供快速的內(nèi)容檢索服務(wù)。

?

例如,公開課的視頻中,提取出含有完整PPT的幀。我們將含有關(guān)鍵信息的所有幀提供給瀏覽者,可以使其在較短的時間內(nèi)了解到較長視頻的主要內(nèi)容。又例如,將一個2小時的電影提取出其關(guān)鍵部分,組合成一個2分鐘的預(yù)告片,也屬于靜態(tài)視頻摘要。其提取流程大致如下:

?

?

?

靜態(tài)視頻摘要技術(shù)簡介

?

靜態(tài)視頻摘要通過描述原始視頻中的每幀圖像的特征,通過對幀間的特征差異值比較,抽取出原始視頻的關(guān)鍵幀。故,靜態(tài)視頻摘要的第一步,需要獲取幀信息特征。

?

關(guān)于圖片的特征提取,從2012年的AlexNet,到2014年的VGGNet和GoogleNet,幾年的ILSVRC(ImageNet大規(guī)模視覺識別挑戰(zhàn)賽)已經(jīng)使得圖片分類和特征提取達(dá)到了近乎完美的境界。靜態(tài)視頻摘要中的圖片摘要工作基本無需耗費時間,利用已有的圖片分類網(wǎng)絡(luò),提取出視頻每一幀的圖片特征信息,即可解決。

?

(圖片來源:http://www.jianshu.com/p/58168fec534d?


?

(VGG網(wǎng)絡(luò)結(jié)構(gòu)圖,圖片來源:http://x-algo.cn/index.php/2017/01/08/1471/?

?

Googlenet模型,Google官方論文配圖)

但是人們在閱讀一篇文章或觀看一段視頻的時候,往往不是根據(jù)單一的幀或單詞進行理解,而是需要與前面所看過的內(nèi)容相結(jié)合,完成對整體內(nèi)容的理解。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不能做到這點,因此,在視頻文本摘要中,往往需要一種特殊的神經(jīng)網(wǎng)絡(luò)——Recurrent Neural Networks(循環(huán)神經(jīng)網(wǎng)絡(luò))。RNN是一種具有循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò),它可以持續(xù)保存前面的信息,其大致網(wǎng)絡(luò)結(jié)構(gòu)如下圖:


這樣的一個神經(jīng)網(wǎng)絡(luò),可以在做視頻文本摘要中,保留一部分前文的信息,達(dá)到銜接上下文關(guān)系的目的。因此,它被廣泛運用在文本類、摘要類的實驗中。

?

???但傳統(tǒng)的RNN網(wǎng)絡(luò)依舊存在弊端,它無法連接到較遠(yuǎn)的前文信息。例如,當(dāng)我們需要預(yù)測I grew up in France... I speak fluent French”中的最后一個“French”,我們需要與距離當(dāng)前文較遠(yuǎn)的“France”取得聯(lián)系,但是,當(dāng)兩個詞間隔十分大的時候,RNN就會喪失遠(yuǎn)距離的學(xué)習(xí)能力。這個問題被稱為“長期依賴問題”。

?

為了解決這個問題,一種新的網(wǎng)絡(luò)被提出:Long Short Term 網(wǎng)絡(luò),簡稱LSTM,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),它由Hochreiter & Schmidhuber提出,被認(rèn)為可以解決RNN所不能解決的長期依賴問題。與RNN不同,它利用一個叫做“輸入門限層”的sigmoid層來決定需要丟棄或更新的值,在每一步中狀態(tài),保證各個信息實時存在且為最新的狀態(tài)。這樣的網(wǎng)絡(luò)被廣泛應(yīng)用于需要上下文相關(guān)的實驗?zāi)P椭小?/span>

?

?

?

靜態(tài)視頻摘要的過程

?

下面我們用一個例子來簡述靜態(tài)視頻摘要的過程。2016年CVPR的文章《Video Summarization with Long Short-term?Memory》就利用了LSTM來完成視頻摘要。其主要模型如下:

?

首先,利用GoogleNet網(wǎng)絡(luò)獲取視頻每幀的關(guān)鍵信息,即為上圖的X1…Xt。將特征信息輸入網(wǎng)絡(luò)中,經(jīng)過雙層LSTM之后,獲得Y1…Yt即幀的分值,和ф1…фt為幀間的相似性。通過上圖模型,我們利用獲得的幀間相似性對整體視頻進行時間分割,以避免關(guān)鍵幀重復(fù)。得到每一幀的關(guān)鍵性分值之后,根據(jù)分值大小以及所需要的關(guān)鍵幀數(shù)目,獲得關(guān)鍵幀。

?

最后,根據(jù)客戶需求或視頻不同內(nèi)容,可以將獲得的關(guān)鍵幀處理為關(guān)鍵圖集或?qū)ζ溥M行聚類后重新組合,獲得概括內(nèi)容的短視頻。

?

總結(jié):

?

視頻摘要的運用場合非常廣泛,其技術(shù)也是近兩年計算機視覺界發(fā)展的熱門點。我們公司目前主要致力于會議場景相關(guān)的視頻摘要,將視頻摘要與文本摘要相結(jié)合,用更簡單的結(jié)果向用戶展示一個完整的會議場景,在縮減用戶觀看視頻時間的同時,也使視頻的內(nèi)容變得更加簡單。

聯(lián)系我們,關(guān)注圖鴨微信公眾號



總結(jié)

以上是生活随笔為你收集整理的视频摘要发展综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。