當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频摘要发展综述

發(fā)布時間：2023/12/18 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了视频摘要发展综述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

現(xiàn)如今城市生活節(jié)奏越來越快，用戶在瀏覽一些視頻時，可能并不想花費大量的時間來看一個完整的視頻。更多時候，用戶只想知道這個視頻最精華的信息，也是基于這種需求，谷阿莫等影視評論者才得到如此多的關(guān)注。此時，視頻摘要就體現(xiàn)出其價值所在了。

什么是視頻摘要？

視頻摘要，就是以自動或半自動的方式，通過分析視頻的結(jié)構(gòu)和內(nèi)容存在的時空冗余，從原始視頻中提取有意義的片段/幀。從摘要的技術(shù)處理過程來講，視頻摘要一般可以分成兩種，靜態(tài)視頻摘要和動態(tài)視頻摘要。現(xiàn)階段，我們公司主要致力于靜態(tài)視頻摘要的研究。接下來就和大家主要說一下靜態(tài)視頻摘要。

什么是靜態(tài)視頻摘要？

靜態(tài)視頻摘要，又稱為視頻概要，即用一系列從原始視頻流中抽取出來的靜態(tài)語義單元來表示視頻內(nèi)容的技術(shù)。簡單來說，就是在一段視頻中提取出一些關(guān)鍵幀，通過將多個關(guān)鍵幀組合成視頻摘要，使用戶可以通過少量的關(guān)鍵幀快速瀏覽原始視頻內(nèi)容。進一步發(fā)展的話可以為用戶提供快速的內(nèi)容檢索服務(wù)。

例如，公開課的視頻中，提取出含有完整PPT的幀。我們將含有關(guān)鍵信息的所有幀提供給瀏覽者，可以使其在較短的時間內(nèi)了解到較長視頻的主要內(nèi)容。又例如，將一個2小時的電影提取出其關(guān)鍵部分，組合成一個2分鐘的預(yù)告片，也屬于靜態(tài)視頻摘要。其提取流程大致如下：

靜態(tài)視頻摘要技術(shù)簡介

靜態(tài)視頻摘要通過描述原始視頻中的每幀圖像的特征，通過對幀間的特征差異值比較，抽取出原始視頻的關(guān)鍵幀。故，靜態(tài)視頻摘要的第一步，需要獲取幀信息特征。

關(guān)于圖片的特征提取，從2012年的AlexNet，到2014年的VGGNet和GoogleNet，幾年的ILSVRC（ImageNet大規(guī)模視覺識別挑戰(zhàn)賽）已經(jīng)使得圖片分類和特征提取達(dá)到了近乎完美的境界。靜態(tài)視頻摘要中的圖片摘要工作基本無需耗費時間，利用已有的圖片分類網(wǎng)絡(luò)，提取出視頻每一幀的圖片特征信息，即可解決。

（圖片來源：http://www.jianshu.com/p/58168fec534d?）

（VGG網(wǎng)絡(luò)結(jié)構(gòu)圖，圖片來源：http://x-algo.cn/index.php/2017/01/08/1471/?）

（Googlenet模型，Google官方論文配圖）

但是人們在閱讀一篇文章或觀看一段視頻的時候，往往不是根據(jù)單一的幀或單詞進行理解，而是需要與前面所看過的內(nèi)容相結(jié)合，完成對整體內(nèi)容的理解。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不能做到這點，因此，在視頻文本摘要中，往往需要一種特殊的神經(jīng)網(wǎng)絡(luò)——Recurrent Neural Networks(循環(huán)神經(jīng)網(wǎng)絡(luò))。RNN是一種具有循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)，它可以持續(xù)保存前面的信息，其大致網(wǎng)絡(luò)結(jié)構(gòu)如下圖：

這樣的一個神經(jīng)網(wǎng)絡(luò)，可以在做視頻文本摘要中，保留一部分前文的信息，達(dá)到銜接上下文關(guān)系的目的。因此，它被廣泛運用在文本類、摘要類的實驗中。

???但傳統(tǒng)的RNN網(wǎng)絡(luò)依舊存在弊端，它無法連接到較遠(yuǎn)的前文信息。例如，當(dāng)我們需要預(yù)測“I grew up in France... I speak fluent French”中的最后一個詞“French”，我們需要與距離當(dāng)前文較遠(yuǎn)的“France”取得聯(lián)系，但是，當(dāng)兩個詞間隔十分大的時候，RNN就會喪失遠(yuǎn)距離的學(xué)習(xí)能力。這個問題被稱為“長期依賴問題”。

為了解決這個問題，一種新的網(wǎng)絡(luò)被提出：Long Short Term 網(wǎng)絡(luò)，簡稱LSTM，是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)，它由Hochreiter & Schmidhuber提出，被認(rèn)為可以解決RNN所不能解決的長期依賴問題。與RNN不同，它利用一個叫做“輸入門限層”的sigmoid層來決定需要丟棄或更新的值，在每一步中狀態(tài)，保證各個信息實時存在且為最新的狀態(tài)。這樣的網(wǎng)絡(luò)被廣泛應(yīng)用于需要上下文相關(guān)的實驗?zāi)Ｐ椭小?/span>

靜態(tài)視頻摘要的過程

下面我們用一個例子來簡述靜態(tài)視頻摘要的過程。2016年CVPR的文章《Video Summarization with Long Short-term?Memory》就利用了LSTM來完成視頻摘要。其主要模型如下：

首先，利用GoogleNet網(wǎng)絡(luò)獲取視頻每幀的關(guān)鍵信息，即為上圖的X1…Xt。將特征信息輸入網(wǎng)絡(luò)中，經(jīng)過雙層LSTM之后，獲得Y1…Yt即幀的分值，和ф1…фt為幀間的相似性。通過上圖模型，我們利用獲得的幀間相似性對整體視頻進行時間分割，以避免關(guān)鍵幀重復(fù)。得到每一幀的關(guān)鍵性分值之后，根據(jù)分值大小以及所需要的關(guān)鍵幀數(shù)目，獲得關(guān)鍵幀。

最后，根據(jù)客戶需求或視頻不同內(nèi)容，可以將獲得的關(guān)鍵幀處理為關(guān)鍵圖集或?qū)ζ溥M行聚類后重新組合，獲得概括內(nèi)容的短視頻。

總結(jié)：

視頻摘要的運用場合非常廣泛，其技術(shù)也是近兩年計算機視覺界發(fā)展的熱門點。我們公司目前主要致力于會議場景相關(guān)的視頻摘要，將視頻摘要與文本摘要相結(jié)合，用更簡單的結(jié)果向用戶展示一個完整的會議場景，在縮減用戶觀看視頻時間的同時，也使視頻的內(nèi)容變得更加簡單。

聯(lián)系我們，關(guān)注圖鴨微信公眾號

總結(jié)

以上是生活随笔為你收集整理的视频摘要发展综述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度数据全方位解析：冰桶挑战---TOM
下一篇： Akka 指南之「Actors」