视频摘要发展综述
現(xiàn)如今城市生活節(jié)奏越來越快,用戶在瀏覽一些視頻時,可能并不想花費大量的時間來看一個完整的視頻。更多時候,用戶只想知道這個視頻最精華的信息,也是基于這種需求,谷阿莫等影視評論者才得到如此多的關(guān)注。此時,視頻摘要就體現(xiàn)出其價值所在了。
?
什么是視頻摘要?
?
視頻摘要,就是以自動或半自動的方式,通過分析視頻的結(jié)構(gòu)和內(nèi)容存在的時空冗余,從原始視頻中提取有意義的片段/幀。從摘要的技術(shù)處理過程來講,視頻摘要一般可以分成兩種,靜態(tài)視頻摘要和動態(tài)視頻摘要。現(xiàn)階段,我們公司主要致力于靜態(tài)視頻摘要的研究。接下來就和大家主要說一下靜態(tài)視頻摘要。
?
什么是靜態(tài)視頻摘要?
?
靜態(tài)視頻摘要,又稱為視頻概要,即用一系列從原始視頻流中抽取出來的靜態(tài)語義單元來表示視頻內(nèi)容的技術(shù)。簡單來說,就是在一段視頻中提取出一些關(guān)鍵幀,通過將多個關(guān)鍵幀組合成視頻摘要,使用戶可以通過少量的關(guān)鍵幀快速瀏覽原始視頻內(nèi)容。進一步發(fā)展的話可以為用戶提供快速的內(nèi)容檢索服務(wù)。
?
例如,公開課的視頻中,提取出含有完整PPT的幀。我們將含有關(guān)鍵信息的所有幀提供給瀏覽者,可以使其在較短的時間內(nèi)了解到較長視頻的主要內(nèi)容。又例如,將一個2小時的電影提取出其關(guān)鍵部分,組合成一個2分鐘的預(yù)告片,也屬于靜態(tài)視頻摘要。其提取流程大致如下:
?
?
?
靜態(tài)視頻摘要技術(shù)簡介
?
靜態(tài)視頻摘要通過描述原始視頻中的每幀圖像的特征,通過對幀間的特征差異值比較,抽取出原始視頻的關(guān)鍵幀。故,靜態(tài)視頻摘要的第一步,需要獲取幀信息特征。
?
關(guān)于圖片的特征提取,從2012年的AlexNet,到2014年的VGGNet和GoogleNet,幾年的ILSVRC(ImageNet大規(guī)模視覺識別挑戰(zhàn)賽)已經(jīng)使得圖片分類和特征提取達(dá)到了近乎完美的境界。靜態(tài)視頻摘要中的圖片摘要工作基本無需耗費時間,利用已有的圖片分類網(wǎng)絡(luò),提取出視頻每一幀的圖片特征信息,即可解決。
?
(圖片來源:http://www.jianshu.com/p/58168fec534d?)
?
(VGG網(wǎng)絡(luò)結(jié)構(gòu)圖,圖片來源:http://x-algo.cn/index.php/2017/01/08/1471/?)
?
(Googlenet模型,Google官方論文配圖)
但是人們在閱讀一篇文章或觀看一段視頻的時候,往往不是根據(jù)單一的幀或單詞進行理解,而是需要與前面所看過的內(nèi)容相結(jié)合,完成對整體內(nèi)容的理解。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不能做到這點,因此,在視頻文本摘要中,往往需要一種特殊的神經(jīng)網(wǎng)絡(luò)——Recurrent Neural Networks(循環(huán)神經(jīng)網(wǎng)絡(luò))。RNN是一種具有循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò),它可以持續(xù)保存前面的信息,其大致網(wǎng)絡(luò)結(jié)構(gòu)如下圖:
這樣的一個神經(jīng)網(wǎng)絡(luò),可以在做視頻文本摘要中,保留一部分前文的信息,達(dá)到銜接上下文關(guān)系的目的。因此,它被廣泛運用在文本類、摘要類的實驗中。
?
???但傳統(tǒng)的RNN網(wǎng)絡(luò)依舊存在弊端,它無法連接到較遠(yuǎn)的前文信息。例如,當(dāng)我們需要預(yù)測“I grew up in France... I speak fluent French”中的最后一個詞“French”,我們需要與距離當(dāng)前文較遠(yuǎn)的“France”取得聯(lián)系,但是,當(dāng)兩個詞間隔十分大的時候,RNN就會喪失遠(yuǎn)距離的學(xué)習(xí)能力。這個問題被稱為“長期依賴問題”。
?
為了解決這個問題,一種新的網(wǎng)絡(luò)被提出:Long Short Term 網(wǎng)絡(luò),簡稱LSTM,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),它由Hochreiter & Schmidhuber提出,被認(rèn)為可以解決RNN所不能解決的長期依賴問題。與RNN不同,它利用一個叫做“輸入門限層”的sigmoid層來決定需要丟棄或更新的值,在每一步中狀態(tài),保證各個信息實時存在且為最新的狀態(tài)。這樣的網(wǎng)絡(luò)被廣泛應(yīng)用于需要上下文相關(guān)的實驗?zāi)P椭小?/span>
?
?
?
靜態(tài)視頻摘要的過程
?
下面我們用一個例子來簡述靜態(tài)視頻摘要的過程。2016年CVPR的文章《Video Summarization with Long Short-term?Memory》就利用了LSTM來完成視頻摘要。其主要模型如下:
?
首先,利用GoogleNet網(wǎng)絡(luò)獲取視頻每幀的關(guān)鍵信息,即為上圖的X1…Xt。將特征信息輸入網(wǎng)絡(luò)中,經(jīng)過雙層LSTM之后,獲得Y1…Yt即幀的分值,和ф1…фt為幀間的相似性。通過上圖模型,我們利用獲得的幀間相似性對整體視頻進行時間分割,以避免關(guān)鍵幀重復(fù)。得到每一幀的關(guān)鍵性分值之后,根據(jù)分值大小以及所需要的關(guān)鍵幀數(shù)目,獲得關(guān)鍵幀。
?
最后,根據(jù)客戶需求或視頻不同內(nèi)容,可以將獲得的關(guān)鍵幀處理為關(guān)鍵圖集或?qū)ζ溥M行聚類后重新組合,獲得概括內(nèi)容的短視頻。
?
總結(jié):
?
視頻摘要的運用場合非常廣泛,其技術(shù)也是近兩年計算機視覺界發(fā)展的熱門點。我們公司目前主要致力于會議場景相關(guān)的視頻摘要,將視頻摘要與文本摘要相結(jié)合,用更簡單的結(jié)果向用戶展示一個完整的會議場景,在縮減用戶觀看視頻時間的同時,也使視頻的內(nèi)容變得更加簡單。
聯(lián)系我們,關(guān)注圖鴨微信公眾號
總結(jié)
- 上一篇: 深度数据全方位解析:冰桶挑战---TOM
- 下一篇: Akka 指南 之「Actors」