视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文
作者丨文永亮
學(xué)校丨哈爾濱工業(yè)大學(xué)(深圳)碩士生
研究方向丨視頻預(yù)測(cè)、時(shí)空序列預(yù)測(cè)
ICCV 2019
這是卡耐基梅隆和 Facebook 的一篇 paper,這篇論文的關(guān)鍵在于分解實(shí)體預(yù)測(cè)再組成,我們觀察到一個(gè)場(chǎng)景是由不同實(shí)體經(jīng)歷不同運(yùn)動(dòng)組成的,所以這里提出的方法是通過(guò)隱式預(yù)測(cè)獨(dú)立實(shí)體的未來(lái)狀態(tài),同時(shí)推理它們之間的相互作用,并使用預(yù)測(cè)狀態(tài)來(lái)構(gòu)成未來(lái)的視頻幀,從而實(shí)現(xiàn)了對(duì)實(shí)體分解組成的視頻預(yù)測(cè)。?
該論文使用了兩個(gè)數(shù)據(jù)集,一個(gè)是包含可能掉落的堆疊物體 ShapeStacks,另一個(gè)包含人類在體育館中進(jìn)行活動(dòng)的視頻 Penn Action,并表明論文的方法可以在這些不同的環(huán)境中進(jìn)行逼真的隨機(jī)視頻預(yù)測(cè)。
主要架構(gòu)有下面三個(gè)部分組成:?
1. Entity Predictor(實(shí)體預(yù)測(cè)模塊):預(yù)測(cè)每一個(gè)實(shí)體表示的未來(lái)狀態(tài);
2. Frame Decoder(幀解碼器):從實(shí)體表示中解碼成 frame;
3. Encoder(編碼器):把 frame 編碼成 u 作為 LSTM 的 cell-state 得到輸出記錄時(shí)序信息(最后其實(shí)就是 concat 進(jìn)去,見(jiàn)如下)。
https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349
模型將具有已知或者檢測(cè)到的實(shí)體位置的圖像作為輸入。每個(gè)實(shí)體均表示為其位置和隱式特征。每個(gè)實(shí)體的表示為,表示為預(yù)測(cè)的位置,表示為隱式特征,這樣的分解方便我們高效地預(yù)測(cè)每一個(gè)實(shí)體的未來(lái)狀態(tài),給定當(dāng)前實(shí)體表示形式和采樣的潛在變量,我們的預(yù)測(cè)模塊將在下一個(gè)時(shí)間步預(yù)測(cè)這些表示形式。我們所學(xué)的解碼器將預(yù)測(cè)的表示組合為代表預(yù)測(cè)的未來(lái)的圖像。在訓(xùn)練期間,使用潛在編碼器模塊使用初始幀和最終幀來(lái)推斷潛在變量的分布。?
分解的思想一般都用 mask 來(lái)體現(xiàn),就是把變化的與不變的用掩碼表示后在組合起來(lái),預(yù)測(cè)變化的部分,這是分而治之的思想。?
讓表示在 g 的網(wǎng)絡(luò)結(jié)構(gòu)下解碼每一個(gè)實(shí)體的特征和空間掩碼,讓 W?表示類似 Spatial Transformer Networks 的空間變化網(wǎng)絡(luò),可以得到下面的實(shí)體的特征和掩碼和。
通過(guò)權(quán)重掩碼和各個(gè)特征的結(jié)合最后取平均,這樣我們就得到圖像級(jí)別的特征,即每一幀的特征,是常數(shù)的空間掩碼(論文取值為 0.1),其組成的特征表示如下:
上面的公式很好理解,⊙ 是像素乘法,⊕ 是像素加法,這個(gè)是加權(quán)后的背景特征與加權(quán)后的每個(gè)實(shí)體的特征的總和,最后除以權(quán)重和。這樣就得到了解碼的結(jié)果。
編碼器的作用是把各幀編碼成 u,u 的分布服從標(biāo)準(zhǔn)正態(tài)分布,所以需要拉近兩者之間的 KL 散度,u 作為 cell-state 輸入 LSTM 得到表示時(shí)間序列的隱狀態(tài)。
解碼損失就是實(shí)體表示經(jīng)過(guò)解碼與真實(shí)圖像的 L1 損失。
預(yù)測(cè)損失即為解碼損失加上位置損失。
其總的損失函數(shù)即三個(gè)損失的和。
ICLR 2019
當(dāng)我們與環(huán)境中的對(duì)象進(jìn)行交互時(shí),我們可以輕松地想象我們的行為所產(chǎn)生的后果:推一顆球,它會(huì)滾走;扔一個(gè)花瓶,它會(huì)碎掉。視頻預(yù)測(cè)中的主要挑戰(zhàn)是問(wèn)題的模棱兩可,未來(lái)的發(fā)展方向似乎有太多。就像函數(shù)的導(dǎo)數(shù)能夠預(yù)測(cè)該值附近的走向,當(dāng)我們預(yù)測(cè)非常接近的未來(lái)時(shí)我們能夠未來(lái)可期,可是當(dāng)可能性的空間超出了幾幀之后,并且該問(wèn)題本質(zhì)上變成了多模的,即預(yù)測(cè)就變得更多樣了。
這篇把 GAN 和 VAE 都用在了視頻預(yù)測(cè)里,其實(shí) GAN-VAE 在生成方面早有人結(jié)合,只是在視頻預(yù)測(cè)中沒(méi)有人提出,其實(shí)提出的 SAVP 是 SV2P (Stochastic Variational Video Prediction) 和SVG-LP (Stochastic Video Generation with a Learned Prior) 的結(jié)合。
▲?SV2P網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練期間,隱變量從中采樣,對(duì)每一幀的生成都可以看作是對(duì)的重構(gòu),與被 Encoder 編碼為隱變量,前一幀與隱變量經(jīng)過(guò) G 模型之后得到預(yù)測(cè)幀要計(jì)算與當(dāng)前幀的 L1 損失,使其生成要盡量相似。
在測(cè)試階段我們的隱變量從先驗(yàn)分布直接采樣,與經(jīng)過(guò) G 生成下一幀的預(yù)測(cè)圖,所以需要同時(shí)拉近與的分布,其 KL 散度如下:
所以 G 和 E 的目標(biāo)函數(shù)如下:
L1 損失并不是很能反映圖像的相似度,既然文章是 VAE 和 GAN 的結(jié)合,所以在下面提出了判別器去評(píng)判圖片質(zhì)量。論文指出單純的 VAE 更容易產(chǎn)生模糊圖,這里加入的判別器是能夠分辨出生成視頻序列與真實(shí)視頻序列,這里是比較意想不到的地方,因?yàn)檫@里沒(méi)有使用直接的圖像判別器,而是判別生成序列與真實(shí)序列,其 D 判別器的網(wǎng)絡(luò)結(jié)構(gòu)是使用了 3D 卷積基于 SNGAN 的,G 生成器是使用了 convLSTM 捕捉時(shí)空序列信息。
最后總的損失函數(shù)如下:
下面是論文中的實(shí)驗(yàn)結(jié)果:
ICCV 2019
Non-Local ConvLSTM 是復(fù)旦大學(xué)和 B 站的論文,其實(shí)這篇不太算視頻預(yù)測(cè)方向,這是使用了在 ConvLSTM 中使用 Non-Local 結(jié)合前一幀增強(qiáng)圖像減少視頻壓縮的偽影,是視頻壓縮的領(lǐng)域,但是對(duì)我有些啟發(fā),Non-Local 最初就是用于視頻分類的。?
SSIM是用來(lái)評(píng)價(jià)整張圖的質(zhì)量,但是對(duì)于一張質(zhì)量不好的圖來(lái)說(shuō)他的 patch 并不一定差,對(duì)于一張好圖來(lái)說(shuō)他的 patch 也不一定好,所以作者用 Non-Local 來(lái)捕捉兩幀之間特征圖間像素的相似性。
ConvLSTM 可以表示成下面的公式:
即 hidden state??是從上一次的 hidden state??和??經(jīng)過(guò) ConvLSTM-cell 得到的。?
而 NL-ConvLSTM 是在 ConvLSTM 的基礎(chǔ)上加了 Non-local 的方法,可以表示如下:
其中是當(dāng)前幀與前一幀的的相似矩陣,這里的 Non-Local 的操作是一種特殊的 attention,這不是 self-attention,是比較前一幀獲得相似矩陣再計(jì)算 attention,NLWrap 操作可以用數(shù)學(xué)表達(dá)如下:
這里的公式估計(jì)論文寫錯(cuò)了,我認(rèn)為是:
但是由于 Non-local 計(jì)算量太大,作者提出了兩階段的 Non-Local 相似度估計(jì),即池化之后做相似度計(jì)算如下:
CVPR 2019
這是清華大學(xué)的一篇 paper,作者 Yunbo Wang 也是 Eidetic 3D LSTM,PredRNN++,PredRNN 的作者,自然時(shí)空序列的發(fā)生過(guò)程常常是非平穩(wěn)( Non-Stationarity )的,在低級(jí)的非平穩(wěn)體現(xiàn)在像素之間的空間相關(guān)性或時(shí)序性,在高層語(yǔ)義特征的變化其實(shí)體現(xiàn)在降水預(yù)報(bào)中雷達(dá)回波的積累,形變或耗散。
上圖是連續(xù) 20 幀雷達(dá)圖變化,其中白色像素表示降水概率較高。第二、第三、最后一行:通過(guò)不同顏色的邊框表明相應(yīng)局部區(qū)域的像素值分布、均值和標(biāo)準(zhǔn)差的變化。藍(lán)色和黃色框表明著生成的非平穩(wěn)變化過(guò)程,紅色框表明了消散的過(guò)程,綠色框?yàn)樾巫冞^(guò)程。
▲?左邊為ST-LSTM?(Spatio-Temporal LSTM),右邊為加入了MIM模塊的LSTM
這篇論文的主要工作就是構(gòu)造了 MIM 模塊代替遺忘門,其中這個(gè)模塊分為兩部分:MIM-N(非平穩(wěn)模塊),MIM-S(平穩(wěn)模塊)。
MIM-N 所有的門,,,和都用短期記憶的隱狀態(tài)的幀差更新,因?yàn)檫@樣強(qiáng)調(diào)了非平穩(wěn)變換,最后得到特征差和作為 MIM-S 輸入,MIM-S 會(huì)根據(jù)原記憶和特征差決定變化多少,如果很小,意味著并不是非平穩(wěn)變化,即變化得平穩(wěn),MIM-S 很大程度會(huì)繼續(xù)沿用;如果很大,則會(huì)重寫記憶并且更關(guān)注于非平穩(wěn)變化。?
其數(shù)學(xué)表達(dá)式如下:
1. MIM-N:
2. MIM-S:
這一篇的實(shí)驗(yàn)做的很全面,其效果如下,均達(dá)到了 state-of-the-art:?
Moving Mnist:
在數(shù)字集上的表現(xiàn)效果較好。?
Radar Echo:
其實(shí)可以看到 MSE 在預(yù)測(cè)第五幀才有明顯的優(yōu)勢(shì),CSI-40 和 CSI-50 其實(shí)并沒(méi)有明顯優(yōu)勢(shì)。
總結(jié)
視頻預(yù)測(cè)是結(jié)合了時(shí)空序列信息的預(yù)測(cè),其關(guān)鍵在于如何利用時(shí)序信息,ConvLSTM 就是把卷積直接與 LSTM 結(jié)合記錄時(shí)序信息,而在 VAE 相關(guān)的模型中時(shí)間序列被編碼成隱變量拼接起來(lái)。除了修改 LSTM-cell 的結(jié)構(gòu)(e.g. MIM)或者其他的網(wǎng)絡(luò)結(jié)構(gòu)嘗試捕捉其他信息,我們常見(jiàn)的一種思想就是分而治之,把變與不變用掩碼區(qū)分出來(lái),有點(diǎn)像我之前解讀的一篇 BANet,這里的 CVP 方法甚至對(duì)實(shí)體直接進(jìn)行預(yù)測(cè),這些都是比較好的想法。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
通過(guò)多標(biāo)簽相關(guān)性研究提升神經(jīng)網(wǎng)絡(luò)視頻分類能力
ICCV 2019?| 適用于視頻分割的全新Attention機(jī)制
從多視角RGB圖像生成三維網(wǎng)格模型Pixel2Mesh++
ICCV 2019 | 沉迷AI換臉?不如來(lái)試試“AI換衣”
ShapeMatchingGAN:打造炫酷動(dòng)態(tài)的藝術(shù)字
ICCV 2019 | COCO-GAN: 通過(guò)條件坐標(biāo)的部分圖像生成
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取更多論文推薦
總結(jié)
以上是生活随笔為你收集整理的视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: BERT+知识图谱:北大-腾讯联合推出知
- 下一篇: 平安付扣钱的几个原因