你说我导!微软玩转标题描述生成视频
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?107?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @TwistedW。本文來自微軟亞洲研究院,根據(jù)描述生成視頻是此篇文章實(shí)現(xiàn)的目的。通過 LSTM 對(duì)描述標(biāo)題提取特征,再結(jié)合噪聲經(jīng)過 3D 反卷積生成視頻,利用 GAN 的思想優(yōu)化生成質(zhì)量,判別的時(shí)候根據(jù)視頻和描述的匹配關(guān)系來判斷真假,通過視頻、視頻幀、幀之間的判別實(shí)現(xiàn)了描述到視頻的生成。
如果你對(duì)本文工作感興趣,點(diǎn)擊底部閱讀原文即可查看原論文。
關(guān)于作者:武廣,合肥工業(yè)大學(xué)碩士生,研究方向?yàn)閳D像生成。
■?論文 | To Create What You Tell: Generating Videos from Captions
■ 鏈接 | https://www.paperweekly.site/papers/2315
■ 作者 |?Yingwei Pan / Zhaofan Qiu / Ting Yao / Houqiang Li / Tao Mei
視頻生成在計(jì)算機(jī)視覺上已經(jīng)是很困難的工作了,按照描述去生成視頻是更具有挑戰(zhàn)性的工作。To Create What You Tell: Generating Videos from Captions 簡(jiǎn)稱為 TGANs-C,在實(shí)驗(yàn)上實(shí)現(xiàn)了由描述的標(biāo)題生成相對(duì)應(yīng)的視頻,這個(gè)工作很有意義,整體思想上采取 GAN 為主題框架實(shí)現(xiàn),我們一起來讀一下。
論文引入
視頻生成的困難在于視頻是視覺上連貫和語(yǔ)義相關(guān)的幀的序列,也就是在時(shí)序序列上做生成,一涉及到時(shí)序就存在大量的不確定性,這也是語(yǔ)音和視頻生成上的難點(diǎn)所在。
視頻通常伴隨有文本描述,例如標(biāo)簽或字幕,因此學(xué)習(xí)視頻生成模型對(duì)文本進(jìn)行調(diào)節(jié)從而減少了采樣不確定性,這個(gè)是具有很大的潛在實(shí)際應(yīng)用。GAN 在實(shí)現(xiàn)時(shí)序上的生成我們之前有寫到 Temporal GAN 論文解讀 [1]、VGAN 論文解讀 [2],整體的思想都是采用 3D 卷積處理視頻序列從而實(shí)現(xiàn)視頻的生成。?
TGANs-C 和 TGAN 的區(qū)別在與 TGANs-C 實(shí)現(xiàn)了由描述性文字到視頻的生成,這篇論文在基礎(chǔ)上借鑒了文本到圖片生成的 GAN-CLS 即采用配對(duì)的思想,這個(gè)我們后續(xù)再談,如果你對(duì) GAN-CLS [3] 印象很深的話這篇文章讀起來會(huì)很輕松。?
通常,在采用標(biāo)題調(diào)節(jié)的視頻生成中存在兩個(gè)關(guān)鍵問題:跨視頻幀的時(shí)間一致性以及標(biāo)題描述與生成的視頻之間的語(yǔ)義匹配。前者產(chǎn)生了對(duì)生成模型學(xué)習(xí)的見解,相鄰視頻幀通常在視覺上和語(yǔ)義上是連貫的,因此應(yīng)該隨著時(shí)間的推移而平滑地連接,這可以被視為產(chǎn)生視頻的內(nèi)在和通用屬性。后者追求的模型能夠創(chuàng)建與給定標(biāo)題描述相關(guān)的真實(shí)視頻。
因此,一方面考慮條件處理以創(chuàng)建類似于訓(xùn)練數(shù)據(jù)的視頻,另一方面考慮通過整體利用字幕語(yǔ)義和視頻內(nèi)容之間的關(guān)系來規(guī)范生成能力,這正是 TGANs-C 所考慮的。?
總結(jié)一下 TGANs-C 的優(yōu)勢(shì):?
這是第一個(gè)在標(biāo)題描述下生成視頻的工作之一?
實(shí)現(xiàn)了視頻/幀內(nèi)容與給定標(biāo)題對(duì)齊?
通過一系列廣泛的定量和定性實(shí)驗(yàn),驗(yàn)證了 TGANs-C 模型的有效性
TGANs-C模型結(jié)構(gòu)
我們還是先來看一下模型的網(wǎng)絡(luò)結(jié)構(gòu):
整體上模型分為左右兩塊,左邊是生成器,右邊就是判別器,所以說 TGANs-C 是以 GAN 為主體框架的模型,我們分開來分析。
生成網(wǎng)絡(luò)?
生成網(wǎng)絡(luò)下由兩塊組成,下面是標(biāo)題描述的文本編碼,上面就是在噪聲和文本編碼特征作為輸入的生成器。對(duì)于文本編碼,文章采用的是雙向 LSTM 做的編碼。文字描述的時(shí)序和語(yǔ)義結(jié)構(gòu)是緊密相關(guān)的,所以需要保留時(shí)序信息,所以 RNN 的思想是處理的關(guān)鍵。對(duì)于文本編碼過程中采用逐個(gè)單詞雙向處理,雙向 LSTM 可以保證文本上更加緊密的時(shí)序和語(yǔ)義結(jié)構(gòu),最終編碼到特征維度為文中取的是 256 維。
將文本編碼得到的特征向量 S 和先驗(yàn)噪聲 z 做 concat送入 3D 反卷積網(wǎng)絡(luò)做視頻的生成,整個(gè)過成處理上為,這里的代表的是通道數(shù)、幀、高、寬,這里的高和寬對(duì)應(yīng)的是視頻一幀圖像的長(zhǎng)寬,幀代表反卷積下包括多少視頻幀,比如最后的輸出文中取的是 16 幀作為視頻的輸出。
可以看到,經(jīng)過 3D 反卷積后,由噪聲和文本編碼最后生成了彩色的 16 幀大小為 48×48 的視頻輸出。整個(gè)生成器我們可以將標(biāo)題描述特征作為條件,整個(gè)生成器是類似于條件生成器,由標(biāo)題描述特征作為條件生成對(duì)應(yīng)的視頻。
判別網(wǎng)絡(luò)?
TGANs-C 有著強(qiáng)大的判別網(wǎng)絡(luò),文章為了實(shí)現(xiàn)判別效果設(shè)計(jì)了 3 個(gè)判別器,圖中對(duì)應(yīng)的是右半邊上、中、下。
上面一路的判別器命名為,它的目的是為了區(qū)別生成的視頻和真實(shí)的視頻的真假,為了保證與標(biāo)題描述對(duì)應(yīng),在最后嵌入了標(biāo)題特征做匹配。這個(gè)思想在 GAN-CLS 最早被應(yīng)用,為了實(shí)現(xiàn)和描述文本的匹配,在判別器的設(shè)計(jì)上增強(qiáng)了判別器的能力。
判別器不僅判斷視頻的真假還判斷視頻是否和標(biāo)題描述對(duì)應(yīng),配對(duì)就這樣產(chǎn)生了,由 3 組配對(duì)關(guān)系:真實(shí)視頻和正確標(biāo)題描述、生成視頻和真實(shí)標(biāo)題描述還有就是真實(shí)視頻和錯(cuò)誤標(biāo)題描述。判別器只有在真實(shí)視頻和正確標(biāo)題對(duì)應(yīng)上才判斷為真,否則為假,即真,、為假。與之對(duì)應(yīng)的損失函數(shù)為:
中間一路的判別器命名為 D1,它的目的是為了區(qū)分對(duì)應(yīng)的視頻幀的真假,同樣的加入了與標(biāo)題描述的匹配,用描述視頻的第 i 幀對(duì)應(yīng)的圖像,對(duì)于整個(gè)視頻一共有幀,這個(gè)判別器對(duì)應(yīng)的損失為:
下面一路的判別器命名為 D2,它的目的是為了在時(shí)序上調(diào)整前后幀的關(guān)系,一般視頻中前后幀之間不會(huì)有太大的變動(dòng),由此思想文章設(shè)計(jì)了時(shí)序關(guān)聯(lián)損失。它的作用是保證視頻的前后幀之間不會(huì)有太大的差異,用 D 表示:
由于決定生成的視頻幀的幀之間的關(guān)系的是生成器,對(duì)于真實(shí)視頻沒必要再做差異優(yōu)化,所以這部分主要作用的是生成器,這一塊的損失可以寫為:
為什么這里的上標(biāo)為 1 呢,因?yàn)閷?duì)應(yīng)的還有 2,這一部分是考慮到生成視頻幀之間的關(guān)聯(lián)差異,從動(dòng)態(tài)差異上實(shí)現(xiàn)對(duì)抗又會(huì)怎么樣呢?這就是另一種實(shí)現(xiàn)時(shí)序關(guān)聯(lián)的方法。 這一部分用 Φ2 判斷真假,此損失表示為:
文中對(duì)時(shí)序關(guān)聯(lián)上采取的方法 (1) 時(shí)間相干約束損失命名為 TGANs-C-C,對(duì)于方法 (2) 時(shí)間相干性對(duì)抗性損失命名為 TGANs-C-A。從后續(xù)的實(shí)驗(yàn)上驗(yàn)證出 TGANs-C-A 的方法效果更好,所以文章的名字 TGANs-C 其實(shí)指的是 TGANs-C-A。?
整合一下,對(duì)于方法 (1) TGANs-C-C 對(duì)應(yīng)的判別器和生成器最終損失為:
對(duì)于方法 (2) TGANs-C-A 對(duì)應(yīng)的判別器和生成器最終損失為:
最后貼上實(shí)現(xiàn)整個(gè) TGANs-C 的偽代碼:
TGANs-C實(shí)驗(yàn)
實(shí)驗(yàn)的數(shù)據(jù)集選擇了單數(shù)字邊界 MNIST GIF(SBMG),兩位數(shù)的彈跳 MNIST GIF(TBMG)和微軟研究視頻描述語(yǔ)料庫(kù)(MSVD)。
SBMG 是通過在 64×64 幀內(nèi)彈出單個(gè)手寫數(shù)字而產(chǎn)生的。它由 12,000 個(gè) GIF 組成,每個(gè) GIF 長(zhǎng) 16 幀,包含一個(gè) 28×28 左右移動(dòng)的數(shù)字左右或上下。數(shù)字的起始位置是隨機(jī)均勻選擇的。每個(gè) GIF 都附有描述數(shù)字及其移動(dòng)方向的單句。
TBMG 是 SBMG 的擴(kuò)展合成數(shù)據(jù)集,包含兩個(gè)手寫數(shù)字彈跳,生成過程與 SBMG 相同,每個(gè) GIF 中的兩個(gè)數(shù)字分別左右或上下移動(dòng)。MSVD 包含從 YouTube 收集的 1,970 個(gè)視頻片段。每個(gè)視頻大約有 40 個(gè)可用的英文描述。在實(shí)驗(yàn)中,手動(dòng)過濾掉有關(guān)烹飪的視頻,并生成 518 個(gè)烹飪視頻的子集。數(shù)據(jù)集的部分描述如下圖:
TGANs?C1 為僅考慮視頻對(duì)抗,TGANs?C2 為考慮了未考慮,TGANs-C-C 和 TGANs-C-A 都已經(jīng)知道了構(gòu)成,這幾個(gè)對(duì)比結(jié)果為:
定性分析不同模型產(chǎn)生的結(jié)果如下圖,主要對(duì)比了 VGAN、Sync-DRAW(基于 VAE 實(shí)現(xiàn)的)、GAN-CLS 和 TGANs-C。
定量上以不同人的選擇,給分越低效果越好,TGANs-C 也展示了很好的效果:
總結(jié)
TGANs-C 實(shí)現(xiàn)了標(biāo)題描述到視頻的生成,正如文章的題目說的那樣 To Create What You Tell!雖然這個(gè)題目有點(diǎn)大,但是確實(shí)在理論上是可以行得通的。匹配的思想對(duì)于嚴(yán)格的固定生成來說是很重要的一個(gè)技術(shù)環(huán)節(jié),可以借鑒在很多地方,正是這種嚴(yán)格的配對(duì)關(guān)系往往限制了一些發(fā)展,因?yàn)檫@種算是全監(jiān)督式學(xué)習(xí)了。無監(jiān)督下條件生成是最為困難的,這個(gè)也是未來大家一起努力的地方。
參考文獻(xiàn)
[1]. https://www.paperweekly.site/papers/notes/443
[2].?https://www.paperweekly.site/papers/notes/449
[3]. Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, and Honglak Lee. 2016. Generative adversarial text to image synthesis. In ICML.
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
點(diǎn)擊標(biāo)題查看更多論文解讀:?
ECCV 2018最佳論文:基于解剖結(jié)構(gòu)的面部表情生成
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)綜述
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
ECCV 2018 | 從單幀RGB圖像生成三維網(wǎng)格模型
ECCV 2018 | 基于三維重建的全新相機(jī)姿態(tài)估計(jì)方法
ECCV 2018 | 騰訊AI Lab提出視頻再定位任務(wù)
杜倫大學(xué)提出GANomaly:無負(fù)例樣本實(shí)現(xiàn)異常檢測(cè)
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的你说我导!微软玩转标题描述生成视频的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 细水长flow之f-VAEs:Glow与
- 下一篇: 重磅 | 带学斯坦福CS231n计算机视