大谷新作!AI还原「王之霸气」朱元璋,杜甫倾情献唱奥特曼主题曲
來(lái)源:b站
編輯:雅新、白峰
AI 復(fù)活「歷史人物系」來(lái)一波 !
兵馬俑、杜甫、朱元璋、林黛玉都來(lái)湊熱鬧了。
還記得 AI 復(fù)原的 100 年前老北京和上海時(shí)裝秀的原聲錄像嗎?近日,B站 up 主 @大谷 Spitzer 再次用 AI「畫(huà)筆」復(fù)原了塵封多年的歷史。
杜甫「天眼」一開(kāi),沒(méi)有吟詩(shī),而是唱起了奧特曼主題曲《奇跡再現(xiàn)》,還挺有節(jié)奏。
杜甫抖起來(lái),真沒(méi)年輕人什么事了。
黎明悄悄劃過(guò)天邊,就像陽(yáng)光穿過(guò)黑夜。
秦始皇兵馬俑被譽(yù)為世界第八大奇跡。每個(gè)兵馬俑的表情都是千奇百態(tài),幾千年過(guò)去了,我們很難想象出他們?cè)谇爻臉幼印?/p>
今天,大谷讓這些兵俑重新煥發(fā)了生機(jī),穿越前年來(lái)和你對(duì)話。
去過(guò)兵馬俑后,大家都會(huì)對(duì)這些泥塑真人古跡的感到震撼。再看用 AI 復(fù)原后的兵馬俑,竟變成了有血有肉的大叔。
明朝開(kāi)國(guó)皇帝朱元璋復(fù)原后這一傲嬌的表情,我瞬間收藏了。
網(wǎng)友表示,明太祖真是「英氣逼人」。
天生抑郁體制的林黛玉圖像復(fù)原后,讓人瞬間眼前一亮。柳葉眉,櫻桃唇,鵝蛋臉,一顰一笑,讓人心生歡喜。
還有蔣兆和老先生的水墨畫(huà)《老伴》,老爺爺和老奶奶的對(duì)話場(chǎng)景活靈活現(xiàn)。
AI 復(fù)原《于闐歌舞圖》,新疆的菇?jīng)鼍褪敲溃?/p>
這些活靈活現(xiàn)的人物究竟是如何復(fù)活的?
大谷很熱心地分享了自己用到的 AI 模型,全是開(kāi)源的 GitHub 項(xiàng)目。
只要沉下心來(lái)研究大谷的教程,你也能讓杜甫舞動(dòng)起來(lái)。
風(fēng)格轉(zhuǎn)換第一步
ArtBreeder 的是一個(gè)在線工具,可以讓用戶使用生成對(duì)抗性網(wǎng)絡(luò)(GAN)來(lái)操縱人物肖像和風(fēng)景。要做的很簡(jiǎn)單,登錄 ArtBreeder 網(wǎng)站,輸入自己想要風(fēng)格化的圖像,使用滑塊進(jìn)行調(diào)整就能完成,十分方便。
徐悲鴻經(jīng)風(fēng)格調(diào)整后的圖像
如果想要特定風(fēng)格的,就需要 StyleGAN 了,StyleGAN2 是 StyleGAN 的升級(jí)版,可以更加精細(xì)的進(jìn)行風(fēng)格遷移。
StyleGAN2 重新定義了無(wú)條件圖像建模,無(wú)論是在現(xiàn)有的分布質(zhì)量指標(biāo)還是感知圖像質(zhì)量方面都達(dá)到了 SOTA。StyleGAN2 對(duì)上一代的 StyleGAN 方法進(jìn)行了改進(jìn),并對(duì)模型結(jié)構(gòu)和訓(xùn)練方法進(jìn)行了調(diào)整,讓圖像的生成質(zhì)量更好。
StyleGAN2 訓(xùn)練的速度更快,新生成的圖像受偽影的影響更小,多圖像的混搭風(fēng)格更好,插值更加平滑,因此看起來(lái)過(guò)渡比較平滑。
First-Order-Model,讓靜態(tài)人物動(dòng)起來(lái)
得到特定風(fēng)格的圖片之后,如何讓靜態(tài)的人物動(dòng)起來(lái)?
大谷使用了一個(gè)基于 First-Order-Model 的動(dòng)態(tài)轉(zhuǎn)換模型,該模型只需要輸入一個(gè)動(dòng)態(tài)視頻和杜甫的靜態(tài)圖片,就可以讓杜甫模仿出視頻中人物的動(dòng)作。
這個(gè)模型可以根據(jù)驅(qū)動(dòng)視頻的運(yùn)動(dòng),對(duì)源圖像中的對(duì)象進(jìn)行動(dòng)畫(huà)處理,以生成視頻序列,而無(wú)需使用任何注釋或有關(guān)特定對(duì)象的先驗(yàn)信息。
模型采用自監(jiān)督的方法將外觀和運(yùn)動(dòng)信息分離,使用了視頻中對(duì)象的關(guān)鍵點(diǎn)及其局部仿射變換進(jìn)行特征表示。
First-Order-Model 模型由兩個(gè)主要模塊組成:運(yùn)動(dòng)估計(jì)模塊和圖像生成模塊。運(yùn)動(dòng)估計(jì)模塊的目的是預(yù)測(cè)密集的運(yùn)動(dòng)場(chǎng)。我們假設(shè)存在一個(gè)抽象的參考框架,然后獨(dú)立地估計(jì)了兩種轉(zhuǎn)換:從參考到源以及從參考到驅(qū)動(dòng),這樣的設(shè)計(jì)使模型能夠獨(dú)立處理源幀和驅(qū)動(dòng)幀。
視頻不清晰不連貫?插幀、超分辨率一鍵搞定
模型直接生成的視頻可能在動(dòng)作不夠連貫,這時(shí)就需要一個(gè)視頻插幀的步驟,讓動(dòng)態(tài)圖像顯得更自然,大谷同樣采用了一個(gè)開(kāi)源視頻幀插值模型 DAIN。
DAIN 的全稱是深度感知視頻幀插值,模型通過(guò)探索深度信息來(lái)顯式地檢測(cè)遮擋。該項(xiàng)目開(kāi)發(fā)了一個(gè)深度感知流動(dòng)投影層,優(yōu)選取樣更近的物體,以合成中間流插補(bǔ)視頻幀。
此前在另一個(gè)視頻中,大谷還使用了一個(gè)超分辨率工具 ESRGAN。
當(dāng) First-Order-Model 生成的視頻分辨率低,而 DAIN 插值后效果又不好,就可以考慮使用 ESRGAN 加一個(gè)超分辨率的后處理。
ESRGAN:ESRGAN 改進(jìn)自 SRGAN ,主要用來(lái)做視頻超分辨率。與 SRGAN 的深層模型越來(lái)越難以訓(xùn)練相反,更深層次的 ESRGAN 模型通過(guò)簡(jiǎn)單的訓(xùn)練就能達(dá)到卓越的性能,核心點(diǎn)在于平衡視覺(jué)質(zhì)量和峰值信噪比的網(wǎng)絡(luò)插值策略。
大谷老師的B站粉絲數(shù)已經(jīng)將近 9 萬(wàn)了,如果你也想成為一個(gè)超人氣 AI 明星,趕緊撿起你的 Python 吧!
總結(jié)
以上是生活随笔為你收集整理的大谷新作!AI还原「王之霸气」朱元璋,杜甫倾情献唱奥特曼主题曲的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 花落弦断下一句是什么啊?
- 下一篇: 三星Galaxy Buds Live开售