當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

大谷新作！AI还原「王之霸气」朱元璋，杜甫倾情献唱奥特曼主题曲

發(fā)布時(shí)間：2023/11/23 综合教程 49 生活家

生活随笔收集整理的這篇文章主要介紹了大谷新作！AI还原「王之霸气」朱元璋，杜甫倾情献唱奥特曼主题曲小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

　　來(lái)源：b站

　　編輯：雅新、白峰

　　AI 復(fù)活「歷史人物系」來(lái)一波！

　　兵馬俑、杜甫、朱元璋、林黛玉都來(lái)湊熱鬧了。

　　還記得 AI 復(fù)原的 100 年前老北京和上海時(shí)裝秀的原聲錄像嗎？近日，B站 up 主 @大谷 Spitzer 再次用 AI「畫(huà)筆」復(fù)原了塵封多年的歷史。

　　杜甫「天眼」一開(kāi)，沒(méi)有吟詩(shī)，而是唱起了奧特曼主題曲《奇跡再現(xiàn)》，還挺有節(jié)奏。

　　杜甫抖起來(lái)，真沒(méi)年輕人什么事了。

　　黎明悄悄劃過(guò)天邊，就像陽(yáng)光穿過(guò)黑夜。

　　秦始皇兵馬俑被譽(yù)為世界第八大奇跡。每個(gè)兵馬俑的表情都是千奇百態(tài)，幾千年過(guò)去了，我們很難想象出他們?cè)谇爻臉幼印?/p>

　　今天，大谷讓這些兵俑重新煥發(fā)了生機(jī)，穿越前年來(lái)和你對(duì)話。

　　去過(guò)兵馬俑后，大家都會(huì)對(duì)這些泥塑真人古跡的感到震撼。再看用 AI 復(fù)原后的兵馬俑，竟變成了有血有肉的大叔。

　　明朝開(kāi)國(guó)皇帝朱元璋復(fù)原后這一傲嬌的表情，我瞬間收藏了。

　　網(wǎng)友表示，明太祖真是「英氣逼人」。

　　天生抑郁體制的林黛玉圖像復(fù)原后，讓人瞬間眼前一亮。柳葉眉，櫻桃唇，鵝蛋臉，一顰一笑，讓人心生歡喜。

　　還有蔣兆和老先生的水墨畫(huà)《老伴》，老爺爺和老奶奶的對(duì)話場(chǎng)景活靈活現(xiàn)。

　　AI 復(fù)原《于闐歌舞圖》，新疆的菇?jīng)鼍褪敲溃?/p>

　　這些活靈活現(xiàn)的人物究竟是如何復(fù)活的？

　　大谷很熱心地分享了自己用到的 AI 模型，全是開(kāi)源的 GitHub 項(xiàng)目。

　　只要沉下心來(lái)研究大谷的教程，你也能讓杜甫舞動(dòng)起來(lái)。

　　風(fēng)格轉(zhuǎn)換第一步

　　ArtBreeder 的是一個(gè)在線工具，可以讓用戶使用生成對(duì)抗性網(wǎng)絡(luò)(GAN)來(lái)操縱人物肖像和風(fēng)景。要做的很簡(jiǎn)單，登錄 ArtBreeder 網(wǎng)站，輸入自己想要風(fēng)格化的圖像，使用滑塊進(jìn)行調(diào)整就能完成，十分方便。

　　徐悲鴻經(jīng)風(fēng)格調(diào)整后的圖像

　　如果想要特定風(fēng)格的，就需要 StyleGAN 了，StyleGAN2 是 StyleGAN 的升級(jí)版，可以更加精細(xì)的進(jìn)行風(fēng)格遷移。

　　StyleGAN2 重新定義了無(wú)條件圖像建模，無(wú)論是在現(xiàn)有的分布質(zhì)量指標(biāo)還是感知圖像質(zhì)量方面都達(dá)到了 SOTA。StyleGAN2 對(duì)上一代的 StyleGAN 方法進(jìn)行了改進(jìn)，并對(duì)模型結(jié)構(gòu)和訓(xùn)練方法進(jìn)行了調(diào)整，讓圖像的生成質(zhì)量更好。

　　StyleGAN2 訓(xùn)練的速度更快，新生成的圖像受偽影的影響更小，多圖像的混搭風(fēng)格更好，插值更加平滑，因此看起來(lái)過(guò)渡比較平滑。

　　First-Order-Model，讓靜態(tài)人物動(dòng)起來(lái)

　　得到特定風(fēng)格的圖片之后，如何讓靜態(tài)的人物動(dòng)起來(lái)？

　　大谷使用了一個(gè)基于 First-Order-Model 的動(dòng)態(tài)轉(zhuǎn)換模型，該模型只需要輸入一個(gè)動(dòng)態(tài)視頻和杜甫的靜態(tài)圖片，就可以讓杜甫模仿出視頻中人物的動(dòng)作。

　　這個(gè)模型可以根據(jù)驅(qū)動(dòng)視頻的運(yùn)動(dòng)，對(duì)源圖像中的對(duì)象進(jìn)行動(dòng)畫(huà)處理，以生成視頻序列，而無(wú)需使用任何注釋或有關(guān)特定對(duì)象的先驗(yàn)信息。

　　模型采用自監(jiān)督的方法將外觀和運(yùn)動(dòng)信息分離，使用了視頻中對(duì)象的關(guān)鍵點(diǎn)及其局部仿射變換進(jìn)行特征表示。

　　First-Order-Model 模型由兩個(gè)主要模塊組成：運(yùn)動(dòng)估計(jì)模塊和圖像生成模塊。運(yùn)動(dòng)估計(jì)模塊的目的是預(yù)測(cè)密集的運(yùn)動(dòng)場(chǎng)。我們假設(shè)存在一個(gè)抽象的參考框架，然后獨(dú)立地估計(jì)了兩種轉(zhuǎn)換：從參考到源以及從參考到驅(qū)動(dòng)，這樣的設(shè)計(jì)使模型能夠獨(dú)立處理源幀和驅(qū)動(dòng)幀。

　　視頻不清晰不連貫？插幀、超分辨率一鍵搞定

　　模型直接生成的視頻可能在動(dòng)作不夠連貫，這時(shí)就需要一個(gè)視頻插幀的步驟，讓動(dòng)態(tài)圖像顯得更自然，大谷同樣采用了一個(gè)開(kāi)源視頻幀插值模型 DAIN。

　　DAIN 的全稱是深度感知視頻幀插值，模型通過(guò)探索深度信息來(lái)顯式地檢測(cè)遮擋。該項(xiàng)目開(kāi)發(fā)了一個(gè)深度感知流動(dòng)投影層，優(yōu)選取樣更近的物體，以合成中間流插補(bǔ)視頻幀。

　　此前在另一個(gè)視頻中，大谷還使用了一個(gè)超分辨率工具 ESRGAN。

　　當(dāng) First-Order-Model 生成的視頻分辨率低，而 DAIN 插值后效果又不好，就可以考慮使用 ESRGAN 加一個(gè)超分辨率的后處理。

　　ESRGAN：ESRGAN 改進(jìn)自 SRGAN ，主要用來(lái)做視頻超分辨率。與 SRGAN 的深層模型越來(lái)越難以訓(xùn)練相反，更深層次的 ESRGAN 模型通過(guò)簡(jiǎn)單的訓(xùn)練就能達(dá)到卓越的性能，核心點(diǎn)在于平衡視覺(jué)質(zhì)量和峰值信噪比的網(wǎng)絡(luò)插值策略。

　　大谷老師的B站粉絲數(shù)已經(jīng)將近 9 萬(wàn)了，如果你也想成為一個(gè)超人氣 AI 明星，趕緊撿起你的 Python 吧！

總結(jié)

以上是生活随笔為你收集整理的大谷新作！AI还原「王之霸气」朱元璋，杜甫倾情献唱奥特曼主题曲的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：花落弦断下一句是什么啊？
下一篇：三星Galaxy Buds Live开售