cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?
經(jīng)常聽到有人說,我除了自己的眼睛,什么也不信。
自從09年阿凡達(dá)(Avatar)電影上映以來,3D渲染、虛擬現(xiàn)實的逼真度總是讓人嘆為觀止。
而今,10年過去,最近計算機視覺領(lǐng)域頂級會議CVPR上一組研究人員提出一款神經(jīng)阿凡達(dá)模型(Neural Avatars),充分向我們證明:
當(dāng)魔幻現(xiàn)實照進(jìn)生活日常,AI黑科技讓你不再相信“眼見為實”。
圖片來源:《Avatar》劇照
本屆CVPR黑科技之一:造動態(tài)表情包
上周的CVPR會議上,來自三星AI中心和莫斯科Skolkovo研究所的研發(fā)團(tuán)隊就用實驗結(jié)果告訴我們:你眼所見,未必都是真的。
該團(tuán)隊先是提出了一個能讓JPG變動圖的AI系統(tǒng),研究人員稱其為“Few-shot”模型。
“Few-shot”模型
通過該模型,你只需要少量甚至一張靜態(tài)圖片,就可以生成表情豐富的動態(tài)表情包。讓歷史人物“活”起來,甚至變得像話癆一樣絮絮叨叨,都是so easy~
跟你講相對論原理的愛因斯坦、除了微笑還能朝你眨眼的蒙娜麗莎,甚至還有媚眼如絲的瑪麗蓮夢露。
這些都將不再只是存在于霍格沃茨魔法學(xué)院的魔幻場景。
盡管這項技術(shù)對于高分辨率的圖片還是有一些處理瑕疵,但在低分辨率動圖上,幾乎可以以假亂真。
就在這篇論文發(fā)布的第二天,該團(tuán)隊成員又緊接著發(fā)布了第二項黑科技,這下不僅你的表情包,就連你的整個身體都可能是“假”的。
本屆CVPR黑科技之二:不止可以造臉,全身也行
比方說,給你一張全身照,通常的技術(shù)方案生成的人體渲染可能只是固定的攝像角度和有限的身體姿勢。這樣造出來的人像,就很假。
然而三星提出的這個新的神經(jīng)渲染模型,可以在有限的攝像頭視角和數(shù)據(jù)集基礎(chǔ)上,泛化出多角度的圖像視角和豐富的人體姿態(tài)。
團(tuán)隊成員通過建立人體姿態(tài)神經(jīng)網(wǎng)絡(luò)渲染模型來訓(xùn)練單個人的身體姿態(tài)數(shù)據(jù),從而獲得原輸入姿勢的新視角和新姿態(tài)。
通過將經(jīng)典的計算機圖形(Computer Graphics)方法與深度神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,從而估計模型表面的2D紋理映射。其研究結(jié)果表明,與直接從圖像到圖像的轉(zhuǎn)化(Image-to-Image translation)方法相比,保留個性化的紋理映射可以實現(xiàn)更好的泛化。
“Textured Neural Avatars”模型基于對關(guān)節(jié)點的位置提取從而實現(xiàn)姿態(tài)估計
對于圖像到圖像的風(fēng)格轉(zhuǎn)換問題,一般都是先通過訓(xùn)練來學(xué)習(xí)輸入圖片的風(fēng)格,然后將其“學(xué)”來的特征映射到輸出圖片中,讓輸出圖片和輸入圖片盡可能保證風(fēng)格一致。
但由于風(fēng)格一致的可配對訓(xùn)練圖片實在是少見,很多研究人員不得不另辟蹊徑。包括模型的泛化問題也必須給予考慮。
事實上,目前很多Image-to-Image translation模型在圖片的紋理、顏色的圖片風(fēng)格轉(zhuǎn)換任務(wù)中的表現(xiàn)已經(jīng)相當(dāng)優(yōu)秀,比如把馬變成斑馬,或者把橘子變成蘋果,但要是想把貓變成狗就有點困難了。
這也是為什么咱們要反復(fù)強調(diào)泛化能力的原因所在。一個模型真正強大的地方在于其可以通用,也就是我們常說的良好的泛化能力。
學(xué)習(xí)圖像紋理特征的重要性:顯著增強圖像細(xì)節(jié)(左:未經(jīng)紋理特征學(xué)習(xí);右:經(jīng)過紋理特征學(xué)習(xí)后)
目前的一些模型雖然可以改變?nèi)说拿娌勘砬榛蚴切揎椚说纳眢w姿態(tài),但真實性和模型的變化量都非常有限。本文中的該模型不僅可以通過視頻進(jìn)行訓(xùn)練,還可以從表面幾何或是運動建模中分離紋理,因此可以處理更復(fù)雜的任務(wù)(比如多視角的全身視圖)以及生成更逼真的圖像渲染。
咱們具體來看看這個被稱為神經(jīng)阿凡達(dá)的“Textured Neural Avatars”模型
“Textured Neural Avatars”模型
不難看出,模型輸入的是一組身體關(guān)節(jié)的位置點,通過一個全卷積網(wǎng)絡(luò)(圖中的Generator)來生成身體部位坐標(biāo)和身體部位分配的映射堆棧。然后使用這些堆棧在坐標(biāo)堆棧指定的位置處對身體紋理進(jìn)行采樣映射,并使用身體部位分配的堆棧所指定的權(quán)重來生成RGB圖像。
在學(xué)習(xí)過程中,將圖像掩膜和RGB圖像與真實圖像(Ground truth)進(jìn)行比較,并通過采樣操作將產(chǎn)生的損失反向傳播到全卷積網(wǎng)絡(luò)及紋理上來更新權(quán)重。
對Youtube上的一段視頻的人體渲染效果
簡單來說,就是只要給系統(tǒng)輸入一個姿態(tài)骨架(Bone)圖片,你就可以生成真人JPG彩圖,還是帶動作的全身360度無死角圖。
科幻大片里抬起手腕就能彈出真人影像的場景,指日可待。
黑科技背后:須警惕,但不必恐慌
事實上,除了三星,目前全世界各地有多家公司和研究中心都在研發(fā)此類黑科技,其中不乏有來自德國慕尼黑工業(yè)大學(xué)、斯坦福大學(xué)的團(tuán)隊研發(fā)的曾一度飽受爭議的“換頭”AI:HeadOn。
“換頭”黑科技:HeadOn
還有德國紐倫堡大學(xué)實驗室研發(fā)的讓普京跟你對口型的臉部追蹤AI:Face2Face。
“對口型”AI:Face2Face
也包括日本用來自動生成身體和動作的服裝廣告界新寵:AI Model。
日本服裝廣告界新寵:AI模特
甚至還有英偉達(dá)公司用來一鍵改變時間和天氣的換景AI。
英偉達(dá)換景AI(左:真實白天場景;右:處理后秒變夜景)
擁有了這些黑科技,未來通過動圖or視頻去判斷事件真?zhèn)蔚目尚哦纫矊⒋蟠蛘劭?#xff0c;尤其對于公眾人物來說,可能不僅僅是被“換臉”,連各種囧事和花邊新聞都可以被生造了。
對于普通人來說,萬一不小心得罪了誰,被捏造一些不雅的動圖or視頻上傳到社交平臺,甚至是被某些不法分子用來要挾勒索家人,那就很恐怖了。
技術(shù)本身無分善惡,但是技術(shù)的使用者有好有壞。
未來技術(shù)能夠發(fā)展到什么程度我們無法想象,我們必須對技術(shù)可能會產(chǎn)生的惡果予以警惕。
圖片來源:pixabay
但事實上,就目前而言大可不必過于擔(dān)憂。誠如三星AI中心所言,其模型的泛化能力可能相較于其他方法來說表現(xiàn)略佳,但還是存在諸多限制。
比如,當(dāng)一個身材比例與訓(xùn)練數(shù)據(jù)集有顯著差別的人出現(xiàn)時,模型就表現(xiàn)堪憂了。當(dāng)光照顯著影響表面顏色時,渲染效果也會大打折扣。
另外,在手和面部姿態(tài)估計錯誤的情況下,渲染出的人像就會顯得極其不自然。
就算未來人像渲染會更加逼真,但總歸來說,人的個性和特質(zhì)是很難被模仿和復(fù)制的。
想象一下,你平時笑的時候都習(xí)慣了露十八顆牙,動圖里的你笑起來只露八顆是不是一秒就露餡了?
(手動滑稽)
圖片來源:SOOGIF網(wǎng)站
留言 點贊 關(guān)注
我們一起分享AI學(xué)習(xí)與發(fā)展的干貨
歡迎關(guān)注全平臺AI垂類自媒體 “讀芯術(shù)”
總結(jié)
以上是生活随笔為你收集整理的cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是 css,关于css是什么
- 下一篇: arduino智能浇花系统_创新成果 |