日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

NIPS 2018 | 中科院自动化所两篇入选论文:高清真实图像生成领域及GAN研究在人脸识别领域的进展...

發(fā)布時(shí)間:2024/8/23 pytorch 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NIPS 2018 | 中科院自动化所两篇入选论文:高清真实图像生成领域及GAN研究在人脸识别领域的进展... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
【論文一】自動(dòng)化所在高清真實(shí)圖像生成領(lǐng)域獲得新突破

IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis

原文地址:https://arxiv.org/abs/1807.06358


自動(dòng)化所智能感知與計(jì)算研究中心提出一種新的深度生成模型——自省變分自編碼器(IntroVAE),用來(lái)實(shí)現(xiàn)高清圖像等高維數(shù)據(jù)的無(wú)條件生成。該模型不僅在不引入額外的對(duì)抗判別器的情況下,克服了變分自編碼器固有的合成圖像趨于模糊的問(wèn)題,而且在不使用常用的多階段多判別器策略下,實(shí)現(xiàn)了高分辨率圖像合成的穩(wěn)定訓(xùn)練。該論文被今年人工智能頂級(jí)會(huì)議神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS2018)所收錄,在生成指標(biāo)上超過(guò)了英偉達(dá)在ICLR18上的工作。


生成模型包含無(wú)條件生成(unconditional generation)和條件生成(conditional generation)兩種,高分辨率圖像生成一般指的是從噪聲中生成數(shù)據(jù)的無(wú)條件生成。Yoshua Bengio在CVPR2017論文中講到,"生成高分辨率照片級(jí)圖像已成為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)長(zhǎng)期目標(biāo)。"麻省理工大學(xué)的人工智能領(lǐng)域知名學(xué)者M(jìn)ax Tegmark在IJCAI2018特邀報(bào)告中提到,"以對(duì)抗生成網(wǎng)絡(luò)為代表的深度生成模型是人工智能研究的重要前沿方向。"高分辨率真實(shí)圖像的生成由于問(wèn)題困難,計(jì)算復(fù)雜度大,一直以來(lái)只有英偉達(dá)(INVIDIA)、英國(guó)牛津(Oxford)和麻省理工(MIT)等知名科研機(jī)構(gòu)在研究。


論文概要

近日,自動(dòng)化所智能感知與計(jì)算研究中心提出一種新的深度生成模型——自省變分自編碼器(Introspective Variational Autoencoder,IntroVAE),用來(lái)實(shí)現(xiàn)高清圖像等高維數(shù)據(jù)的無(wú)條件生成(unconditional generation)。該模型一方面在不引入額外的對(duì)抗判別器的情況下,克服了變分自編碼器固有的合成圖像趨于模糊的問(wèn)題;另一方面在不使用常用的多階段多判別器策略下,實(shí)現(xiàn)了高分辨率圖像合成的穩(wěn)定訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該模型不僅能夠穩(wěn)定生成高分辨率照片級(jí)圖像(比如1024x1024的人臉圖像),而且在生成模型常用的量化指標(biāo)上取得了目前最好的結(jié)果。



變分自編碼器 VS 對(duì)抗生成網(wǎng)絡(luò)

深度生成模型是無(wú)監(jiān)督學(xué)習(xí)最有前景的方法之一,一直是學(xué)術(shù)界研究的熱點(diǎn)問(wèn)題。目前最為流行的兩種深度生成模型是變分自編碼器(VAEs)和對(duì)抗生成網(wǎng)絡(luò)(GANs)。變分自編碼器是自動(dòng)編碼器的生成版本,通過(guò)優(yōu)化一個(gè)變分下界來(lái)實(shí)現(xiàn)數(shù)據(jù)到先驗(yàn)分布的近似映射。VAEs的訓(xùn)練穩(wěn)定,能夠進(jìn)行隱變量推斷和對(duì)數(shù)似然估計(jì),但是生成的樣本比較模糊。對(duì)抗生成網(wǎng)絡(luò)通過(guò)生成器和判別器之間的對(duì)抗,來(lái)學(xué)習(xí)真實(shí)數(shù)據(jù)的分布。GANs可以生成逼真的清晰圖像,但是存在訓(xùn)練不穩(wěn)定的問(wèn)題,這個(gè)問(wèn)題在合成高分辨率圖像上尤其嚴(yán)重。


自省變分自編碼器的結(jié)構(gòu)和訓(xùn)練流程

目前主流的高分辨率圖像合成方法(比如英偉達(dá)公司提出的PGGAN模型)通過(guò)將高分辨率圖像分解,從低分辨率出發(fā),分多個(gè)階段使用多個(gè)判別器逐步合成高分辨率圖像。這種訓(xùn)練方式增加了模型設(shè)計(jì)的復(fù)雜度,提高了模型收斂的難度。與已有的方法不同,本文采用了一種更為簡(jiǎn)單有效的方式,能夠?qū)崿F(xiàn)對(duì)高分辨率圖像的一步到位直接合成。該方法將對(duì)抗學(xué)習(xí)引入VAE內(nèi)部,實(shí)現(xiàn)了一種自省的學(xué)習(xí),即模型自身能夠判斷其生成樣本的質(zhì)量并作出相應(yīng)改變以提高性能。具體的實(shí)現(xiàn)方式是訓(xùn)練編碼器使得真實(shí)圖像的隱變量接近先驗(yàn)分布,合成圖像的隱變量偏離先驗(yàn)分布;與之相反的是,訓(xùn)練生成器使得合成圖像的隱變量接近先驗(yàn)分布。同時(shí),與GAN不同的是,編碼器和生成器除了對(duì)抗外還要協(xié)同保證對(duì)輸入圖像的重建誤差盡量小。對(duì)于真實(shí)數(shù)據(jù)來(lái)說(shuō),該方法的訓(xùn)練目標(biāo)跟傳統(tǒng)VAE完全一致,這極大得穩(wěn)定了模型訓(xùn)練;對(duì)于合成數(shù)據(jù)來(lái)說(shuō),對(duì)抗的引入提高了樣本的質(zhì)量。

IntroVAE的體系結(jié)構(gòu)與訓(xùn)練流程


實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示,自省變分自編碼器能夠穩(wěn)定合成高分辨率照片級(jí)的圖像,比如1024x1024大小的人臉圖像,256x256大小的臥室、教堂、狗等自然圖像。該模型不僅在圖像質(zhì)量上,而且在量化指標(biāo)上都取得了當(dāng)前最好的結(jié)果。


CelebA-HQ上訓(xùn)練,生成的1024x1024人臉圖像


LSUN BEDROOM上訓(xùn)練,生成的256x256臥室圖像


LSUN CHURCHOUTDOOR上訓(xùn)練,生成256x256教堂圖像


ImageNet上訓(xùn)練,生成的256x256狗圖像


和其他方法的量化指標(biāo)對(duì)比,可以看出在大部分指標(biāo)上自省變分編碼器都取的了最好的結(jié)果。


兩種方法的定量比較


【論文二】自動(dòng)化所生成對(duì)抗網(wǎng)絡(luò)GAN研究在人臉識(shí)別領(lǐng)域再獲新進(jìn)展

Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization

原文地址:https://arxiv.org/abs/1806.08472


自動(dòng)化所智能感知與計(jì)算研究中心在生成對(duì)抗網(wǎng)絡(luò)(GAN)基礎(chǔ)上提出高保真度的姿態(tài)不變模型來(lái)克服人臉識(shí)別任務(wù)中最為經(jīng)典的姿態(tài)不一致問(wèn)題。該模型不僅在多個(gè)基準(zhǔn)數(shù)據(jù)集的視覺(jué)效果和定量指標(biāo)都優(yōu)于目前已有的基于生成對(duì)抗網(wǎng)絡(luò)的方法,而且將生成圖像的分辨率在原有基礎(chǔ)上提升了一倍。該論文已被神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)收錄。


GAN緣何入選2018年"全球十大突破性技術(shù)"?

日前,《麻省理工科技評(píng)論》正式公布了2018年“全球十大突破性技術(shù)”(10 Breakthrough Technologies 2018),涵蓋:實(shí)用型金屬3D打印、人造胚胎、智慧傳感城市、面向每一個(gè)人的人工智能、對(duì)抗性神經(jīng)網(wǎng)絡(luò)/生成對(duì)抗網(wǎng)絡(luò)、巴別魚實(shí)時(shí)翻譯耳塞、零碳天然氣、完美的網(wǎng)絡(luò)隱私保護(hù)、基因占卜、材料的量子飛躍。這也是這份指南第17次發(fā)布。


來(lái)自網(wǎng)絡(luò)


回看過(guò)去幾年的上榜技術(shù),越來(lái)越多的人工智能相關(guān)技術(shù)入選榜單,其中包括:2008 年機(jī)器學(xué)習(xí)、2009 年的 Siri、2013 年的深度學(xué)習(xí)、2014 年的神經(jīng)形態(tài)芯片、2016 年的語(yǔ)音接口與知識(shí)分享型機(jī)器人,以及 2017 年的自動(dòng)駕駛卡車與強(qiáng)化學(xué)習(xí)。


2018年,最具突破性的人工智能技術(shù)之一就是對(duì)抗性神經(jīng)網(wǎng)絡(luò)(Dueling Neural Networks) / 生成對(duì)抗網(wǎng)絡(luò)(GAN)——通過(guò)兩個(gè)AI系統(tǒng)的競(jìng)爭(zhēng)對(duì)抗,極大化加速機(jī)器學(xué)習(xí)的過(guò)程,進(jìn)而賦予機(jī)器智能過(guò)去從未企及的想象力。


自動(dòng)化所改良后的GAN,性能更優(yōu)越

Ian Goodfellow發(fā)明出GAN后,獲得Yann LeCun、黃仁勛、吳恩達(dá)等人的贊賞,吸引了諸多的機(jī)構(gòu)及企業(yè)開(kāi)始研究。在中國(guó),部分學(xué)術(shù)機(jī)構(gòu)致力于研究GAN理論的近一步改良及優(yōu)化,其中中科院自動(dòng)化所孫哲南、赫然研究團(tuán)隊(duì)已經(jīng)取得了一系列進(jìn)展,受人類視覺(jué)識(shí)別過(guò)程的啟發(fā),提出了雙路徑GAN(TP-GAN)用于正面人臉圖像合成,已發(fā)表于2017年國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV)。隨后又提出了基于姿態(tài)信息指導(dǎo)的共軛判別器GAN(CAPG-GAN),用于多姿態(tài)人臉圖像合成,并進(jìn)一步提高了跨姿態(tài)識(shí)別精度,已發(fā)表于2018年IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)。


近日,自動(dòng)化所曹杰、胡一博、張鴻文、赫然、孫哲南在論文Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization中提出了高保真度的姿態(tài)不變模型(High Fidelity Pose Invariant Model, HF-PIM)來(lái)克服人臉識(shí)別任務(wù)中最為經(jīng)典的姿態(tài)不一致問(wèn)題。


實(shí)驗(yàn)結(jié)果表明,該方法在多個(gè)基準(zhǔn)數(shù)據(jù)集的視覺(jué)效果和定量指標(biāo)都優(yōu)于目前已有的最好方法。此外,HF-PIM所支持的生成圖像分辨率也在原有方法的基礎(chǔ)上提升了一倍。該論文已被人工智能領(lǐng)域頂會(huì)神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)收錄。

高保真度的姿態(tài)不變模型示意圖


論文解析

在該論文中,作者總結(jié)了先前工作中存在的一些限制,例如,過(guò)于依賴低維信息約束,不能很好地保持原圖的語(yǔ)義信息等。為了解決這些問(wèn)題,作者對(duì)其具體做法進(jìn)行如下總結(jié):


①引入了一種能反映三維人臉模型和二維人臉圖像之間點(diǎn)到點(diǎn)關(guān)聯(lián)的稠密關(guān)聯(lián)場(chǎng),讓網(wǎng)絡(luò)能夠在二維圖像的指導(dǎo)下學(xué)習(xí)到隱含的三維人臉信息。


②設(shè)計(jì)了一種全新的紋理扭曲(warping)過(guò)程,可以有效地把人臉紋理映射到圖像域,同時(shí)又可以最大程度地保持輸入的語(yǔ)義信息。


③提出了一種對(duì)抗殘差字典學(xué)習(xí)過(guò)程,從而可以在不依賴三維數(shù)據(jù)的情況下更有效地學(xué)習(xí)人臉紋理特征。


④實(shí)驗(yàn)表明,該方法不僅在定量和定性指標(biāo)上明顯地超過(guò)了已有方法,并且把生成圖像的分辨率提高了一倍。


來(lái)自論文


上圖是在CelebA數(shù)據(jù)庫(kù)的HQ子集上的可視化結(jié)果,第一行為輸入圖像,第二行為通過(guò)HF-PIM模型進(jìn)行人臉正面化后的結(jié)果。HF-PIM是首個(gè)支持生成256*256可視化結(jié)果的模型。


來(lái)自論文


上圖在IJBA數(shù)據(jù)庫(kù)上的可視化結(jié)果,第一行為輸入圖像,第二行為通過(guò)HF-PIM模型進(jìn)行人臉正面化后的結(jié)果。


在LFW(左圖)數(shù)據(jù)庫(kù)和IJB-A(右圖)數(shù)據(jù)庫(kù)上和已有方法的對(duì)比結(jié)果。ACC: 準(zhǔn)確率。AUC:ROC曲線下面積。FAR:錯(cuò)誤接受率。Rank-1:第一次命中識(shí)別率。


在Multi-PIE數(shù)據(jù)庫(kù)上在不同的視角下對(duì)第一次命中識(shí)別率的對(duì)比。

∑編輯?|?Gemini

來(lái)源 | 極市平臺(tái)

更多精彩:

? ?哈爾莫斯:怎樣做數(shù)學(xué)研究

? ?扎克伯格2017年哈佛大學(xué)畢業(yè)演講

? ?線性代數(shù)在組合數(shù)學(xué)中的應(yīng)用

? ?你見(jiàn)過(guò)真的菲利普曲線嗎?

? ?支持向量機(jī)(SVM)的故事是這樣子的

? ?深度神經(jīng)網(wǎng)絡(luò)中的數(shù)學(xué),對(duì)你來(lái)說(shuō)會(huì)不會(huì)太難?

? ?編程需要知道多少數(shù)學(xué)知識(shí)?

? ?陳省身——什么是幾何學(xué)

? ?模式識(shí)別研究的回顧與展望

? ?曲面論

? ?自然底數(shù)e的意義是什么?

? ?如何向5歲小孩解釋什么是支持向量機(jī)(SVM)?

? ?華裔天才數(shù)學(xué)家陶哲軒自述

? ?代數(shù),分析,幾何與拓?fù)?#xff0c;現(xiàn)代數(shù)學(xué)的三大方法論

算法數(shù)學(xué)之美微信公眾號(hào)歡迎賜稿

稿件涉及數(shù)學(xué)、物理、算法、計(jì)算機(jī)、編程等相關(guān)領(lǐng)域,經(jīng)采用我們將奉上稿酬。

投稿郵箱:math_alg@163.com

總結(jié)

以上是生活随笔為你收集整理的NIPS 2018 | 中科院自动化所两篇入选论文:高清真实图像生成领域及GAN研究在人脸识别领域的进展...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。