【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么
最近一部分的內(nèi)容將會(huì)比較容易,將和大家一起討論GAN的評(píng)價(jià)指標(biāo),也沒(méi)有太難以理解的東西,希望大家踴躍討論,歡迎留言。
作者&編輯 | 小米粥
編輯 | 言有三
在判別模型中,訓(xùn)練完成的模型要在測(cè)試集上進(jìn)行測(cè)試,然后使用一個(gè)可以量化的指標(biāo)來(lái)表明模型訓(xùn)練的好壞,例如最簡(jiǎn)單的,使用分類(lèi)準(zhǔn)確率評(píng)價(jià)分類(lèi)模型的性能,使用均方誤差評(píng)價(jià)回歸模型的性能。同樣在生成模型上也需要一個(gè)評(píng)價(jià)指標(biāo)來(lái)量化GAN的生成效果。
1.質(zhì)量與多樣性
以生成圖像的GAN為例,評(píng)價(jià)指標(biāo)首先要評(píng)價(jià)GAN生成圖像的質(zhì)量好壞,但是圖像質(zhì)量是一個(gè)非常主觀的概念,不夠清晰的寵物狗的圖片和線條足夠明晰但“很奇怪”的圖片均應(yīng)算作低質(zhì)量的圖片,但計(jì)算機(jī)不太容易認(rèn)識(shí)到這個(gè)問(wèn)題,最好可以設(shè)計(jì)一個(gè)可計(jì)算的量化指標(biāo)。
IS(Inception Score)采用了這樣的做法,將生成的圖片x送入已經(jīng)訓(xùn)練好Inception模型,例如Inception Net-V3,它是一個(gè)分類(lèi)器,會(huì)對(duì)每個(gè)輸入的圖像輸出一個(gè)1000維的標(biāo)簽向量y,向量的每一維表示輸入樣本屬于某類(lèi)別的概率。假設(shè)我們的Inception Net-V3訓(xùn)練得足夠好,那么對(duì)質(zhì)量高的生成圖像x,Inception Net-V3可將其以很高的概率分類(lèi)成某個(gè)類(lèi),p(y|x)的數(shù)值比較集中,形如[0.9,...,0.02,0]。我們可以使用熵來(lái)量化該指標(biāo),分布p(y|x)相對(duì)于類(lèi)別的熵定義為
其中,p(yi|x)表示x屬于第i類(lèi)的概率,即yi值,為了避免歧義,計(jì)算方式展示如下圖所示:
熵是一種混亂程度的度量,對(duì)于質(zhì)量較低的輸入圖像,分類(lèi)器無(wú)法給出明確的類(lèi)別,其熵應(yīng)比較大,而對(duì)于質(zhì)量越高的圖像,其熵應(yīng)當(dāng)比較小,當(dāng)p(y|x)為one-hot分布時(shí),熵達(dá)到最小值0。
GAN另一個(gè)需要度量的指標(biāo)即樣本的多樣性問(wèn)題,這與模式崩潰問(wèn)題有關(guān)聯(lián)但不完全一樣,會(huì)在本文的最后討論。若GAN產(chǎn)生的一批樣本{x1,x2,...,xn}多樣性比較好,則標(biāo)簽向量{y1,y2,...,yn}的類(lèi)別分布也應(yīng)該是比較均勻的,也就是說(shuō)不同類(lèi)別的概率基本上是相等的(當(dāng)然這里要假設(shè)訓(xùn)練樣本的類(lèi)別是均衡的),則其均值應(yīng)趨向均勻分布,如下圖所示。
又因?yàn)?/p>
故可使用標(biāo)簽向量y關(guān)于類(lèi)別的熵來(lái)定量描述,若生成樣本的多樣性好(涵蓋的類(lèi)別多),則p(y)相對(duì)于類(lèi)別的熵越大;生成樣本的多樣性差,則p(y)相對(duì)于類(lèi)別的熵越小,其中定義p(y)相對(duì)于類(lèi)別的熵為
其中,p(yi)表示第i類(lèi)的概率,即yi值。
2.Inception Score
將圖像質(zhì)量和多樣性兩個(gè)指標(biāo)綜合考慮,可以將樣本和標(biāo)簽的互信息I(x,y)設(shè)計(jì)為生成模型的評(píng)價(jià)指標(biāo),互信息描述了給定一個(gè)隨機(jī)變量后,另一個(gè)隨機(jī)變量的不確定性減少程度。又被稱(chēng)為信息增益,即?
又根據(jù)
KL散度表示兩個(gè)分布的差值,當(dāng)KL散度值越大時(shí),表示兩個(gè)分布的差異越大;KL散度值越小,分布的差異越小,計(jì)算所有樣本的KL散度求平均,本質(zhì)上來(lái)講,指標(biāo)還是通過(guò)信息增益來(lái)評(píng)價(jià)。為了便于計(jì)算,添加指數(shù),最終的IS定義成如下形式:
實(shí)際計(jì)算IS時(shí),使用的計(jì)算式子為:
對(duì)于p(y)的經(jīng)驗(yàn)分布,使用生成模型產(chǎn)生N個(gè)樣本,將N個(gè)樣本送入分類(lèi)器得到N個(gè)標(biāo)簽向量,對(duì)其求均值且令
對(duì)于KL散度,計(jì)算方式如下:?
3.IS的缺陷?
IS作為GAN的評(píng)價(jià)指標(biāo),自2016年提出以來(lái),已經(jīng)具備了比較廣泛的接受程度,但也有一些不可忽略的問(wèn)題和缺陷。
首先,使用TensorFlow, PyTorch 和 Keras 等不同框架下預(yù)訓(xùn)練的Inception V3 ,計(jì)算同一個(gè)數(shù)據(jù)集的 Inception Score,即使不同框架預(yù)訓(xùn)練的網(wǎng)絡(luò)達(dá)到同樣的分類(lèi)精度,但由于其內(nèi)部權(quán)重微小的不同,導(dǎo)致了 Inception Score 很大的變化,在 ImageNet 上,IV3 Torch 和 IV3 Keras 算出的 IS 相差 3.5%,這些差異,足以涵蓋某些所謂 state-of-the-art 的模型所作出的提升。
其次,訓(xùn)練GAN和訓(xùn)練分類(lèi)器必須使用相同的數(shù)據(jù)集,若Inception V3 是在 ImageNet 上訓(xùn)練的,則使用Inception V3 時(shí),應(yīng)該保證生成模型也在 ImageNet 上訓(xùn)練并生成相似的圖片,不應(yīng)把任意生成模型生成的圖片(臥室,花,人臉)都使用Inception V3獲得標(biāo)簽。
另外, IS并無(wú)法評(píng)價(jià)出GAN的過(guò)擬合情況,若GAN只“記住”了所有訓(xùn)練集的圖片,生成器成為了一個(gè)“簡(jiǎn)單的”隨機(jī)輸出訓(xùn)練集圖片的神經(jīng)網(wǎng)絡(luò),此時(shí)生成器雖然缺乏泛化能力,仍可以獲得很高的分?jǐn)?shù)。
最后,當(dāng)GAN發(fā)生模式崩潰時(shí),IS依舊會(huì)給出較高的分?jǐn)?shù),MS(Mode Score)是IS的改進(jìn)版本,添加了一項(xiàng),希望能在評(píng)價(jià)指標(biāo)中可以考慮模式崩潰問(wèn)題,其定義為:
其中,p*(y)表示經(jīng)過(guò)訓(xùn)練數(shù)據(jù)集的樣本得到的標(biāo)簽向量的類(lèi)別概率,p(y )表示經(jīng)過(guò)GAN生成樣本得到的標(biāo)簽向量的類(lèi)別概率。不過(guò),遺憾的是,IS和MS都無(wú)法真正解決模式崩潰的評(píng)價(jià)問(wèn)題。考慮這樣極端的情況,生成器發(fā)生模式崩潰,例如在每個(gè)類(lèi)別中,生成器都只覆蓋一個(gè)模式(在每一類(lèi)下只生成一種照片),這樣的生成器可覆蓋所有類(lèi)別,這時(shí)計(jì)算IS或者M(jìn)S均能得到很高的值,但其實(shí)GAN已經(jīng)發(fā)生了嚴(yán)重的模式崩潰。
這里的模式崩潰與之前提到的多樣性有所區(qū)別,IS中度量的多樣性是指:GAN生成的樣本可以有多少類(lèi),而模式崩潰在這里多指生成器在類(lèi)內(nèi)塌縮到某一個(gè)或幾個(gè)樣本上,只考慮類(lèi)別的信息增益只能有效評(píng)價(jià)生成圖像的種類(lèi),但對(duì)每個(gè)類(lèi)內(nèi)的生成狀況無(wú)法做出評(píng)價(jià)。
[1]Che T , Li Y , Jacob A P , et al. Mode Regularized Generative Adversarial Networks[J]. 2016.
[2]Imporve Techniques for Training GANs. 2016.
總結(jié)
今天講解了IS及其計(jì)算方式,講解了IS的改進(jìn)版本MS,并在最后指出了IS的諸多問(wèn)題。
GAN群
有三AI建立了一個(gè)GAN群,便于有志者相互交流。感興趣的同學(xué)也可以微信搜索xiaozhouguo94,備注"加入有三-GAN群"。
知識(shí)星球推薦
有三AI知識(shí)星球由言有三維護(hù),內(nèi)設(shè)AI知識(shí)匯總,AI書(shū)籍,網(wǎng)絡(luò)結(jié)構(gòu)1000變,看圖猜技術(shù),數(shù)據(jù)集,項(xiàng)目開(kāi)發(fā),Github推薦,AI1000問(wèn)八大學(xué)習(xí)板塊,其中網(wǎng)絡(luò)結(jié)構(gòu)1000變包含GAN的實(shí)戰(zhàn)內(nèi)容,案例如下。
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
往期精選
【雜談】有三AI知識(shí)星球最近都GAN了哪些內(nèi)容?
【雜談】GAN對(duì)人臉圖像算法產(chǎn)生了哪些影響?
【完結(jié)】12篇GAN的優(yōu)化文章大盤(pán)點(diǎn),濃濃的數(shù)學(xué)味兒
總結(jié)
以上是生活随笔為你收集整理的【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【杂谈】计算机视觉在人脸图像领域的十几个
- 下一篇: 【总结】循序渐进,有三AI不得不看的技术