LFW阅读笔记
?? ? ?? 作為一個(gè)計(jì)算機(jī)視覺(jué)新入門(mén)的小白,第一次嘗試寫(xiě)博客,試著記錄一下學(xué)習(xí)狀況,也為了自己以后方便查閱。
??????? LFW(labeled face in the wild),是人臉識(shí)別比較常用的數(shù)據(jù)集,包含了13,233張圖片,5749人,其中1680有2張或以上的圖片,剩下的4069人只有一張圖片,圖片的獲取,是利用Viola-Jones face detector結(jié)合OpenCV從網(wǎng)絡(luò)獲取,并作了初步的處理,手動(dòng)添加了人名,統(tǒng)一格式為250*250 jpg。附上官網(wǎng):http://vis-www.cs.umass.edu/lfw/
?? ? ?? 其構(gòu)建目的是為了在不受限環(huán)境下的測(cè)試人臉識(shí)別算法提供方便,在Detection-Alignment-Recognition(DAR) pipline中,完成了Detection部分的工作。官方數(shù)據(jù)集提供了兩種views,view 1:為了試驗(yàn)者用作model selection and algorithm development,分為了兩個(gè)子集,一個(gè)用來(lái)訓(xùn)練,一個(gè)用來(lái)測(cè)試。view 2:for performance reporting,官方建議僅在最終reporting的時(shí)候使用,以防止算法過(guò)度擬合,人為增高準(zhǔn)確率(這里不知道理解的準(zhǔn)確不準(zhǔn)確,如有錯(cuò)誤,望指正)。在view 2 下,分為了10個(gè)子集,可以任選其中9個(gè)來(lái)用作訓(xùn)練,剩下的一個(gè)用來(lái)測(cè)試。每次試驗(yàn),應(yīng)該獨(dú)立完成,產(chǎn)生10個(gè)對(duì)應(yīng)的不同分類(lèi)器。最終報(bào)告可以以ROC(Receiver Operating Characteristic)曲線和PR(Presicion-Recall)曲線呈現(xiàn),官方要求至少要給出 準(zhǔn)確率期望(estimated mean accuracy)和平均標(biāo)準(zhǔn)差(standard error of the mean),對(duì)應(yīng)公式如下:
期望:,
平均標(biāo)準(zhǔn)差:其中,方差為
? ? ? ? 官方給出了兩種訓(xùn)練方式的原型:
??????? A: Image-Restricted Training
??????? 在這種方式下,不使用名字(name)作為參考, 比如:(10,12)還有(42,50)這兩對(duì)都是George_W_Bush,但是并不能直接把(10,42)作為已配對(duì)的圖像直接加入訓(xùn)練集。但如果是(1,2),(2,3)匹配,則可以認(rèn)為(1,3)也是匹配的。兩種view都支持這種方式。參見(jiàn)pairsDevTrain.txt、pairsDevTest.txt以及 pairs.txt
??????? B: Unrestricted Training 。
??????? 相比第一種方式,如果出現(xiàn)上述情況,則可以直接把(10,42),(10,50),(12,42),(12,50)都加入數(shù)據(jù)集中。參見(jiàn)peopleDevTrain.txt 、peopleDevTest.txt,但是訓(xùn)練集和測(cè)試集不可以混合使用。在view2數(shù)據(jù)集中,people.txt支持這種模式,但僅僅是用于生成訓(xùn)練集。
更多的細(xì)節(jié),可以參考官網(wǎng)的tech report,如有出入,已官網(wǎng)為準(zhǔn)。
————————————————2016年11月2日更新——————————————
理想情況下,應(yīng)該有足夠多的數(shù)據(jù)來(lái)保障訓(xùn)練、校正和測(cè)試完全獨(dú)立完成,LFW數(shù)據(jù)集采用一定程度的數(shù)據(jù)復(fù)用,來(lái)擴(kuò)大數(shù)據(jù)集數(shù)量,但為了不虛報(bào)或者人為提高準(zhǔn)確率,官方有如下用法推薦:大致依照如下步驟進(jìn)行
(1)算法改進(jìn)或模型選擇(algorithm development or model selection)
a)使用view1 訓(xùn)練并測(cè)試盡可能多的模型,并做參數(shù)調(diào)整;
b)保持測(cè)試表現(xiàn)最好的模型參數(shù)設(shè)置(model M*);
(2)展示報(bào)告(performance reporting)
a)直接使用view2數(shù)據(jù)集;
b)循環(huán)i=1到10 (for i = 1 to 10)
?i)通過(guò)聯(lián)合view2下 除了 i 子集的所有子集,形成試驗(yàn) i 的訓(xùn)練集;
ii)將 model M* 的參數(shù)設(shè)置用于該訓(xùn)練集,生成分類(lèi)器 i ;
? ? ? ? iii)使用子集 i 作為測(cè)試集;
iv)在測(cè)試集上記錄分類(lèi)器 i 的結(jié)果;
c)用10個(gè)分類(lèi)器的結(jié)果計(jì)算期望準(zhǔn)確率和平均標(biāo)準(zhǔn)差(?參考上面給出的公式);
d)最后,確定使用的是那種方式并報(bào)告(image-restricted or unrestricted)。
總結(jié)
- 上一篇: List<实体>转json
- 下一篇: list转json