训练集与测试集分布差距
一位老鐵的說法:
第一,分布差距大是重要特征數(shù)值差距大,比如一個(gè)是 0-1,另外一個(gè) 0.5-2,如果是這種情況無解,你能做的只能擴(kuò)大訓(xùn)練集合,因?yàn)橹匾卣饕坏┢x,哪怕數(shù)學(xué)上都是有交集,現(xiàn)實(shí)上下文都是差距極大的,這和數(shù)據(jù)采集流程和規(guī)范等非技術(shù)問題有關(guān)。
第二,重要特征數(shù)據(jù)差距不大,不太重要的差距較大,這種情況可以屏蔽這些特征,或者利用類似遷移學(xué)習(xí) prototype 那種思路約束特征輸入不過于偏離訓(xùn)練集。
第三,所有特征數(shù)值差距都不大,但是特征之間相關(guān)性統(tǒng)計(jì)差距大,比如訓(xùn)練集當(dāng)中 A 和 B 相關(guān)性更加強(qiáng),但是測試集合 A 和 C 的相關(guān)性更加強(qiáng),這對(duì)你模型本身高階組合就要約束,比如上DNN 的話,前期就不是明智的選擇。
第四,特征數(shù)值差距不大,特征相關(guān)性差距也不大,但是目標(biāo)數(shù)值差距過大,這個(gè)好辦,改變?nèi)蝿?wù)設(shè)置共同的中間目標(biāo),比如你說的目標(biāo)值是否可以采取相對(duì)值,增長率,夏普等,而非絕對(duì)值
劃分?jǐn)?shù)據(jù)集合
假設(shè)9K張生成數(shù)據(jù),1K張真實(shí)數(shù)據(jù)
一:可以將兩個(gè)數(shù)據(jù)集組合起來,然后隨機(jī)洗牌。并將結(jié)果數(shù)據(jù)集分割成訓(xùn)練/驗(yàn)證/測試集。缺點(diǎn):但是在驗(yàn)證集中,只有十分之一的圖片來自真實(shí)數(shù)據(jù)集。在大多數(shù)情況下,我們都在根據(jù)生成數(shù)據(jù)的分布來優(yōu)化網(wǎng)絡(luò)模型,這顯然不符合優(yōu)化模型的目的。
二:另一個(gè)方法是讓驗(yàn)證/測試集來自真實(shí)數(shù)據(jù)集,分出部分真實(shí)數(shù)據(jù)與生成數(shù)據(jù)混合作為訓(xùn)練集。假設(shè)像以前一樣對(duì)訓(xùn)練/驗(yàn)證/測試集使用96:2:2的劃分。驗(yàn)證/測試集將各有2000張真實(shí)圖像數(shù)據(jù),剩下的真實(shí)數(shù)據(jù)和全部生成數(shù)據(jù)都為訓(xùn)練集。缺點(diǎn):然而,訓(xùn)練集現(xiàn)在不同于驗(yàn)證/測試集。這意味著在很大程度上,我們是在生成圖像上訓(xùn)練網(wǎng)絡(luò)模型。因此,優(yōu)化模型需要花費(fèi)更多更長的時(shí)間。更重要的是,當(dāng)訓(xùn)練集和驗(yàn)證集上的損失差別較大時(shí),我們無法判斷這是由過擬合還是數(shù)據(jù)不匹配造成的。假設(shè)訓(xùn)練誤差為2%,驗(yàn)證誤差為10%。鑒于這兩組數(shù)據(jù)來自不同的分布,這兩組數(shù)據(jù)之間8%的差異中有多少是由于數(shù)據(jù)不匹配造成的,有多少是由于模型過擬合造成的,我們并不能判斷。
三、修改訓(xùn)練/驗(yàn)證/測試集劃分。取出訓(xùn)練集的一小部分,稱之為“橋集”。橋集將不用于訓(xùn)練網(wǎng)絡(luò)模型。它是一個(gè)獨(dú)立的集合,劃分方式如下所示:
如果訓(xùn)練:橋:驗(yàn)證:測試集上的誤差分別為2%、9%、10%、12%。
因?yàn)闃蚣c訓(xùn)練集來自相同的分布,排除了數(shù)據(jù)不匹配(數(shù)據(jù)分布)的影響,它們之間的誤差相差為7%,所以有7%的誤差來自方差誤差,泛化能力不足。橋集和驗(yàn)證集有1%的差異,所以有1%的誤差來自數(shù)據(jù)不匹配誤差。如果訓(xùn)練集橋集誤差相差小,則可能是方差所帶來的誤差。測試集與驗(yàn)證集2%的誤差為方差誤差(存疑)。
參考
https://www.zhihu.com/question/265829982/answer/1770310534
https://zhuanlan.zhihu.com/p/72503153?from_voters_page=true
總結(jié)
以上是生活随笔為你收集整理的训练集与测试集分布差距的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 科目3|软考高项论文写作技巧
- 下一篇: (模电笔记二 By Multisim)波