當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

训练集与测试集分布差距

發(fā)布時(shí)間：2023/12/31 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了训练集与测试集分布差距小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一位老鐵的說法：

第一，分布差距大是重要特征數(shù)值差距大，比如一個(gè)是 0-1，另外一個(gè) 0.5-2，如果是這種情況無解，你能做的只能擴(kuò)大訓(xùn)練集合，因?yàn)橹匾卣饕坏┢x，哪怕數(shù)學(xué)上都是有交集，現(xiàn)實(shí)上下文都是差距極大的，這和數(shù)據(jù)采集流程和規(guī)范等非技術(shù)問題有關(guān)。

第二，重要特征數(shù)據(jù)差距不大，不太重要的差距較大，這種情況可以屏蔽這些特征，或者利用類似遷移學(xué)習(xí) prototype 那種思路約束特征輸入不過于偏離訓(xùn)練集。

第三，所有特征數(shù)值差距都不大，但是特征之間相關(guān)性統(tǒng)計(jì)差距大，比如訓(xùn)練集當(dāng)中 A 和 B 相關(guān)性更加強(qiáng)，但是測試集合 A 和 C 的相關(guān)性更加強(qiáng)，這對(duì)你模型本身高階組合就要約束，比如上DNN 的話，前期就不是明智的選擇。

第四，特征數(shù)值差距不大，特征相關(guān)性差距也不大，但是目標(biāo)數(shù)值差距過大，這個(gè)好辦，改變?nèi)蝿?wù)設(shè)置共同的中間目標(biāo)，比如你說的目標(biāo)值是否可以采取相對(duì)值，增長率，夏普等，而非絕對(duì)值

劃分?jǐn)?shù)據(jù)集合
假設(shè)9K張生成數(shù)據(jù)，1K張真實(shí)數(shù)據(jù)
一：可以將兩個(gè)數(shù)據(jù)集組合起來，然后隨機(jī)洗牌。并將結(jié)果數(shù)據(jù)集分割成訓(xùn)練/驗(yàn)證/測試集。缺點(diǎn)：但是在驗(yàn)證集中，只有十分之一的圖片來自真實(shí)數(shù)據(jù)集。在大多數(shù)情況下，我們都在根據(jù)生成數(shù)據(jù)的分布來優(yōu)化網(wǎng)絡(luò)模型，這顯然不符合優(yōu)化模型的目的。

二：另一個(gè)方法是讓驗(yàn)證/測試集來自真實(shí)數(shù)據(jù)集，分出部分真實(shí)數(shù)據(jù)與生成數(shù)據(jù)混合作為訓(xùn)練集。假設(shè)像以前一樣對(duì)訓(xùn)練/驗(yàn)證/測試集使用96:2:2的劃分。驗(yàn)證/測試集將各有2000張真實(shí)圖像數(shù)據(jù)，剩下的真實(shí)數(shù)據(jù)和全部生成數(shù)據(jù)都為訓(xùn)練集。缺點(diǎn):然而，訓(xùn)練集現(xiàn)在不同于驗(yàn)證/測試集。這意味著在很大程度上，我們是在生成圖像上訓(xùn)練網(wǎng)絡(luò)模型。因此，優(yōu)化模型需要花費(fèi)更多更長的時(shí)間。更重要的是，當(dāng)訓(xùn)練集和驗(yàn)證集上的損失差別較大時(shí)，我們無法判斷這是由過擬合還是數(shù)據(jù)不匹配造成的。假設(shè)訓(xùn)練誤差為2%，驗(yàn)證誤差為10%。鑒于這兩組數(shù)據(jù)來自不同的分布，這兩組數(shù)據(jù)之間8%的差異中有多少是由于數(shù)據(jù)不匹配造成的，有多少是由于模型過擬合造成的，我們并不能判斷。

三、修改訓(xùn)練/驗(yàn)證/測試集劃分。取出訓(xùn)練集的一小部分，稱之為“橋集”。橋集將不用于訓(xùn)練網(wǎng)絡(luò)模型。它是一個(gè)獨(dú)立的集合，劃分方式如下所示：

如果訓(xùn)練：橋：驗(yàn)證：測試集上的誤差分別為2%、9%、10%、12%。
因?yàn)闃蚣c訓(xùn)練集來自相同的分布，排除了數(shù)據(jù)不匹配（數(shù)據(jù)分布）的影響，它們之間的誤差相差為7%，所以有7%的誤差來自方差誤差，泛化能力不足。橋集和驗(yàn)證集有1%的差異，所以有1%的誤差來自數(shù)據(jù)不匹配誤差。如果訓(xùn)練集橋集誤差相差小，則可能是方差所帶來的誤差。測試集與驗(yàn)證集2%的誤差為方差誤差（存疑）。

參考
https://www.zhihu.com/question/265829982/answer/1770310534
https://zhuanlan.zhihu.com/p/72503153?from_voters_page=true

總結(jié)

以上是生活随笔為你收集整理的训练集与测试集分布差距的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：科目3|软考高项论文写作技巧
下一篇： (模电笔记二 By Multisim)波