日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

训练集与测试集分布差距

發(fā)布時(shí)間:2023/12/31 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 训练集与测试集分布差距 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一位老鐵的說法:

第一,分布差距大是重要特征數(shù)值差距大,比如一個(gè)是 0-1,另外一個(gè) 0.5-2,如果是這種情況無解,你能做的只能擴(kuò)大訓(xùn)練集合,因?yàn)橹匾卣饕坏┢x,哪怕數(shù)學(xué)上都是有交集,現(xiàn)實(shí)上下文都是差距極大的,這和數(shù)據(jù)采集流程和規(guī)范等非技術(shù)問題有關(guān)。

第二,重要特征數(shù)據(jù)差距不大,不太重要的差距較大,這種情況可以屏蔽這些特征,或者利用類似遷移學(xué)習(xí) prototype 那種思路約束特征輸入不過于偏離訓(xùn)練集。

第三,所有特征數(shù)值差距都不大,但是特征之間相關(guān)性統(tǒng)計(jì)差距大,比如訓(xùn)練集當(dāng)中 A 和 B 相關(guān)性更加強(qiáng),但是測試集合 A 和 C 的相關(guān)性更加強(qiáng),這對(duì)你模型本身高階組合就要約束,比如上DNN 的話,前期就不是明智的選擇。

第四,特征數(shù)值差距不大,特征相關(guān)性差距也不大,但是目標(biāo)數(shù)值差距過大,這個(gè)好辦,改變?nèi)蝿?wù)設(shè)置共同的中間目標(biāo),比如你說的目標(biāo)值是否可以采取相對(duì)值,增長率,夏普等,而非絕對(duì)值

劃分?jǐn)?shù)據(jù)集合
假設(shè)9K張生成數(shù)據(jù),1K張真實(shí)數(shù)據(jù)
一:可以將兩個(gè)數(shù)據(jù)集組合起來,然后隨機(jī)洗牌。并將結(jié)果數(shù)據(jù)集分割成訓(xùn)練/驗(yàn)證/測試集。缺點(diǎn):但是在驗(yàn)證集中,只有十分之一的圖片來自真實(shí)數(shù)據(jù)集。在大多數(shù)情況下,我們都在根據(jù)生成數(shù)據(jù)的分布來優(yōu)化網(wǎng)絡(luò)模型,這顯然不符合優(yōu)化模型的目的。

二:另一個(gè)方法是讓驗(yàn)證/測試集來自真實(shí)數(shù)據(jù)集,分出部分真實(shí)數(shù)據(jù)與生成數(shù)據(jù)混合作為訓(xùn)練集。假設(shè)像以前一樣對(duì)訓(xùn)練/驗(yàn)證/測試集使用96:2:2的劃分。驗(yàn)證/測試集將各有2000張真實(shí)圖像數(shù)據(jù),剩下的真實(shí)數(shù)據(jù)和全部生成數(shù)據(jù)都為訓(xùn)練集。缺點(diǎn):然而,訓(xùn)練集現(xiàn)在不同于驗(yàn)證/測試集。這意味著在很大程度上,我們是在生成圖像上訓(xùn)練網(wǎng)絡(luò)模型。因此,優(yōu)化模型需要花費(fèi)更多更長的時(shí)間。更重要的是,當(dāng)訓(xùn)練集和驗(yàn)證集上的損失差別較大時(shí),我們無法判斷這是由過擬合還是數(shù)據(jù)不匹配造成的。假設(shè)訓(xùn)練誤差為2%,驗(yàn)證誤差為10%。鑒于這兩組數(shù)據(jù)來自不同的分布,這兩組數(shù)據(jù)之間8%的差異中有多少是由于數(shù)據(jù)不匹配造成的,有多少是由于模型過擬合造成的,我們并不能判斷。

三、修改訓(xùn)練/驗(yàn)證/測試集劃分。取出訓(xùn)練集的一小部分,稱之為“橋集”。橋集將不用于訓(xùn)練網(wǎng)絡(luò)模型。它是一個(gè)獨(dú)立的集合,劃分方式如下所示:

如果訓(xùn)練:橋:驗(yàn)證:測試集上的誤差分別為2%、9%、10%、12%。
因?yàn)闃蚣c訓(xùn)練集來自相同的分布,排除了數(shù)據(jù)不匹配(數(shù)據(jù)分布)的影響,它們之間的誤差相差為7%,所以有7%的誤差來自方差誤差,泛化能力不足。橋集和驗(yàn)證集有1%的差異,所以有1%的誤差來自數(shù)據(jù)不匹配誤差。如果訓(xùn)練集橋集誤差相差小,則可能是方差所帶來的誤差。測試集與驗(yàn)證集2%的誤差為方差誤差(存疑)。

參考
https://www.zhihu.com/question/265829982/answer/1770310534
https://zhuanlan.zhihu.com/p/72503153?from_voters_page=true

總結(jié)

以上是生活随笔為你收集整理的训练集与测试集分布差距的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。