处理训练集和测试集分布同的方法(对抗训练)
生活随笔
收集整理的這篇文章主要介紹了
处理训练集和测试集分布同的方法(对抗训练)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
https://www.kaggle.com/c/santander-value-prediction-challenge
在kaggle該題中,需要通過所給的匿名變量來預(yù)測target值
feature比較多,所以通過降維來查看訓(xùn)練集和測試集的分布情況
1.訓(xùn)練分類器劃分測試集和訓(xùn)練集
我們把訓(xùn)練集的y設(shè)置成1,測試集的設(shè)置成0
通過feature訓(xùn)練一個分類器(我們當(dāng)時采用了最簡單的分類器邏輯回歸),用于訓(xùn)練集和測試集的劃分
通過改分類器我們可以得到樣本是測試集的概率
(此處有問題:由于測試集較多,樣本不平衡,產(chǎn)生誤差)
2.partA:
基于測試集概率較高的來訓(xùn)練一個回歸器A
3.partB:
基于測試集概率較低的來訓(xùn)練一個回歸器B
4.計算結(jié)果
prediction = coeff*(partA) + (1-coeff)*partB
此處coeff = alpha*(Pr(is_test|X) + beta,且alpha和beta需要進行多次調(diào)試。
?
轉(zhuǎn)載于:https://www.cnblogs.com/zhengzhe/p/9264759.html
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的处理训练集和测试集分布同的方法(对抗训练)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SGU 275. To xor or n
- 下一篇: 第八节:详细讲解Java中的异常处理情况