数据集划分
使用數據集時,一般將其分為三段:訓練集、驗證集、測試集。
-
測試集
決不能使用測試集來進行調優,會造成算法對測試集過擬合。應該把測試集看做非常珍貴的資源,不到最后一步,絕不使用它。
-
驗證集
由于測試數據集只使用一次,所以,從訓練集中取出一部分數據作為驗證集(validation set)。驗證集其實就是作為假的測試集來調優。
-
交叉驗證
有時候,訓練集數量較小(因此驗證集的數量更小),人們會使用一種被稱為交叉驗證的方法,這種方法更加復雜些。
可以將訓練集平均分成 5 份,然后我們循環著取其中4份來訓練,其中1份來驗證,最后取所有5次驗證結果的平均值作為算法驗證結果。
總結
- 上一篇: 正则化方法:数据增强、regulariz
- 下一篇: 逻辑回归 logistic regres