K折交叉验证和pipeline
生活随笔
收集整理的這篇文章主要介紹了
K折交叉验证和pipeline
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
KFold模塊
from sklearn.model_selection import KFold
為什么要使用交叉驗證?交叉驗證的介紹
交叉驗證是在機器學習建立模型和驗證模型參數時常用的辦法。 交叉驗證,顧名思義,就是重復的使用數據,把得到的樣本數據進行切分,組合為不同的訓練集和測試集,用訓練集來訓練模型,用測試集來評估模型預測的好壞。在此基礎上可以得到多組不同的訓練集和測試集,某次訓練集中的某樣本在下次可能成為測試集中的樣本,即所謂“交叉”。
那么什么時候才需要交叉驗證呢?交叉驗證用在數據不是很充足的時候。 它的基本想法就是重復地使用數據:把給定的數據進行切分,將切分的數據集組合為訓練集和測試集,在此基礎上反復地進行訓練、測試以及模型選擇。 比如在我日常項目里面,對于普通適中問題,如果數據樣本量小于一萬條,我們就會采用交叉驗證來訓練優化選擇模型。如果樣本大于一萬條的話,我們一般隨機的把數據分成三份,一份為訓練集(Training Set),一份為驗證集(Validation Set),最后一份為測試集(Test Set)。用訓練集來訓練模型,用驗證集來評估模型預測的好壞和選擇模型及其對應的參數。把最終得到的模型再用于測試集,最終決定使用哪個模型以及對應參數。
交叉驗證的目的是為了能有效地估計模型的泛化能力 (測試誤差),從而進行模型選擇。 評估模型,然后通過的出來的準確率,我們再進行模型選擇。
K折
總結
以上是生活随笔為你收集整理的K折交叉验证和pipeline的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 可视化总结
- 下一篇: Apriori关联规则算法