网格搜索和交叉验证
Grid Search 網格搜索
網格搜索是一種常用的調參手段,是一種窮舉方法。給定一系列超參,然后再所有超參組合中窮舉遍歷,從所有組合中選出最優的一組超參數,其實就是暴力方法在全部解中找最優解。從所有的參數中找到在驗證集上精度最高的參數,這其實是一個訓練和比較的過程。
為什么叫網格搜索,因為假設有兩個超參,每個超參都有一組候選參數。這兩組候選參數可以兩兩組合,把所有組合列出來就是一個二維的網格(多個超參兩兩組合可以看作是崗高維空間的網格),遍歷網格中的所有節點,選出最優解。所以叫網格搜索。
當超參數的數量增長時,網格搜索的計算復雜度會呈現指數增長,這時候則使用**隨機搜索**RandomizedSearch ### sklearn里的兩個調參函數 GridSearchCV 與 RandomizedSearchCV 前者是網格搜索,后者是隨機搜索(其實兩個后邊跟的CV就是下邊要說的交叉驗證),這里我們看下GridSearchCV函數:sklearn.model_selection.GridSearchCV(estimator,param_grid,cv)
estimator:估計器對象
param_grid:估計器參數,參數名稱(字符串)作為key,要測試的參數列表作為value的字典,或這樣的字典構成的列表
cv:整型,指定K折交叉驗證
方法:
fit:輸入訓練數據
score:準確率
best_score_:交叉驗證中測試的最好的結果
best_estimator_:交叉驗證中測試的最好的參數模型
best_params_:交叉驗證中測試的最好的參數
cv_results_:每次交叉驗證的結果
交叉驗證cross validation
如果給定的樣本數據充足,進行模型選擇的 種簡單方法是隨機地將數據集切分成三部分,分別為訓練集(training set )、驗證集(validation set )和測試集 (tesset )。訓練集用來訓練模型,驗證集用于模型的選擇,而測試集用于最終對學習方法的評估。在學習到的不同復雜度的模型中 選擇對驗證集有最小預測誤差的模型由于驗證集有足夠多 的數據,用它對模型進行選擇也是有效的。
但是,在許多實際應用中數據是不充足的。為了選擇好的模型,可以采用 交叉驗證方法 交叉驗證的基本想法是重復地使用數據:把給定的數據進行切分,將切分的數據集組合為訓練集與測試集,在此基礎上反復地進行訓練、測試以及模型選擇。
簡單交叉驗證方法是 首先隨機地將己給數據分為兩部分,一部分作為訓練集,另一部分作為測試集(例如, 70% 的數據為訓練集, 30% 的數據為測試集〉;然后用訓練集在各種條件下(例如,不同的參數個數)訓練模型,從而得到不同的模型:在測試集上評價各個模型的測試誤差,選山測試誤差最小的模型。
應用最多的是S折交叉驗證 (S-fold cross validation) 方法如下:首先隨機地將已給數據切分為S個互不相交、大小相同的子集:然后利用 S-1個子集的數據訓練模型,利用余下的子集測試模型:將這一過程對可能的S種選擇重復進行;最后選出S次評測中平均測試誤差最小的模型。
以10折交叉驗證為例,如下圖所示。
交叉驗證的好處在于:
1.可以保證所有數據都有被訓練和驗證的機會,也盡最大可能讓優化的模型性能表現的更加可信;
2.從有限的學習數據獲取盡可能多的有效信息;
3.可以在一定程度上避免過擬合的問題。
參考:https://www.cnblogs.com/wj-1314/p/10422159.html
總結
- 上一篇: Django第二篇
- 下一篇: 好用的百度文库下载工具: 易读