當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网格搜索和交叉验证

發布時間：2023/12/10 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了网格搜索和交叉验证小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Grid Search 網格搜索

網格搜索是一種常用的調參手段，是一種窮舉方法。給定一系列超參，然后再所有超參組合中窮舉遍歷，從所有組合中選出最優的一組超參數，其實就是暴力方法在全部解中找最優解。從所有的參數中找到在驗證集上精度最高的參數，這其實是一個訓練和比較的過程。

為什么叫網格搜索，因為假設有兩個超參，每個超參都有一組候選參數。這兩組候選參數可以兩兩組合，把所有組合列出來就是一個二維的網格（多個超參兩兩組合可以看作是崗高維空間的網格），遍歷網格中的所有節點，選出最優解。所以叫網格搜索。

當超參數的數量增長時，網格搜索的計算復雜度會呈現指數增長，這時候則使用**隨機搜索**RandomizedSearch ### sklearn里的兩個調參函數 GridSearchCV 與 RandomizedSearchCV 前者是網格搜索，后者是隨機搜索（其實兩個后邊跟的CV就是下邊要說的交叉驗證）,這里我們看下GridSearchCV函數：

sklearn.model_selection.GridSearchCV(estimator,param_grid,cv)

estimator：估計器對象
param_grid：估計器參數，參數名稱（字符串）作為key，要測試的參數列表作為value的字典，或這樣的字典構成的列表
cv：整型，指定K折交叉驗證
方法：
fit：輸入訓練數據
score：準確率
best_score_：交叉驗證中測試的最好的結果
best_estimator_：交叉驗證中測試的最好的參數模型
best_params_：交叉驗證中測試的最好的參數
cv_results_：每次交叉驗證的結果

交叉驗證cross validation

如果給定的樣本數據充足，進行模型選擇的種簡單方法是隨機地將數據集切分成三部分，分別為訓練集（training set ）、驗證集（validation set ）和測試集 （tesset ）。訓練集用來訓練模型，驗證集用于模型的選擇，而測試集用于最終對學習方法的評估。在學習到的不同復雜度的模型中選擇對驗證集有最小預測誤差的模型由于驗證集有足夠多的數據，用它對模型進行選擇也是有效的。
但是，在許多實際應用中數據是不充足的。為了選擇好的模型，可以采用交叉驗證方法交叉驗證的基本想法是重復地使用數據：把給定的數據進行切分，將切分的數據集組合為訓練集與測試集，在此基礎上反復地進行訓練、測試以及模型選擇。

簡單交叉驗證
簡單交叉驗證方法是首先隨機地將己給數據分為兩部分，一部分作為訓練集，另一部分作為測試集（例如， 70% 的數據為訓練集， 30% 的數據為測試集〉；然后用訓練集在各種條件下（例如，不同的參數個數）訓練模型，從而得到不同的模型：在測試集上評價各個模型的測試誤差，選山測試誤差最小的模型。

S折交叉驗證
應用最多的是S折交叉驗證 (S-fold cross validation) 方法如下：首先隨機地將已給數據切分為S個互不相交、大小相同的子集：然后利用 S-1個子集的數據訓練模型，利用余下的子集測試模型：將這一過程對可能的S種選擇重復進行；最后選出S次評測中平均測試誤差最小的模型。
以10折交叉驗證為例，如下圖所示。

步驟如下： a. 將數據集平均分成不相交的10個子集 b. 每一次挑選其中的1份作為測試集，其余的9份作為訓練集進行模型訓練，得到模型的指標 c. 重復第2步10次，使每個子集都作為1次測試集，得到10個模型的指標 d. 將10個模型指標取平均值，作為10折交叉驗證的模型的指標 3. **留一交叉驗證** S折交叉驗證的特殊情形是 S=N，稱為留一交叉驗證 (leave-one-out cro validation ），往往在數據缺乏的情況下使用。這里，N是給定數據集的容量

交叉驗證的好處在于：

1.可以保證所有數據都有被訓練和驗證的機會，也盡最大可能讓優化的模型性能表現的更加可信；
2.從有限的學習數據獲取盡可能多的有效信息；
3.可以在一定程度上避免過擬合的問題。

參考：https://www.cnblogs.com/wj-1314/p/10422159.html

總結

以上是生活随笔為你收集整理的网格搜索和交叉验证的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

网格