當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

验证和交叉验证（Validation & Cross Validation）

發(fā)布時(shí)間：2023/12/15 综合教程 41 生活家

生活随笔收集整理的這篇文章主要介紹了验证和交叉验证（Validation & Cross Validation）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

之前在《訓(xùn)練集，驗(yàn)證集，測(cè)試集（以及為什么要使用驗(yàn)證集？）（Training Set, Validation Set, Test Set）》一文中已經(jīng)提過對(duì)模型進(jìn)行驗(yàn)證（評(píng)估）的幾種方式。下面來回顧一下什么是模型驗(yàn)證的正確方式，并詳細(xì)說說交叉驗(yàn)證的方法。

驗(yàn)證（Validation）：把數(shù)據(jù)集隨機(jī)分成訓(xùn)練集，驗(yàn)證集，測(cè)試集（互斥）。用訓(xùn)練集訓(xùn)練出模型，然后用驗(yàn)證集驗(yàn)證模型，根據(jù)情況不斷調(diào)整模型，選出其中最好的模型，記錄最好的模型的各項(xiàng)設(shè)置，然后據(jù)此再用（訓(xùn)練集+驗(yàn)證集）數(shù)據(jù)訓(xùn)練出一個(gè)新模型，作為最終的模型，最后用測(cè)試集評(píng)估最終的模型。

（注：這是一個(gè)完整的模型評(píng)估和模型選擇過程。如果僅對(duì)單個(gè)模型進(jìn)行評(píng)估，只需要前面兩個(gè)步驟：用訓(xùn)練集訓(xùn)練出模型，然后用驗(yàn)證集驗(yàn)證模型。）

需要注意的是：有時(shí)我們拿到的數(shù)據(jù)是按類別排序好的，此時(shí)我們千萬不能簡(jiǎn)單地把前n項(xiàng)作為訓(xùn)練集，后m項(xiàng)作為驗(yàn)證集，而是要把數(shù)據(jù)集重新洗牌，然后再隨機(jī)抽?。ǔ槿『蟛环呕兀?。此外，需要盡量使得訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)分布一致。比如說在分類任務(wù)中，訓(xùn)練集和驗(yàn)證集應(yīng)保持相似的類別比例。這需要通過特定的采樣方法來達(dá)到這一結(jié)果，這種采樣方法稱為分層采樣（Stratified Sampling），簡(jiǎn)單來說就是如果訓(xùn)練集中有60%的正例，那么驗(yàn)證集中也需要有差不多60%的正例。分層采樣也可以和交叉驗(yàn)證結(jié)合使用。

有些資料上把驗(yàn)證也算作交叉驗(yàn)證的一種方式，稱為留出法（Holdout Validation），但在我的概念中它不應(yīng)該算作交叉驗(yàn)證，因?yàn)閿?shù)據(jù)并沒有被交叉使用（既用作訓(xùn)練，又用作驗(yàn)證）。但是多次驗(yàn)證（多次隨機(jī)劃分訓(xùn)練集和驗(yàn)證集）然后取平均值則是一種交叉驗(yàn)證方法，稱為蒙特卡洛交叉驗(yàn)證，下面會(huì)詳細(xì)說。

下面來說說什么是交叉驗(yàn)證：

交叉驗(yàn)證（Cross Validation）也是一種模型驗(yàn)證技術(shù)。簡(jiǎn)單來說就是重復(fù)使用數(shù)據(jù)。除去測(cè)試集，把剩余數(shù)據(jù)進(jìn)行劃分，組合成多組不同的訓(xùn)練集和驗(yàn)證集，某次在訓(xùn)練集中出現(xiàn)的樣本下次可能成為驗(yàn)證集中的樣本，這就是所謂的“交叉”。最后用各次驗(yàn)證誤差的平均值作為模型最終的驗(yàn)證誤差。

為什么要用交叉驗(yàn)證？

大家知道，之前我們說的留出法（holdout）需要從數(shù)據(jù)集中抽出一部分作為驗(yàn)證集。如果驗(yàn)證集較大，那么訓(xùn)練集就會(huì)變得很小，如果數(shù)據(jù)集本身就不大的話，顯然這樣訓(xùn)練出來的模型就不好。如果驗(yàn)證集很小，那么此驗(yàn)證誤差就不能很好地反映出泛化誤差。此外，在不同的劃分方式下，訓(xùn)練出的不同模型的驗(yàn)證誤差波動(dòng)也很大（方差大）。到底以哪次驗(yàn)證誤差為準(zhǔn)？誰都不知道。但是如果將這些不同劃分方式下訓(xùn)練出來的模型的驗(yàn)證過程重復(fù)多次，得到的平均誤差可能就是對(duì)泛化誤差的一個(gè)很好的近似。

交叉驗(yàn)證的幾種方法：

1.留一法（Leave One Out Cross Validation，LOOCV）

假設(shè)數(shù)據(jù)集一共有m個(gè)樣本，依次從數(shù)據(jù)集中選出1個(gè)樣本作為驗(yàn)證集，其余m-1個(gè)樣本作為訓(xùn)練集，這樣進(jìn)行m次單獨(dú)的模型訓(xùn)練和驗(yàn)證，最后將m次驗(yàn)證結(jié)果取平均值，作為此模型的驗(yàn)證誤差。

（注：這里說的數(shù)據(jù)集都是指已經(jīng)把測(cè)試集劃分出去的數(shù)據(jù)集，下同）

留一法的優(yōu)點(diǎn)是結(jié)果近似無偏，這是因?yàn)閹缀跛械臉颖径加糜谀Ｐ偷臄M合。缺點(diǎn)是計(jì)算量大。假如m=1000，那么就需要訓(xùn)練1000個(gè)模型，計(jì)算1000次驗(yàn)證誤差。因此，當(dāng)數(shù)據(jù)集很大時(shí)，計(jì)算量是巨大的，很耗費(fèi)時(shí)間。除非數(shù)據(jù)特別少，一般在實(shí)際運(yùn)用中我們不太用留一法。

2.K折交叉驗(yàn)證（K-Fold Cross Validation）

把數(shù)據(jù)集分成K份，每個(gè)子集互不相交且大小相同，依次從K份中選出1份作為驗(yàn)證集，其余K-1份作為訓(xùn)練集，這樣進(jìn)行K次單獨(dú)的模型訓(xùn)練和驗(yàn)證，最后將K次驗(yàn)證結(jié)果取平均值，作為此模型的驗(yàn)證誤差。當(dāng)K=m時(shí)，就變?yōu)榱粢环??？梢娏粢环ㄊ荎折交叉驗(yàn)證的特例。

根據(jù)經(jīng)驗(yàn)，K一般取10。（在各種真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)，10折交叉驗(yàn)證在偏差和方差之間取得了最佳的平衡。）

3.多次K折交叉驗(yàn)證（Repeated K-Fold Cross Validation）

每次用不同的劃分方式劃分?jǐn)?shù)據(jù)集，每次劃分完后的其他步驟和K折交叉驗(yàn)證一樣。例如：10 次 10 折交叉驗(yàn)證，即每次進(jìn)行10次模型訓(xùn)練和驗(yàn)證，這樣一共做10次，也就是總共做100次模型訓(xùn)練和驗(yàn)證，最后將結(jié)果平均。這樣做的目的是讓結(jié)果更精確一些。（研究發(fā)現(xiàn)，重復(fù)K折交叉驗(yàn)證可以提高模型評(píng)估的精確度，同時(shí)保持較小的偏差。）

4. 蒙特卡洛交叉驗(yàn)證（Monte Carlo Cross Validation）

即將留出法（holdout）進(jìn)行多次。每次將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集，這樣進(jìn)行多次單獨(dú)的模型訓(xùn)練和驗(yàn)證，最后將這些驗(yàn)證結(jié)果取平均值，作為此模型的驗(yàn)證誤差。與單次驗(yàn)證（holdout）相比，這種方法可以更好地衡量模型的性能。與K折交叉驗(yàn)證相比，這種方法能夠更好地控制模型訓(xùn)練和驗(yàn)證的次數(shù)，以及訓(xùn)練集和驗(yàn)證集的比例。缺點(diǎn)是有些觀測(cè)值可能從未被選入驗(yàn)證子樣本，而有些觀測(cè)值可能不止一次被選中。（偏差大，方差?。?/p>

總結(jié)：在數(shù)據(jù)較少的情況下，使用K折交叉驗(yàn)證來對(duì)模型進(jìn)行評(píng)估是一個(gè)不錯(cuò)的選擇。如果數(shù)據(jù)特別少，那么可以考慮用留一法。當(dāng)數(shù)據(jù)較多時(shí)，使用留出法則非常合適。如果我們需要更精確一些的結(jié)果，則可以使用蒙特卡洛交叉驗(yàn)證。

此外，需要特別注意的是：如果我們要對(duì)數(shù)據(jù)進(jìn)行歸一化處理或進(jìn)行特征選擇，應(yīng)該在交叉驗(yàn)證的循環(huán)過程中執(zhí)行這些操作，而不是在劃分?jǐn)?shù)據(jù)之前就將這些步驟應(yīng)用到整個(gè)數(shù)據(jù)集。

上面說的是對(duì)單個(gè)模型進(jìn)行的交叉驗(yàn)證。如果要在多個(gè)不同設(shè)置的模型中進(jìn)行選擇，那么步驟和驗(yàn)證類似：首先將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，然后用交叉驗(yàn)證方法劃分訓(xùn)練集（劃分為訓(xùn)練集和驗(yàn)證集），訓(xùn)練出不同模型后，按驗(yàn)證集誤差選出其中最好的模型，記錄最好模型的各項(xiàng)設(shè)置，然后據(jù)此再用（訓(xùn)練集+驗(yàn)證集）數(shù)據(jù)訓(xùn)練出一個(gè)新模型，作為最終的模型，最后用測(cè)試集評(píng)估最終的模型。

可以看出，在上述模型評(píng)估和模型選擇過程中，除了對(duì)模型進(jìn)行評(píng)估之外，驗(yàn)證和交叉驗(yàn)證還有另外一個(gè)作用，就是對(duì)超參數(shù)進(jìn)行優(yōu)化。之前我們所說的根據(jù)情況不斷調(diào)整模型就是其中一種超參數(shù)優(yōu)化方式，叫做試錯(cuò)。另外一種超參數(shù)優(yōu)化方式是：列出各種不同超參數(shù)設(shè)置的算法；使用驗(yàn)證或交叉驗(yàn)證方法在訓(xùn)練數(shù)據(jù)上訓(xùn)練出這些不同的模型，然后對(duì)這些模型在驗(yàn)證集上的性能進(jìn)行評(píng)估；之后選擇其中最好的模型對(duì)應(yīng)的超參數(shù)設(shè)置。這種超參數(shù)優(yōu)化方式稱為網(wǎng)格搜索。當(dāng)然還有其他的超參數(shù)優(yōu)化方式，請(qǐng)見：超參數(shù)優(yōu)化方法（Hyperparameter Tuning）---試錯(cuò)（Babysitting），網(wǎng)格搜索（Grid Search），隨機(jī)搜索（Random Search），貝葉斯優(yōu)化（Bayesian Optimization）。

對(duì)于超參數(shù)優(yōu)化，推薦用10折交叉驗(yàn)證。

總結(jié)

以上是生活随笔為你收集整理的验证和交叉验证（Validation & Cross Validation）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：图像检索 PCA Whiten
下一篇：如何设计数据库表实现完整的RBAC(基于

综合教程

验证和交叉验证（Validation &amp; Cross Validation）

總結(jié)

验证和交叉验证（Validation & Cross Validation）