正则化、交叉验证、泛化能力
一、正則化?
1、模型選擇典型的方式就是正則化。正則化就是結構風險最小化策略的實現,就是在經驗風險項中添加一個鄭澤華想或者叫做懲罰項。?
正則化項與模型的關系一般是模型復雜度越高,正則化項的值就會越大。?
正則化項的作用就是平衡經驗風險較小與模型復雜度較小。最好的結果就是經驗風險和模型復雜度同時較小。?
正則化的一般形式為:?
其中,第一項為經驗風險項,第二項為正則化項。值λ是為了調整兩者關系的系數。
二、交叉驗證?
通常情況下,我們做模型選擇的時候將數據分為訓練集、驗證集和測試集。但是實際應用中,往往數據并不是很充足,這就導致分為三部分后每一部分數據量不足,這樣計算選擇得到的模型往往是不可用的。因此我們在這種情況下,可以選擇使用交叉驗證的方式解決數據量不足的情況。?
1、簡單地交叉驗證?
簡單地交叉驗證,就是指隨機的將數據分為兩部分,一部分為訓練數據,一部分為測試數據,一般情況下比例為7:3。使用訓練數據應用到各種模型的訓練上得到多個不同的模型,然后利用測試數據計算每個模型的計算誤差,最終選擇誤差最小的模型即為最優的模型。?
2、S折交叉驗證?
S折交叉驗證,就是將數據等比例的分為S份,然后選擇其中的S-1份數據作為訓練數據,剩余的一份作為測試數據,這樣訓練數據及測試數據就有S中選擇,于是最終選擇通過S次評測平均測試誤差最小的模型為最優模型。
三、泛化能力?
1、定義:泛化能力就是指所學到的模型對未知數據的預測能力,通常情況我們使用測試數據來驗證模型的泛化能力,但是由于數據集有線,其并不能包含數據所有的可能情況,因此測試數據的測試結果并不能完全體現模型的泛化能力,這種評測結果并不可靠。?
2、泛化誤差?
假設學到的模型為,則模型的泛化誤差為:?
泛化誤差反映了模型的泛化能力,模型選擇中,泛化誤差越小則模型越好。?
3、泛化誤差上界?
通常學習方法的泛化能力分析是研究泛化誤差得概率上界。比較兩個學習方法的泛化誤差上界來確定兩個學習方法的優劣。其性質如下:?
(1)泛化誤差上界是樣本容量的函數,樣本容量越大,則泛化誤差上界越趨于0。?
(2)泛化誤差上界是函數空間的函數,假設空間容量越大,模型就越難學,泛化誤差上界就越大。
?
轉載于:https://www.cnblogs.com/aurorablog/p/9034529.html
總結
以上是生活随笔為你收集整理的正则化、交叉验证、泛化能力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 断言和异常
- 下一篇: BZOJ3609 [Heoi2014]人