机器学习理论知识部分--偏差方差平衡(bias-variance tradeoff)
摘要:
1.常見問題
1.1 什么是偏差與方差?
1.2 為什么會產生過擬合,有哪些方法可以預防或克服過擬合?
2.模型選擇例子
3.特征選擇例子
4.特征工程與數據預處理例子
內容:
1.常見問題
1.1 什么是偏差與方差?
泛化誤差(general error)可以分解成偏差(bias)的平方加上方差(variance)加上噪聲(noise)。
?
?
偏差度量了學習算法的期望預測和真實結果的偏離程度,刻畫了學習算法本身的擬合能力,方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,刻畫了數據擾動所造成的影響?
?
噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差下界,刻畫了問題本身的難度。一般訓練程度越強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。(吳恩達的講義)
?
1.2?為什么會產生過擬合,有哪些方法可以預防或克服過擬合?
一般在機器學習中,將學習器在訓練集上的誤差稱為訓練誤差或者經驗誤差,在新樣本上的誤差稱為泛化誤差。顯然我們希望得到泛化誤差小的學習器,但是我們事先并不知道新樣本,因此實際上往往努力使經驗誤差最小化。然而,當學習器將訓練樣本學的太好的時候,往往可能把訓練樣本的噪聲也考慮(擬合)到了。這樣就會導致泛化性能下降,稱之為過擬合,相反,欠擬合一般指對訓練樣本的一般性質尚未學習好,在訓練集上仍然有較大的誤差。
一般來說欠擬合更容易解決一些,例如增加模型的復雜度(增加決策樹中的分支,增加神經網絡中的訓練次數等等),增加特征(“組合”、“泛化”、“相關性”),減少正則化系數(參考)(參考2)。
過擬合的解決方案一般有降低模型復雜度,重新清洗數據(導致過擬合的一個原因也有可能是數據不純導致的),增加樣本數量,對樣本進行降維/特征選擇,增加正則化系數,利用cross-validation,early stopping等等。
2.模型選擇例子
交叉驗證確定最佳超參數
elasticNet取L1,L2系數
模型選擇的準則:
1.Bayesian Information Criterion/Schwarz criterion(貝葉斯信息準則BIC)
? 2.maximal information coefficient(最大信息系數MIC)
3.特征選擇例子
4.特征工程與數據預處理例子
轉載于:https://www.cnblogs.com/arachis/p/Bais_Variance_Tradeoff.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是默认站点為你收集整理的机器学习理论知识部分--偏差方差平衡(bias-variance tradeoff)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 孕妇梦到抓鱼是什么意思周公解梦
- 下一篇: unity获取ugui上鼠标位置