當前位置：首頁 >

机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）

發布時間：2023/11/29 29 豆豆

默认站点收集整理的這篇文章主要介紹了机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要：

　　1.常見問題

　　　　1.1 什么是偏差與方差？

　　　　1.2 為什么會產生過擬合，有哪些方法可以預防或克服過擬合？

　　2.模型選擇例子

　　3.特征選擇例子

　　4.特征工程與數據預處理例子

內容：

1.常見問題

　　1.1 什么是偏差與方差？

　　泛化誤差(general error)可以分解成偏差(bias)的平方加上方差(variance)加上噪聲(noise)。

　　偏差度量了學習算法的期望預測和真實結果的偏離程度，刻畫了學習算法本身的擬合能力，方差度量了同樣大小的訓練集的變動所導致的學習性能的變化，刻畫了數據擾動所造成的影響?

　　噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差下界，刻畫了問題本身的難度。一般訓練程度越強，偏差越小，方差越大，泛化誤差一般在中間有一個最小值，如果偏差較大，方差較小，此時一般稱為欠擬合，而偏差較小，方差較大稱為過擬合。（吳恩達的講義）

　　1.2?為什么會產生過擬合，有哪些方法可以預防或克服過擬合？

　　一般在機器學習中，將學習器在訓練集上的誤差稱為訓練誤差或者經驗誤差，在新樣本上的誤差稱為泛化誤差。顯然我們希望得到泛化誤差小的學習器，但是我們事先并不知道新樣本，因此實際上往往努力使經驗誤差最小化。然而，當學習器將訓練樣本學的太好的時候，往往可能把訓練樣本的噪聲也考慮（擬合）到了。這樣就會導致泛化性能下降，稱之為過擬合，相反，欠擬合一般指對訓練樣本的一般性質尚未學習好，在訓練集上仍然有較大的誤差。

　　一般來說欠擬合更容易解決一些，例如增加模型的復雜度（增加決策樹中的分支，增加神經網絡中的訓練次數等等），增加特征（“組合”、“泛化”、“相關性”），減少正則化系數（參考）（參考2）。

　　過擬合的解決方案一般有降低模型復雜度,重新清洗數據（導致過擬合的一個原因也有可能是數據不純導致的），增加樣本數量，對樣本進行降維/特征選擇，增加正則化系數，利用cross-validation，early stopping等等。

2.模型選擇例子

　　交叉驗證確定最佳超參數

　　elasticNet取L1,L2系數

　　模型選擇的準則：

　　　　1.Bayesian Information Criterion/Schwarz criterion（貝葉斯信息準則BIC）

　　?　　2.maximal information coefficient（最大信息系數MIC）

3.特征選擇例子

4.特征工程與數據預處理例子

轉載于:https://www.cnblogs.com/arachis/p/Bais_Variance_Tradeoff.html

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是默认站点為你收集整理的机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得默认站点網站內容還不錯，歡迎將默认站点推薦給好友。

上一篇：孕妇梦到抓鱼是什么意思周公解梦
下一篇： unity获取ugui上鼠标位置