日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

过拟合现象,原因,以及降低过拟合的方法

發(fā)布時間:2023/12/20 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 过拟合现象,原因,以及降低过拟合的方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、什么是過擬合,為什么要避免過擬合

圖1.1 Overfit&Normal 上圖是一張使用線性回歸擬合二維樣本數(shù)據(jù)的matlab輸出圖片,其中Normal曲線是使用使用了帶參數(shù)空間限制的最小二乘法進行求解的模型,Overfit曲線是使用最小二乘法直接求解得到的。 可以看到虛線輸出的模型可能并不是我們現(xiàn)實生活中所想要的模型,當(dāng)我們得到Overfit所學(xué)的模型后,用于實際回歸任務(wù)中,可能對于驗證集、測試集、預(yù)測集效果并不好。它會產(chǎn)生這樣一種現(xiàn)象:**一個假設(shè)在訓(xùn)練數(shù)據(jù)上能夠獲得比其他假設(shè)更好的擬合,但是在訓(xùn)練數(shù)據(jù)外的數(shù)據(jù)集上卻不能很好的擬合數(shù)據(jù)**。此時我們就叫這個假設(shè)出現(xiàn)了**過擬合**的現(xiàn)象。

圖1.2 隨著多項式維數(shù)的增加交叉驗證集經(jīng)驗誤差的變化 如圖1.2所示,以多項式擬合舉例,其隨著多項式維數(shù)的增加,模型在訓(xùn)練集上的表現(xiàn)越來越好,但在交叉驗證集上的誤差卻越來越大,這顯然不是我們想要的,因為其泛化能力和魯棒性也越來越差。

二、過擬合產(chǎn)生的原因

圖2.1 Bias/Variance

偏差/方差欠擬合/過擬合有著密不可分的關(guān)系,我們現(xiàn)在討論如圖2.1中右下角的低偏差高方差即只有過擬合現(xiàn)象的原因。
1.數(shù)據(jù)集樣本數(shù)過少
如圖2.1右下圖所示,當(dāng)樣本較少且不是簇型的時候,此時的模型可能因四周“對稱”帶來的誤差累積為0,也就是對測試樣本擬合的很“完美”,但若再增加一個樣本,則可能模型的誤差會增加很多,擬合效果會很差。
2.算法模型為了更好的擬合樣本集,使其模型的擬合能力超過遠(yuǎn)遠(yuǎn)超過了問題復(fù)雜度,也就是學(xué)習(xí)模型過于復(fù)雜
對于線性回歸問題來說,也就是多項式次數(shù)過高的問題;對于神經(jīng)網(wǎng)絡(luò)來說,網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,單層節(jié)點數(shù)過多等也可能造成過擬合,以做過的一個圖像識別項目舉例,如圖2.2所示,原學(xué)習(xí)目標(biāo)是想檢測完整的轎車,但分類器訓(xùn)練的結(jié)果卻是將后視鏡部分當(dāng)作了轎車,原因是當(dāng)時訓(xùn)練的stage過多,將轎車的細(xì)化特征學(xué)習(xí)過多以至于出現(xiàn)過擬合現(xiàn)象。

圖2.2 圖像識別中的過擬合現(xiàn)象

3.樣本中數(shù)據(jù)噪聲干擾過大,大到模型過分記住了噪聲特征,而忽略了真實的輸入輸出間的關(guān)系。

三、如何降低過擬合

1.(針對問題1)解決過擬合的根本方法是增加數(shù)據(jù)集的規(guī)模,理論上只要樣本數(shù)足夠多,即使模型足夠復(fù)雜,有一定的噪聲,模型也會收斂到一個比較好的結(jié)果。
實際中由于數(shù)據(jù)集采集成本過高,通常使用一些退而求其次的方法來制造數(shù)據(jù)集,比如在圖像處理中,可以利用反轉(zhuǎn)、平移、切割、調(diào)整光亮,使用不同濾波來擴充數(shù)據(jù)集。
而在模型的訓(xùn)練階段,為了節(jié)省數(shù)據(jù)成本,我們會采取諸如留一法、交叉驗證法、自助法等用于數(shù)據(jù)采樣。
2.(針對問題2)對于模型過于復(fù)雜,我們可以做的事情很多。
2.1使模型本身簡單化
對于線性回歸我們可以降低多項式的次數(shù),對于神經(jīng)網(wǎng)絡(luò)我們可以減少隱藏層層數(shù),節(jié)點數(shù)等,對于決策樹,我們可以進行剪枝操作等。

2.2正則化
正則化是解決過擬合最常用的方法之一,最為常用的用為L1正則化與L2正則化。L0可以最自然的實現(xiàn)“稀疏約束”,但其求解性質(zhì)不太良好,利用L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,又有較好的求解特性(可利用近端梯度下降求解),因此可以得到較為稀疏的解,利用L2范數(shù)進行正則化則可以大大降低計算量,擁有計算方便的特性。

圖2.3 高斯核模型L2約束的最小二乘學(xué)習(xí)法運用(改變帶寬與正則化參數(shù))

2.3 對于神經(jīng)網(wǎng)絡(luò),我們可以采用增加Drop層(在每層中隨機選取一些節(jié)點使其不工作),或是添加Batch Normalization來減輕過擬合現(xiàn)象。

2.4進行特征選擇與稀疏學(xué)習(xí),常見的特征選擇可分為分為1)過濾式,2)包裹式,3)嵌入式稀疏表示可以使大多數(shù)問題變得線性可分,且稀疏樣本可以給存儲帶來方便,稀疏表示可以通過字典學(xué)習(xí)等方式得到,它可以將樣本轉(zhuǎn)化為合適的稀疏表示,從而使學(xué)習(xí)任務(wù)得以簡化,模型復(fù)雜度降低。
3.(針對問題三)在進行數(shù)據(jù)訓(xùn)練進行之前進行數(shù)據(jù)清洗,即在回歸任務(wù)中刪除異常的噪聲點,在分類任務(wù)中將錯誤的label進行糾正。

以上為個人在機器學(xué)習(xí)、深度學(xué)習(xí)以及代碼實現(xiàn)中關(guān)于過擬合現(xiàn)象的一些淺薄認(rèn)識,如有不妥之處肯請各位包涵指正。

總結(jié)

以上是生活随笔為你收集整理的过拟合现象,原因,以及降低过拟合的方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。