影响回归模型泛化能力的两种因素及处理方法
在機器學習問題中,我們根絕解決的問題將機器學習算法歸納為三類:回歸(regression)問題、分類(classification)問題及聚類(clustering)問題。作為機器學習三大解決的三大問題之一的回歸問題,前輩們做了很多深入的研究,尤其是回歸問題的兩類難點問題(多重共線性及特征選擇),在此隨筆中,我主要根據prml開篇對多項式曲線擬合的試驗,討論影響回歸模型泛化能力的兩種因素及處理方法。
在本書中,作者舉了一個用多項式回歸擬合例正弦函數f(x)=sin(2∏x)的例子,給定一個包含10個數據點的數據集 x=(x1,x2,...,x10)T,伴隨帶有隨機噪聲的y的觀測值y=(y1,y2,...,y10)T,下面畫出10個數據點組成的圖像:
圖1:由N=10個數據點組成的訓練集的圖像,由紅色圓點標記。每個數據點由輸入變量x的觀測及對應的目標
變量y組成,藍色曲線給出了用來生成數據的sin(2∏x)函數。目標是通過新的x值預測y值,不需知道藍色曲線。
下面用一種非正式的簡單的多項式函數對數據擬合,多項式如下:
其中,m表示多項式的階數,xj表示x的j次冪,w0,w1,...wm表示多項式系數,整體記為w,多項式函數y(x,w)是關于x的多非線性函數,但是是關于w的線性函數,此類回歸問題也被稱為線性回歸.
在一般情況下,采用上述多項式擬合如圖的個數據點的擬合方法有多種(取不同的m值就有不同的擬合多項式)。而在選擇不同的多項式時,該多項式就有不同的系數參數,怎么確定多項式系數為最優參數呢,一般采用殘差平方和什么樣的最小準則,及對所有的x估計f(x)與對應的y的誤差平方和最小值,如下:
下面是對剛生成的幾個數據點取不同的誤差平方和的多項式擬合情況:
總結
以上是生活随笔為你收集整理的影响回归模型泛化能力的两种因素及处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原来你竟然是这样的txt?
- 下一篇: hash校验软件_hash加密