回归分析中的正则化问题
什么是邏輯回歸?
Logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在于它們的因變量不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸于同一個家族,即廣義線性模型(generalizedlinear model)。
這一家族中的模型形式基本上都差不多,不同的就是因變量不同。?
- 如果是連續的,就是多重線性回歸;
- 如果是二項分布,就是Logistic回歸;
- 如果是Poisson分布,就是Poisson回歸;
- 如果是負二項分布,就是負二項回歸。?
Logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最常用的就是二分類的Logistic回歸。
Logistic回歸的主要用途:?
- 尋找危險因素:尋找某一疾病的危險因素等;
- 預測:根據模型,預測在不同的自變量情況下,發生某病或某種情況的概率有多大;
- 判別:實際上跟預測有些類似,也是根據模型,判斷某人屬于某病或屬于某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某病。
?Logistic回歸主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率,等等。例如,想探討胃癌發生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。?
常規步驟
Regression問題的常規步驟為:?
構造預測函數h
Logistic回歸雖然名字里帶“回歸”,但是它實際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個類別),所以利用了Logistic函數(或稱為Sigmoid函數),函數形式為:
Sigmoid 函數在有個很漂亮的“S”形,如下圖所示(引自維基百科):
?
?
?
下面左圖是一個線性的決策邊界,右圖是非線性的決策邊界。
?
對于線性邊界的情況,邊界形式如下:
構造預測函數為:
函數的值有特殊的含義,它表示結果取1的概率,因此對于輸入x分類結果為類別1和類別0的概率分別為:
?
構造損失函數J
Cost函數和J函數如下,它們是基于最大似然估計推導得到的。
下面詳細說明推導的過程:
(1)式綜合起來可以寫成:
取似然函數為:
?
對數似然函數為:
?
最大似然估計就是求使取最大值時的θ,其實這里可以使用梯度上升法求解,求得的θ就是要求的最佳參數。但是,在Andrew Ng的課程中將取為下式,即:
因為乘了一個負的系數-1/m,所以取最小值時的θ為要求的最佳參數。
?
梯度下降法求的最小值
θ更新過程:
?
?
θ更新過程可以寫成:
?
??
?
??
正則化Regularization
過擬合問題
對于線性回歸或邏輯回歸的損失函數構成的模型,可能會有些權重很大,有些權重很小,導致過擬合(就是過分擬合了訓練數據),使得模型的復雜度提高,泛化能力較差(對未知數據的預測能力)。
下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。
?問題的主因
過擬合問題往往源自過多的特征。
解決方法
1)減少特征數量(減少特征會失去一些信息,即使特征選的很好)?
- 可用人工選擇要保留的特征;
- 模型選擇算法;?
2)正則化(特征較多時比較有效)?
- 保留所有特征,但減少θ的大小?
3)減少樣本(樣本太多了,可以適當減少樣本,當然要隨機進行)
4)減少迭代次數,有時候迭代次數過多,會導致過度擬合(一個是擬合了更多的數據,一個是權值迭代次過多)
5)交叉驗證,在訓練數據集或驗證集上做驗證,可以調節迭代次數,從而預防過擬合或欠擬合
正則化方法
正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項或懲罰項。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化項就越大。
從房價預測問題開始,這次采用的是多項式回歸。左圖是適當擬合,右圖是過擬合。
?
直觀來看,如果我們想解決這個例子中的過擬合問題,最好能將的影響消除,也就是讓。假設我們對進行懲罰,并且令其很小,一個簡單的辦法就是給原有的Cost函數加上兩個略大懲罰項,例如:
這樣在最小化Cost函數的時候,。
正則項可以取不同的形式,在回歸問題中取平方損失,就是參數的L2范數,也可以取L1范數。取平方損失時,模型的損失函數變為:
?
lambda是正則項系數:?
- 如果它的值很大,說明對模型的復雜度懲罰大,對擬合數據的損失懲罰小,這樣它就不會過分擬合數據,在訓練數據上的偏差較大,在未知數據上的方差較小,但是可能出現欠擬合的現象;
- 如果它的值很小,說明比較注重對訓練數據的擬合,在訓練數據上的偏差會小,但是可能會導致過擬合。
?正則化后的梯度下降算法θ的更新變為:
?
正則化后的線性回歸的Normal Equation的公式為:
?
?參考文獻:http://52opencourse.com/133/coursera
轉載于:https://www.cnblogs.com/hitwhhw09/p/4630494.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的回归分析中的正则化问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么每个请求都要有用户名密码呢,那不是
- 下一篇: 关于NSKeyedArchiver的编码