二、逻辑回归算法梳理
1、邏輯回歸與線性回歸的聯系與區別
- 聯系
邏輯回歸與線性回歸都屬于廣義線性回歸模型 - 區別
因變量不同,如果是連續的,就是多重線性回歸,如果是二項分布,就是logistic回歸。logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最為常用的就是二分類的logistic回歸。
線性回歸用于解決回歸問題,邏輯回歸主要用于解決分類問題
2、 邏輯回歸的原理
邏輯回歸
3、邏輯回歸損失函數推導及優化
既然可以轉化成概率,那么便可以利用最大似然估計(MLE)來寫出目標函數:
L(θ)=p(y? |X;θ)=∏i=1mp(yi|xi;θ)=∏i=1m(hθ(xi))yi(1?hθ(xi))1?yi
接下來就是求解 MLE 的老套路,取對數加負號,然后代入 hθ(x),可以得到 LR 的代價函數,即對數損失:
J(θ)=loss(hθ(xi),yi)=?1ml(θ)=?1m∑i=1m(yiloghθ(xi)+(1?yi)log(1?hθ(xi)))
將 sigmiod 函數代入 hθ(xi),并使用 ln 代替 log,上述公式還可以繼續化簡為:
J(θ)=–1m∑i=1m[yilnhθ(xi)+(1?yi)ln(1?hθ(xi)]=?1m∑i=1m[yiln11+e?θTxi+(1?yi)lne?θTxi1+e?θTxi]=?1m∑i=1m[ln11+eθTxi+yiln1e?θTxi]=1m∑i=1m[?yiθTxi+ln(1+eθTxi)]
4、 正則化與模型評估指標
正則化
正則化是一種回歸的形式,它將系數估計(coefficient estimate)朝零的方向進行約束、調整或縮小。也就是說,正則化可以在學習過程中降低模型復雜度和不穩定程度,從而避免過擬合的危險。
L1范數:L1范數在正則化的過程中會趨向于產生少量的特征,而其他的特征都是0(L1會使得參數矩陣變得稀疏)。因此L1不僅可以起到正則化的作用,還可以起到特征選擇的作用。
L2范數:L2范數是通過使權重衰減,進而使得特征對于總體的影響減小而起到防止過擬合的作用的。L2的優點在于求解穩定、快速。
模型評估指標
精確率,precision = TP / (TP + FP) 即正確預測的正反例數 /總數
準確率,accuracy = (TP + TN) / (TP + FP + TN + FN) 精確率容易和準確率不能混為一談,為預測出是正的里面有多少真正是正的。可理解為查準率。
召回率,recall = TP / (TP + FN) 表現為在實際正樣本中,分類器能預測出多少。
F1 Score = P*R/2(P+R),其中P和R分別為 precision 和 recall ,在precision與recall都要求高的情況下,可以用F1 Score來衡量。
ROC曲線 邏輯回歸里面,對于正負例的界定,通常會設一個閾值,大于閾值的為正類,小于閾值為負類。如果我們減小這個閥值,更多的樣本會被識別為正類,提高正類的識別率,但同時也會使得更多的負類被錯誤識別為正類。為了直觀表示這一現象,引入ROC。在圖中,橫坐標為False Positive Rate(FPR假正率),縱坐標為True Positive Rate(TPR真正率)。
AUC(Area Under Curve)被定義為ROC曲線下的面積(ROC的積分),通常大于0.5小于1。AUC值(面積)越大的分類器,性能越好。
5、邏輯回歸的優缺點
優點
1形式簡單,模型的可解釋性非常好。從特征的權重可以看到不同的特征對最后結果的影響,某個特征的權重值比較高,那么這個特征最后對結果的影響會比較大。
2模型效果不錯,如果特征工程做的好,效果不會太差。
3訓練速度較快。分類的時候,計算量僅僅只和特征的數目相關。
缺點
1準確率并不是很高。因為形式非常的簡單(非常類似線性模型),很難去擬合數據的真實分布。
2很難處理數據不平衡的問題。舉個例子:如果我們對于一個正負樣本非常不平衡的問題比如正負樣本比 10000:1.我們把所有樣本都預測為正也能使損失函數的值比較小。但是作為一個分類器,它對正負樣本的區分能力不會很好。
3處理非線性數據較麻煩。邏輯回歸在不引入其他方法的情況下,只能處理線性可分的數據
6、樣本不均衡問題解決辦法
1)增加少樣本數據
機器學習是使用現有的數據對整個數據的分布進行估計,因此更多的數據往往能夠得到更多的分布信息,以及更好分布估計。即使再增加小類樣本數據時,又增加了大類樣本數據。
2)重采樣
對小類的數據樣本進行采樣來增加小類的數據樣本個數,即過采樣(over-sampling ,采樣的個數大于該類樣本的個數)。即添加部分樣本的副本。
對大類的數據樣本進行采樣來減少該類數據樣本的個數,即欠采樣(under-sampling,采樣的次數少于該類樣本的個素)。即刪除部分樣本。
3)采用不同分類算法
應該使用不同的算法對其進行比較,因為不同的算法使用于不同的任務與數據。決策樹往往在類別不均衡數據上表現不錯。它使用基于類變量的劃分規則去創建分類樹,因此可以強制地將不同類別的樣本分開。
7. sklearn參數
LogisticRegressionttps
轉載于:https://www.cnblogs.com/robindong/p/11329118.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的二、逻辑回归算法梳理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于UDP协议的套接字+socketse
- 下一篇: 笔试算法复习——数组去重