日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

二、逻辑回归算法梳理

發布時間:2024/1/17 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 二、逻辑回归算法梳理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、邏輯回歸與線性回歸的聯系與區別

  • 聯系
    邏輯回歸與線性回歸都屬于廣義線性回歸模型
  • 區別
    因變量不同,如果是連續的,就是多重線性回歸,如果是二項分布,就是logistic回歸。logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最為常用的就是二分類的logistic回歸。
    線性回歸用于解決回歸問題,邏輯回歸主要用于解決分類問題

2、 邏輯回歸的原理

邏輯回歸

3、邏輯回歸損失函數推導及優化

既然可以轉化成概率,那么便可以利用最大似然估計(MLE)來寫出目標函數:

L(θ)=p(y? |X;θ)=∏i=1mp(yi|xi;θ)=∏i=1m(hθ(xi))yi(1?hθ(xi))1?yi
接下來就是求解 MLE 的老套路,取對數加負號,然后代入 hθ(x),可以得到 LR 的代價函數,即對數損失:

J(θ)=loss(hθ(xi),yi)=?1ml(θ)=?1m∑i=1m(yiloghθ(xi)+(1?yi)log(1?hθ(xi)))
將 sigmiod 函數代入 hθ(xi),并使用 ln 代替 log,上述公式還可以繼續化簡為:

J(θ)=–1m∑i=1m[yilnhθ(xi)+(1?yi)ln(1?hθ(xi)]=?1m∑i=1m[yiln11+e?θTxi+(1?yi)lne?θTxi1+e?θTxi]=?1m∑i=1m[ln11+eθTxi+yiln1e?θTxi]=1m∑i=1m[?yiθTxi+ln(1+eθTxi)]

4、 正則化與模型評估指標

正則化
正則化是一種回歸的形式,它將系數估計(coefficient estimate)朝零的方向進行約束、調整或縮小。也就是說,正則化可以在學習過程中降低模型復雜度和不穩定程度,從而避免過擬合的危險。
L1范數:L1范數在正則化的過程中會趨向于產生少量的特征,而其他的特征都是0(L1會使得參數矩陣變得稀疏)。因此L1不僅可以起到正則化的作用,還可以起到特征選擇的作用。
L2范數:L2范數是通過使權重衰減,進而使得特征對于總體的影響減小而起到防止過擬合的作用的。L2的優點在于求解穩定、快速。
模型評估指標
精確率,precision = TP / (TP + FP) 即正確預測的正反例數 /總數
準確率,accuracy = (TP + TN) / (TP + FP + TN + FN) 精確率容易和準確率不能混為一談,為預測出是正的里面有多少真正是正的。可理解為查準率。
召回率,recall = TP / (TP + FN) 表現為在實際正樣本中,分類器能預測出多少。
F1 Score = P*R/2(P+R),其中P和R分別為 precision 和 recall ,在precision與recall都要求高的情況下,可以用F1 Score來衡量。
ROC曲線 邏輯回歸里面,對于正負例的界定,通常會設一個閾值,大于閾值的為正類,小于閾值為負類。如果我們減小這個閥值,更多的樣本會被識別為正類,提高正類的識別率,但同時也會使得更多的負類被錯誤識別為正類。為了直觀表示這一現象,引入ROC。在圖中,橫坐標為False Positive Rate(FPR假正率),縱坐標為True Positive Rate(TPR真正率)。
AUC(Area Under Curve)被定義為ROC曲線下的面積(ROC的積分),通常大于0.5小于1。AUC值(面積)越大的分類器,性能越好。

5、邏輯回歸的優缺點

優點
1形式簡單,模型的可解釋性非常好。從特征的權重可以看到不同的特征對最后結果的影響,某個特征的權重值比較高,那么這個特征最后對結果的影響會比較大。
2模型效果不錯,如果特征工程做的好,效果不會太差。
3訓練速度較快。分類的時候,計算量僅僅只和特征的數目相關。
缺點
1準確率并不是很高。因為形式非常的簡單(非常類似線性模型),很難去擬合數據的真實分布。
2很難處理數據不平衡的問題。舉個例子:如果我們對于一個正負樣本非常不平衡的問題比如正負樣本比 10000:1.我們把所有樣本都預測為正也能使損失函數的值比較小。但是作為一個分類器,它對正負樣本的區分能力不會很好。
3處理非線性數據較麻煩。邏輯回歸在不引入其他方法的情況下,只能處理線性可分的數據

6、樣本不均衡問題解決辦法

1)增加少樣本數據
機器學習是使用現有的數據對整個數據的分布進行估計,因此更多的數據往往能夠得到更多的分布信息,以及更好分布估計。即使再增加小類樣本數據時,又增加了大類樣本數據。
2)重采樣
對小類的數據樣本進行采樣來增加小類的數據樣本個數,即過采樣(over-sampling ,采樣的個數大于該類樣本的個數)。即添加部分樣本的副本。
對大類的數據樣本進行采樣來減少該類數據樣本的個數,即欠采樣(under-sampling,采樣的次數少于該類樣本的個素)。即刪除部分樣本。
3)采用不同分類算法
應該使用不同的算法對其進行比較,因為不同的算法使用于不同的任務與數據。決策樹往往在類別不均衡數據上表現不錯。它使用基于類變量的劃分規則去創建分類樹,因此可以強制地將不同類別的樣本分開。

7. sklearn參數

LogisticRegressionttps

轉載于:https://www.cnblogs.com/robindong/p/11329118.html

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的二、逻辑回归算法梳理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。