日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习面试——逻辑回归和线性回归

發布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习面试——逻辑回归和线性回归 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、什么是廣義線性模型(generalize linear model)?

普通線性回歸模型是假設X為自變量,Y為因變量,當X是一維的,y是一維的,共進行n次觀測,則

其中,w是待估計的參數,稱為回歸系數,b是隨機誤差(統計學相關書籍會寫),服從正態分布,稱該模型為一元線性回歸。當X為多維時,y是一維,稱模型是多元線性回歸,公式為

因為b是服從正態分布的,重要假設:因變量也服從正態分布。

廣義線性模型是做了兩點補充,一是因變量不一定是服從正態分布,而是推廣到一個指數分布族(包含正態分布、二項分布、泊松分布等);二是引入聯接函數g,g滿足單調,可導,自變量和因變量通過聯接函數進行關聯。常見聯接函數有對數函數、冪函數,平方根等。

Logits 回歸就是廣義線性模型,隨機誤差項服從二項分布。

2、介紹LR(線性回歸),原理推導

線性回歸的推導通常有兩種方式:正規方程求解,梯度下降法

線性模型:

均方誤差是求解線性回歸的評估指標,則損失函數為均方損失,公式為

求解偏導數:

最終化簡為

局部加權線性回歸:為解決欠擬合問題,通過核方法進行局部加權。

當特征比樣本數量多時,輸入數據X矩陣的逆可能不存在,因此引入正則化。

Lasso回歸:引入L1正則化項,L1比L2更稀疏,目標函數為

Ridge回歸:引入L2正則化項

3、介紹LR(邏輯回歸),原理推導

概念:

幾率:是指一個事件發生的概率和該事件不發生的概率比值。

線性模型是可以進行回歸學習的,常見的模型是線性回歸,但是如果進行分類任務呢?找一個單調可微函數將分類任務的真實標記y與線性回歸模型的預測值聯系起來??紤]到二分類,其輸出標記是[0,1],可以將線性模型的預測值轉換為0或1,首先考慮單位階躍函數

?但是單位階躍函數不連續,可以考慮換一個近似單位階躍函數的替代函數,并單調可微,則考慮對數幾率函數(sigmoid函數),將預測值轉換為接近0,1的值

經過函數變形,可得:

稱為幾率,反映了x作為正例的相對可能性,為對數幾率(logit),在用線性回歸模型的預測結果去逼近 真實標記的對數幾率,因此,其對應的模型稱為"對數幾率回歸" (logistic regression ,亦稱 邏輯回歸) 。

因為y只取0,1,則條件概率分布如下,假設=h(z),則=1-h(z),可以通過極大似然估計來求解w,b。

似然函數為:,其中,,,解釋z是可以轉換為,將b值加入到矩陣中,一下計算

對數化,求得對數似然函數,問題變成了以對數似然函數為目標函數的最優化問題:。

對數似然函數進行求偏導(鏈式法則),

組合為:

優化策略:梯度下降法、牛頓法

每次迭代對參數進行更新:

梯度下降法(一階導信息):,是步長。

牛頓法(二階到信息):

4、常見優化算法?

梯度下降法:分為隨機梯度下降,批量梯度下降,mini-batch梯度下降

隨機梯度下降:局部最優解,隨機選取樣本進行優化,收斂速度慢,不支持并行

批量梯度下降:一次迭代,對所有樣本進行計算,當函數時凸函數時,容易求得最小值,但是收斂速度較慢。

mini-batch梯度下降:是隨機梯度下降和批量梯度下降的折中,

牛頓法:在迭代時,需要計算Hessian矩陣,當維度較高時,計算Hessian矩陣較困難。

擬牛頓法:不用二階偏導數而構造出可以近似海塞矩陣(或海塞矩陣的逆)的正定對稱陣。

5、介紹一下L0,L1,L2

模型選擇的典型方法是正則化,正則化是結構風險最小化策略的實現,在經驗風險后邊加一個正則化項或罰項。正則化的作用就是選擇經驗風險與模型復雜度同時較小的模型。常見的正則化方式有:

L0:是指向量中非0的元素的個數

L1:先驗服從拉普拉斯分布,是向量各個元素的絕對值之和,可以使得學習得參數具有稀疏性。

L2:先驗服從高斯分布,是向量各個元素的平方和的1/2方,防止模型過擬合。

6、邏輯回歸和線性回歸的區別和聯系?

聯系:都是線性模型,在求解超參數時,都可以使用梯度下降等優化方法

區別:

  • 邏輯回歸是解決分類問題,線性回歸解決回歸問題,即邏輯回歸的因變量是離散值,線性回歸的因變量是連續值
  • 邏輯回歸是用極大似然估計建模(交叉熵損失函數),線性回歸是最小二乘法(均方誤差)
  • 邏輯回歸是假設y服從0-1分布,線性回歸假設y服從正態分布

7、邏輯回歸和SVM對比

聯系:都是線性模型

區別:

LR的損失函數是交叉熵損失函數,SVM是合頁損失函數(hinge loss)

SVM只考慮支持向量,需要樣本數較少。

8、LR的優缺點

?優點: 1)速度快。 2)簡單易于理解,直接看到各個特征的權重。 3)能容易地更新模型吸收新的數據。 4)如果想要一個概率框架,動態調整分類閥值。

缺點: 特征處理復雜。需要歸一化和較多的特征工程

4、比較LR和GBDT?

(1) LR是一種線性模型,而GBDT是一種非線性的樹模型,因此通常為了增強模型的非線性表達能力,使用LR模型之前會有非常繁重的特征工程任務;

(2) LR是單模,而GBDT是集成模型,通常來說,在數據低噪的情況下,GBDT的效果都會優于LR;

(3) LR采用梯度下降方法進行訓練,需要對特征進行歸一化操作,而GBDT在訓練的過程中基于gini系數選擇特征,計算最優的特征值切分點,可以不用做特征歸一化。

總結

以上是生活随笔為你收集整理的机器学习面试——逻辑回归和线性回归的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。