回归算法分类,常用回归算法解析
回歸算法分類,常用回歸算法解析
回歸是數學建模、分類和預測中最古老但功能非常強大的工具之一。回歸在工程、物理學、生物學、金融、社會科學等各個領域都有應用,是數據科學家常用的基本工具。
回歸通常是機器學習中使用的第一個算法。通過學習因變量和自變量之間的關系實現對數據的預測。例如,對房價估計時,需要確定房屋面積(自變量)與其價格(因變量)之間的關系,可以利用這一關系來預測給定面積的房屋的價格。可以有多個影響因變量的自變量。
因此,回歸有兩個重要組成部分:自變量和因變量之間的關系,以及不同自變量對因變量影響的強度。
以下是幾種常用的回歸方法:
- 線性回歸:使用最廣泛的建模技術之一。已存在 200 多年,已經從幾乎所有可能的角度進行了研究。線性回歸假定輸入變量(X)和單個輸出變量(Y)之間呈線性關系。它旨在找到預測值 Y 的線性方程:
其中,X=(x1,x2,…,xn) 為 n 個輸入變量,W=(w1,w2,…,wn) 為線性系數,b 是偏置項。目標是找到系數 W 的最佳估計,使得預測值 Y 的誤差最小。使用最小二乘法估計線性系數 W,即使預測值 (Yhat) 與觀測值 (Y) 之間的差的平方和最小。
因此,這里盡量最小化損失函數:
其中,需要對所有訓練樣本的誤差求和。根據輸入變量 X 的數量和類型,可劃分出多種線性回歸類型:簡單線性回歸(一個輸入變量,一個輸出變量),多元線性回歸(多個輸入變量,一個輸出變量),多變量線性回歸(多個輸入變量,多個輸出變量)。
更多線性回歸的相關內容,可參考https://en.wikipedia.org/wiki/Linear_regression。
2. 邏輯回歸:用來確定一個事件的概率。通常來說,事件可被表示為類別因變量。事件的概率用 logit 函數(Sigmoid 函數)表示:
現在的目標是估計權重 W=(w1,w2,…,wn) 和偏置項 b。在邏輯回歸中,使用最大似然估計量或隨機梯度下降來估計系數。損失函數通常被定義為交叉熵項:
邏輯回歸用于分類問題,例如,對于給定的醫療數據,可以使用邏輯回歸判斷一個人是否患有癌癥。如果輸出類別變量具有兩個或更多個層級,則可以使用多項式邏輯回歸。另一種用于兩個或更多輸出變量的常見技術是 OneVsAll。對于多類型邏輯回歸,交叉熵損失函數被修改為:
其中,K 是類別總數。更多邏輯回歸的相關內容,可參考https://en.wikipedia.org/wiki/Logistic_regression。
3. 正則化:當有大量的輸入特征時,需要正則化來確保預測模型不會 太復雜。正則化可以幫助防止數據過擬合。它也可以用來獲得一個凸損失函數。有兩種類型的正則化——L1 和 L2 正則化,其描述如下:
? 當數據高度共線時,L1 正則化也可以工作。在 L1 正則化中,與所有系數的絕對值的和相關的附加懲罰項被添加到損失函數中。L1 正則化的正則化懲罰項如下:
? L2 正則化提供了稀疏的解決方案。當輸入特征的數量非常大時,非常有用。在這種情況下,懲罰項是所有系數的平方之和:
其中,λ是正則化參數。
總結
以上是生活随笔為你收集整理的回归算法分类,常用回归算法解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorFlow常用Python扩展
- 下一篇: TensorFlow损失函数