数据挖掘-回归分析
回歸分析
回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器,自變量數量可以是單個也可以是多個)之間的關系。
這種技術通常用于預測分析,時間序列模型以及發現變量之間的因果關系。
例如,司機的魯莽駕駛與道路交通事故數量之間的關系,最好的研究方法就是回歸。
?
回歸分析技術區別
回歸分析的技術區別是自變量的個數,因變量的類型以及回歸線的形狀。
?
?
回歸分析技術
1.Linear?Regression線性回歸
類似于一元方程擬合直線使用最小二乘法,對于觀測數據,它通過最小化每個數據點到線的垂直偏差平方和來計算最佳擬合線。因為在相加時,偏差先平方,所以正值和負值沒有抵消。
???? 特點:對異常值敏感,常采用向前選擇法、向后剔除法和逐步篩選法選擇最重要的自變量。
?
2.Logistic?Regression邏輯回歸
邏輯回歸是一個二分類問題。預測值y只有0和1兩個取值(正類和負類),?如果我們忽略二分類問題中y的取值是一個離散的取值(0或1),我們繼續使用線性回歸來預測y的取值。這樣做會導致y的取值并不為0或1。邏輯回歸使用一個函數來歸一化y值,使y的取值在區間(0,1)內,這個函數稱為Logistic函數(logistic function),也稱為Sigmoid函數(sigmoid function)。在進行樣本估計是使用最大似然估計進行擬合,但是在樣本數量極少的情況下,極大似然估計的效果比普通的最小二乘法差。
???? 關于邏輯回歸的公式和一般線性回歸的關系推導可以參閱 邏輯回歸
?
3.Polynomial?Regression多項式回歸
自變量指數大于1的回歸方程就是多項式回歸方程。
4.Stepwise?Regression逐步回歸
參考:http://www.advancedtechnic.com/ud/Stepwise%20Regression%20Analysis.htm
?
嶺回歸
變量間存在共線性是,最小二乘回歸得到的系數不穩定,方差很大,這是因為系數矩陣x與它的轉置矩陣相乘得到的矩陣不能求逆,
嶺回歸是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價,獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的耐受性遠遠強于最小二乘法。根據高斯馬爾科夫定力,多重相關性并不影響最小二乘法估計量的無偏性和最小方差性,但是,雖然最小二乘估計量在所有線性估計量中是方差最小的,但是這個方差都不一定小,而實際上可以找到一個有偏估計量,這個估計量雖然有較小的偏差,但它的精度卻能夠大大高于無偏的估計量。嶺回歸分析就是根據這個原理,通過在正規方程中引入有偏常熟二求的回歸估計量的。
?
套索回歸
?它類似于嶺回歸,Lasso?(Least?Absolute?Shrinkage?and?Selection?Operator)也會懲罰回歸系數的絕對值大小。此外,它能夠減少變化程度并提高線性回歸模型的精度。
?
7.ElasticNet回歸
ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練并且L2優先作為正則化矩陣。當有多個相關的特征時,ElasticNet是很有用的。Lasso?會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。
?
轉載于:https://www.cnblogs.com/x739400043/p/5973538.html
總結