线性回归的概念
文章目錄
- 1. 前言
- 2. 什么是回歸
- 3. 什么是線性
- 4. 什么是線性回歸
- 5. 百度百科+維基百科
- 6. 一元線性回歸
- 7. 損失函數(shù)
- 8. 梯度下降
------【機器學習第1天:線性回歸(代碼篇)】------
1. 前言
在上篇文章(線性回歸-代碼篇)中我們實現(xiàn)了用線性歸回模型預測鳶尾花的花瓣寬度,上一篇更側重代碼的實現(xiàn)。在這篇文章中,我們會把重心放到理論知識上面。
2. 什么是回歸
回歸的目的是為了預測,比如上一篇文章中通過花瓣長度預測花瓣寬度
回歸之所以能預測是因為它通過大量的花瓣長度與寬度數(shù)據(jù),“弄懂了”花瓣長度與寬度之間的線性關系,在這個基礎之上就可以通過花瓣長度預測花瓣寬度了。
3. 什么是線性
線性就是關系可以用線性方程來表示,通過一個或多個變量來表示另外一個變量。
通俗的說符合“越…,越…”這種說法的可能就是線性關系,比如
- “房子”越大,“租金”就越高
- “漢堡”買的越多,花的“錢”就越多
- 杯子里的“水”越多,“重量”就越大
但是也并非所有“越…,越…”都是線性的,比如“彈簧的彈力與位移的關系”,
4. 什么是線性回歸
通過兩個或多個變量之間的線性關系來預測結果。
通過鳶尾花的花瓣長度與寬度的線性關系來預測花瓣寬度,通過杯子里水的體積就可以知道(預測)水的重量
5. 百度百科+維基百科
百度百科:
線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,運用十分廣泛。其表達形式為y = w’x+e,e為誤差服從均值為0的正態(tài)分布。
回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
維基百科:
在統(tǒng)計學中,線性回歸是一種線性方法,用于建模標量響應(或因變量)與一個或多個解釋變量(或獨立變量)之間的關系。一個解釋變量的情況稱為簡單線性回歸。對于多個解釋變量,該過程稱為多元線性回歸。該術語不同于多元線性回歸,其中預測了多個相關因變量,而不是單個標量變量。
6. 一元線性回歸
一個簡單的監(jiān)督學習任務可以表示為,給定N個兩兩數(shù)據(jù)對,使用某種機器學習模型對其進行建模,得到一個模型。X為特征(feature),Y為真實值(label)。
例如,花瓣長度為特征(X),花瓣寬度為真實值(Y)。可以比較直觀的看出花瓣寬度與花瓣寬度存在一個線性關系,針對這個數(shù)據(jù)集,可以使用一個最簡單的機器學習模型——一元線性回歸。
一個元一次方程,對的。我們只需要給模型喂數(shù)據(jù),然后通過一系列計算得到參數(shù)θ,隨即就可以通過X的值推算出Y的值,即通過鳶尾花的花瓣長度推斷出花瓣寬度。
那么問題來了,當我們選擇不同的θ值時,會得到不同直線。那么如何選擇θ的值使得我們得到的直線更好的擬合數(shù)據(jù)呢?
7. 損失函數(shù)
為了解決這個問題,機器學習中引入了損失函數(shù)(loss function)這個概念,損失函數(shù)又稱為代價函數(shù)(cost function)它計算用于模型預測值?和真實值y之間的差異程度。損失函數(shù)的值越大,模型越差。
在線性回歸中,損失函數(shù)最常用的計算方法是均方誤差(Mean squared error)計算法,具體形式為:
- m:訓練樣本的個數(shù);
- hθ(x):用參數(shù)θ和x預測出來的y值;
- i:第i個樣本
接下來就需要通過調整θ來尋找J的最小值。
8. 梯度下降
如何調整函數(shù)的參數(shù)使擬合程度達到最佳(即尋找J的最小值)呢?
人工手動調試θ是肯定不行的太耗時間,而且結果不一定讓我們滿意。這時引入了梯度下降的概念找出J的最小值。
梯度下降原理:將函數(shù)比作一座山,我們站在某個山坡上,往四周看,從哪個方向向下走一小步,能夠下降的最快。
這里僅僅提出梯度下降這個概念,到后面我再展開將,貪多嚼不爛,慢慢來走得更快。
(文中部分圖片來源于網(wǎng)絡,侵刪。)
如有錯誤歡迎指教,有問題的也可以加入QQ群(1149530473)向我提問,關注微信公眾號(明天依舊可好)和我同步學習。
總結
- 上一篇: 线性回归实例-鸢尾花数据集
- 下一篇: Numpy中的array