回归分析---线性回归原理和Python实现
2019獨角獸企業重金招聘Python工程師標準>>>
本文主要運用Python進行簡單的線性回歸,首先是介紹了線性回歸的基本理論,然后是運用一些網絡爬蟲數據進行回歸分析。- 1
- 2
一、線性回歸的理論
1)線性回歸的基本概念
線性回歸是一種有監督的學習算法,它介紹的自變量的和因變量的之間的線性的相關關系,分為一元線性回歸和多元的線性回歸。一元線性回歸是一個自變量和一個因變量間的回歸,可以看成是多遠線性回歸的特例。線性回歸可以用來預測和分類,從回歸方程可以看出自變量和因變量的相互影響關系。?
線性回歸模型如下:
對于線性回歸的模型假定如下:?
(1) 誤差項的均值為0,且誤差項與解釋變量之間線性無關
(2) 誤差項是獨立同分布的,即每個誤差項之間相互獨立且每個誤差項的方差是相等的。?
(3) 解釋變量之間線性無關?
(4) 正態性假設,即誤差項是服從正態分布的?
以上的假設是建立回歸模型的基本條件,所以對于回歸結果要進行一一驗證,如果不滿足假定,就要進行相關的修正。
2) 模型的參數求解
(1)矩估計?
一般是通過樣本矩來估計總體的參數,常見是樣本的一階原點矩來估計總體的均值,二階中心矩來估計總體的方差。?
(2)最小二乘估計?
一般最小二乘估計是適用于因變量是連續型的變量,最常用的是普通最小二乘法( Ordinary Least Square,OLS),它的原理是所選擇的回歸模型應該使所有觀察值的殘差平方和達到最小。預測值用 表示,對應的實際值 ,殘差平方和 ,最小二乘估計是求得參數的值,使得L最小。對于線性回歸求得的參數值是唯一的。?
(3)極大似然估計?
極大似然估計是基于概率的思想,它要求樣本的概率分布是已知的,參數估計的值是使得大量樣本發生的概率最大,用似然函數來度量,似然函數是各個樣本的密度函數的乘積,為方便求解對其求對數,加負號求解極小值,得到參數的估計結果。
3)模型的優缺點
優點:結果易于理解,計算上不復雜?
缺點:對于非線性的數據擬合不好
二、用Python實現線性回歸的小例子
數據來源于網絡爬蟲,武漢市商品房價格為因變量和幾個相關關鍵詞的百度指數的搜索量為自變量。?
由于本文的自變量有98個,首先進行自變量的選擇,先是通過相關系數矩陣篩選掉不相關的變量,根據Pearson相關系數矩陣進行變量的選取,一般選取相關系數的值大于0.3的變量進行回歸分析,由于本文的變量較多,先進行手動篩選然后利用相關系數進行選取,本文選取相關系數大于0.55的變量進行回歸分析。
經過相關系數的分析選取8個變量進行下一步的分析,分析的Python代碼如下:
# -*- coding: utf-8 -*- #### Required Packages import sys reload(sys) sys.setdefaultencoding('utf-8') import matplotlib.pyplot as plt import numpy as np import pandas as pd import statsmodels.api as sm data = pd.read_csv('Hdata.csv') print data dataset = np.array(data) ######相關性分析 X = dataset[:,1:98] y = dataset[:,0] cor = np.corrcoef(dataset,rowvar=0)[:,0] ######輸出相關矩陣的第一列 print cor #######篩選后的數據讀取 data1 = pd.read_csv('H1data.csv') dataset1 = np.array(data) ######篩選后的變量###### X1 = dataset1[:,1:8] Y1 = dataset1[:,0] est = sm.OLS(Y1,X1).fit() print est.summary()- 貼出線性回歸的結果如下:
從回歸分析的結果可以看出來,模型的擬合優度R-squared=0.978,說明模型的擬合效果很好,據其大小對擬合效果的優劣性進行判定。對模型整體的顯著性可以通過F統計量來看,結果顯示的F統計量對應的P值顯著小于0.05(0.05是顯著性水平,也可以選取0.01),說明模型整體是顯著的,它的顯著性說明被解釋變量能不能由這些解釋變量進行解釋,F檢驗是對整體的檢驗,F檢驗的通過不代表每一個解釋變量是顯著的。對每一個變量的顯著性要看t檢驗統計量的值,t檢驗統計量對應的P值小于0.05(0.01或者0.1也行,具體看情況分析,一般選取0.05)視為是顯著的,從結果可以看出,X6和X7的變量的p是大于0.05的,也就是這兩個變量對被解釋變量的影響是不顯著的要剔除。但是如果你只是關心預測的問題那么可以不剔除。但是如果有研究解釋變量對被解釋變量的影響的程度的,要做進一步的研究。接下來看DW的值,DW的值為1.748,說明模型不存在自相關性??碕B檢驗統計量的值,JB檢驗統計量是對正態性的假設進行檢驗的,JB的值對應的p值為0.951顯著大于0.05,可以認為模型滿足正態性的假設的。對于參數的實際意義本文就不做解釋了。?
對于DW值判斷相關性的依據如下:?
DW=0時,殘差序列存在完全正自相關,?
DW=(0,2)時,殘差序列存在正自相關,?
DW=2時,殘差序列無自相關,?
DW=(2,4)時,殘差序列存在負自相關,?
DW=4時,殘差序列存在完全負自相關。?
對于建立模型的一般步驟簡單描述如下:?
(1) 根據數據的表現形式選取合適的模型?
(2) 對選取的模型選取適用的參數估計方法?
(3) 對參數的結果進行檢驗?
(4) 對結果進行解釋
參考
相關分析?
https://sanwen8.cn/p/3cbCi2d.html
轉載于:https://my.oschina.net/u/2245781/blog/1820222
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的回归分析---线性回归原理和Python实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神策开发流程
- 下一篇: 迎合人工智能时代 码教授开设Python