python统计分析--3.线性回归四种算法
生活随笔
收集整理的這篇文章主要介紹了
python统计分析--3.线性回归四种算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1. 最小二乘法
- 1.1 最小二乘法
- 1.2 正則化回歸
- 1.3 SGD隨機梯度下降法
- 2. 相關分析
幾種加速方法
statsmodel–>sklearn
ols最小二乘法,運算時間長,處理速度慢,占用內存大
sgd梯度下降法–需要內存小,可以處理大型數據—可以處理過擬合和稀疏數據(0和1)
正則化–占用內存小,可以處理過擬合和稀疏數據
n_jobs=-1 加速處理數據,所有內存來處理數據
批次/在線/mini bactgh加速
Gpu、cpu加速,sklearn不擅長Gpu、cpu加速,深層神經網絡可以進行加速
1. 最小二乘法
1.1 最小二乘法
最小二乘法是最佳估計的常見使用方法
1.2 正則化回歸
在最小二乘法后面加上一個參數,解決出現數據中有稀疏數據和共線性場景(缺點:內存需要大)
1.3 SGD隨機梯度下降法
不需要太多內存,效果會比上面兩種好
實現梯度下降Python代碼
2. 相關分析
導入需要的安裝包,和讀取文件
#導入包 import numpy as np import pandas as pd import statsmodels.formula.api as smf from sklearn import linear_model import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rcParams["font.sans-serif"]=["SimHei"] plt.rcParams["axes.unicode_minus"]=False#使用pandas讀取數據支持xls和xlsx data=pd.read_excel("運動.xlsx") data1=pd.read_excel("運動1.xlsx") data.head(2)- 各種圖形的程序
- 散點圖
數據大多數集中在0.5-1之間
- 熱力圖
看各變量之間的相關性
- 配對散點圖
線性回歸只適合于中間部分線性,兩端不太實用,需要插入一些函數去修正這個參數
線性預測的結果不是很好,預測出人的體重為36.627公斤,與實際值相差很大,需要去修正,插入一些函數
- 筆記
總結
以上是生活随笔為你收集整理的python统计分析--3.线性回归四种算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python统计分析--2.预分析:异常
- 下一篇: python统计分析--4.Logist