数学建模:线性回归模型
數學建模:線性回歸模型
1.多重線性回歸模型
1.1 引入
線性回歸分類
- 簡單線性回歸(一個自變量)
- 多重線性回歸(多個自變量)
線性回歸的前提條件:
- 線性(散點圖,散點圖矩陣)
- 獨立性
- 正態性(回歸分析過程中可以確定)
- 方差齊性(回歸分析過程中可以確定):建模中存在的誤差
兩個變量:X和Y
例1:人體的身高和體重
X:人體的身高
Y:人體的體重
身高X大時,體重Y也會傾向于增大,但是X不能嚴格地決定Y
1.2相關關系
相關關系:自變量的取值一定時,因變量的取值帶有一定的隨機性的兩個變量之間的關系。
相關關系是一種非確定關系。對具有相關關系的兩個變量進行統計分析的方法稱為回歸分析。
1.3經驗回歸方程
X:自變量或者預報變量
Y:因變量或者響應變量
Y{X能夠決定的部分f(x)其他未考慮的因素e:誤差Y\begin{cases} X能夠決定的部分f(x)\\ 其他未考慮的因素e:誤差 \end{cases} Y{X能夠決定的部分f(x)其他未考慮的因素e:誤差?
? 則得到下面的模型:
Y=f(x)+e,E(e)=0特別的,當f(X)=β0+β1X時是線性函數β0和β1都稱作回歸系數Y = f(x) + e,E(e) = 0\\ 特別的,當f(X) = \beta_0+\beta_1X時是線性函數\\ \beta_0和\beta_1都稱作回歸系數 Y=f(x)+e,E(e)=0特別的,當f(X)=β0?+β1?X時是線性函數β0?和β1?都稱作回歸系數
- 第一步:確定模型
- 第二步:觀測模型
于是有n組觀測值(xi , yi ),如果Y與X 滿足回歸系數時,則(xi , yi )滿足:
yi=β0+β1xi+ei,i=1,2,...,ny_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi?=β0?+β1?xi?+ei?,i=1,2,...,n
-
第三步:確定未知參數值
根據第二步得到的方程組,應用用統計方法,可以得到β0\beta_0β0?和β1\beta_1β1?的估計值β^0\hat\beta_0β^?0?和β^1\hat\beta_1β^?1?
-
第四步:求得經驗方程
將估計值β^0\hat\beta_0β^?0?和β^1\hat\beta_1β^?1?帶入線性回歸方程,略去誤差項:
Y=β^0+β^1XY = \hat\beta_0+\hat\beta_1X Y=β^?0?+β^?1?X
稱為經驗回歸方程
1.4多元線性模型
多元線性回歸的一般形式:
Y=β0+β1x+...++βp?1x+eiY = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0?+β1?x+...++βp?1?x+ei?
同樣β0\beta_0β0?為常數項,$\beta_1,…,\beta_{p-1} 為回歸系數,為回歸系數,為回歸系數,e$為隨機誤差.
-
觀測數據
多元線性模型就是有多個未知數β\betaβ
y=[y1y2?yn],X=[1x11?x1,p?11x21?x2,p?1????1xn1?xn,p?1],β=[β0β1?βp?1],e=[e1e2?en]y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=??????y1?y2??yn????????,X=??????11?1?x11?x21??xn1???????x1,p?1?x2,p?1??xn,p?1????????,β=??????β0?β1??βp?1????????,e=??????e1?e2??en???????? -
確定回歸系數
-
求經驗回歸方程
設β^=(β^0,β^1,?,β^p?1)′\hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})'β^?=(β^?0?,β^?1?,?,β^?p?1?)′為β\betaβ的一種估計,則經驗方程是:
Y=β^0+β^1X1+?+β^p?1Xp?1Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^?0?+β^?1?X1?+?+β^?p?1?Xp?1?
1.5 非線性模型
非線性模型經過適當變換,轉換為線性模型:比如兩邊取對數
ln?Qt=ln?a+bln?Lt+cln?Kt\ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt?=lna+blnLt?+clnKt?
令
yt=ln?Qt;xt1=ln?Lt,β0=ln?a,β1=b,β2=cy_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt?=lnQt?;xt1?=lnLt?,β0?=lna,β1?=b,β2?=c
加上誤差項即是線性關系
2.參數估計(最小二乘法)
在高等數學中有最小二乘法的介紹。簡單地說就是要通過確定一系列的系數β\betaβ,使所有情況下的誤差最小,即:
e=∣y?Xβ∣e = |y-X\beta| e=∣y?Xβ∣
的值最小。由于絕對值不好處理,這里轉化成平方形式:
e=(y?Xβ)2e = (y-X\beta)^2 e=(y?Xβ)2
上式展開,對β\betaβ求偏導,使其為0,得到線性方程組,解出βi\beta_iβi?即可,這一組β\betaβ即是估計出的參數值。即是通過這一步最終得到了經驗方程:
Y^=β^0+β^1X1+?+β^p?1Xp?1\hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^?0?+β^?1?X1?+?+β^?p?1?Xp?1?
上述方程還需要進一步做統計分析,來確定是否, 描述了因變量與自變量的真實關系。
另外,進行線性回歸之前,為了消除量綱等因素的影響,我們通常會對數據進行預處理。預處理有
- 中心化
- 標準化
3.回歸方程假設檢驗
但是經驗回歸方程是否真正刻畫了因變量與自 變量之間的關系?——回歸方程的顯著性檢驗
因變量和所有自變量之間是否存在顯著的關系?——回歸系數的顯著性檢驗
異常點檢驗
3.1回歸方程的顯著性檢驗
正態線性回歸模型:
yi=β^0+β^1xi1+?+β^p?1xi,p?1+eiei——N(0,σ2),i=1,?,ny_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi?=β^?0?+β^?1?xi1?+?+β^?p?1?xi,p?1?+ei?ei?——N(0,σ2),i=1,?,n
經驗方程是否正確刻畫因變量與自變量之間的關系需要進行回歸方程的顯著性檢驗:
假設檢驗:所有回歸系數都為0,即H:β1=β2=,...,=βp?1=0H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0H:β1?=β2?=,...,=βp?1?=0
拒絕原假設:至少有一個βi\beta_iβi?不等于0
接受原假設:所有的βi\beta_iβi?都等于0,相對誤差而言,所有自變量對因變量Y 的影響是不重要的。
-
顯著性檢驗
設m=p?1m = p-1m=p?1,檢驗假設H:β1=?=βp?1=0\beta_1 = \cdots=\beta_{p-1} = 0β1?=?=βp?1?=0的統計量為:
F回=SS回/p?1RSS/n?pF_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F回?=RSS/n?pSS回?/p?1?
當原假設成立時,F回F_回F回?~Fp?1,n?pF_{p-1,n-p}Fp?1,n?p?對于某一置信度α\alphaα,F回>Fp?1,n?p(α)F_回>F_{p-1,n-p}(\alpha)F回?>Fp?1,n?p?(α)時,拒絕原假設,否則就接受H
-
回歸系數的顯著性檢驗
-
異常點檢驗
4.衡量多重回歸模型優劣的標準
4.1判定系數
SST=SSE+SSR{SST=∑i=1n(yi?y ̄)2SSE=∑i=1n(yi?y^i)2SSR=∑i=1n(y^i?y ̄)2SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSR??????????????SST=i=1∑n?(yi??y?)2SSE=i=1∑n?(yi??y^?i?)2SSR=i=1∑n?(y^?i??y?)2?
另外我們定義了R2R^2R2
R2=SSRSST,0≤R2≤1R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR?,0≤R2≤1
R2R^2R2越接近1,表示X和Y有較大的相依關系
5.回歸自變量的選擇
6.多重復共線性判斷
一些大型線性回歸問題(自變量較多),最小二乘估計有時表現不理想 :
- 有些回歸系數的絕對值異常大
- 回歸系數的符號與實際意義相違背
復共線性:回歸自變量之間存在著近似線性關系。
復共線性嚴重程度的判斷
①方陣X′XX'XX′X的條件數:最大特征值與最小特征值的比值
k=λ1λpk=\frac{\lambda_1}{\lambda_p} k=λp?λ1??
有下面的判斷標準:
②方差膨脹因子
方差膨脹因子 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫, 𝐕𝐈𝐅 : 𝑽𝑰𝑭越大,表示共線性越嚴重。 𝑽𝑰𝑭一般不應該大于𝟓, 當𝑽𝑰𝑭>𝟏𝟎時,提示有嚴重的多重共線性存在
- 解決方案
(1) 增大樣本含量,能部分解決復共線性問題。
(2) 把多種自變量篩選的方法結合起來組成擬合模型。建立一個 “最優”的逐步回歸方程,但同時丟失一部分可利用的信息
(3) 從專業知識出發進行判斷,去除專業上認為次要的,或者是 缺失值比較多、測量誤差較大的共線性因子。
(4) 進行主成分分析,提取公因子代替原變量進行回歸分析。
7.殘差分析和回歸診斷
7.1殘差分析
目的:
- 線性假設的檢驗
- 所有水平的x的常數方差的檢驗
- 正態分布的檢驗
殘差圖分析
- 通過殘差圖判斷正態性
殘差:e^=y?Xb^\hat e = y-X\hat be^=y?Xb^,其中將$\hat e 稱為殘差;稱為殘差;稱為殘差;\hat y = X\hat b,,,\hat y_i$稱為擬合值。
以殘差為縱坐標,以任何其他的量為橫坐標的散點圖,稱為殘差圖。
這里以擬合值y^i\hat y_iy^?i?為橫軸,rir_iri?為縱軸的殘差圖,平面上的點應該落在寬度為4的水平帶?2≤ri≤2-2≤r_i≤2?2≤ri?≤2的區域內,且不呈任何趨勢。
,其中將$\hat e 稱為殘差;稱為殘差;稱為殘差;\hat y = X\hat b,,,\hat y_i$稱為擬合值。
以殘差為縱坐標,以任何其他的量為橫坐標的散點圖,稱為殘差圖。
這里以擬合值y^i\hat y_iy^?i?為橫軸,rir_iri?為縱軸的殘差圖,平面上的點應該落在寬度為4的水平帶?2≤ri≤2-2≤r_i≤2?2≤ri?≤2的區域內,且不呈任何趨勢。
[外鏈圖片轉存中…(img-TaQX83rE-1627610395779)]
[外鏈圖片轉存中…(img-8Xf0EFkx-1627610395781)]
總結
以上是生活随笔為你收集整理的数学建模:线性回归模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于-编码进阶
- 下一篇: floquet端口x极化入射波_hfss