matlab 最小二乘法拟合_计量与论文串讲:最小二乘法
點(diǎn)
為什么要用R
計(jì)量經(jīng)濟(jì)學(xué)作為經(jīng)濟(jì)大類下一門非常實(shí)用的學(xué)科有很強(qiáng)的實(shí)踐意義。盡管內(nèi)容龐雜但基本的指導(dǎo)思想?yún)s很簡單,因此通過一門統(tǒng)計(jì)編程語言學(xué)習(xí)、掌握計(jì)量經(jīng)濟(jì)學(xué)有很大的益處。
目前,市面上已經(jīng)有多款統(tǒng)計(jì)編程語言和統(tǒng)計(jì)軟件,實(shí)證分析領(lǐng)域中STATA始終坐穩(wěn)第一把交椅,相關(guān)的書籍與課程也汗牛充棟。(陳強(qiáng) 2015)(趙西亮 2017)但STATA畢竟是一個(gè)在學(xué)術(shù)圈范圍內(nèi)比較熱門的商業(yè)軟件,在未來可遷移至工作中的效率便不是很高,同時(shí)STATA在處理一些復(fù)雜的數(shù)據(jù)或時(shí)間序列時(shí),軟件的限制也會(huì)導(dǎo)致工作效率的下降。而R語言在此類問題上便有較大的優(yōu)勢(shì),在處理高頻時(shí)間序列時(shí)其效率便遠(yuǎn)高于STATA,對(duì)于大數(shù)據(jù)操作而言,也不會(huì)受到STATA不同發(fā)行版本的限制。
隨著RStudio的發(fā)布以及Rmarkdown的開發(fā)日趨成熟,利用R進(jìn)行可復(fù)用,甚至整合數(shù)據(jù)操作與文章寫作變成了可能,本文也是利用Rmarkdown完成的教學(xué)參考資料,其數(shù)據(jù)操作與統(tǒng)計(jì)分析皆在Rmarkdown中完成。
考慮到上述的優(yōu)點(diǎn),筆者認(rèn)為利用R語言學(xué)習(xí)計(jì)量經(jīng)濟(jì)學(xué)是一種效率高、回報(bào)高的學(xué)習(xí)過程。本文主要關(guān)注R語言在計(jì)量經(jīng)濟(jì)學(xué)中的應(yīng)用,以及在數(shù)據(jù)挖掘中的應(yīng)用(如果以后想寫的話),因此對(duì)于R語言本身的特性不做系統(tǒng)性展開,但會(huì)在需要的時(shí)候進(jìn)行適當(dāng)?shù)慕忉屌c說明。
回歸:計(jì)量經(jīng)濟(jì)學(xué)的靈魂
我發(fā)現(xiàn)空手道不是掌握那4000個(gè)動(dòng)作就能學(xué)好的。想要學(xué)好它,關(guān)鍵在于你能不能把那些基本動(dòng)作不斷反復(fù)地操練4000遍。
對(duì)于計(jì)量經(jīng)濟(jì)學(xué)而言,這個(gè)“基本動(dòng)作”有兩種普遍的觀點(diǎn)。第一種是由(Angrist and Pischke 2014) 主推的隨機(jī)試驗(yàn)方法, 第二種則是大部分計(jì)量經(jīng)濟(jì)學(xué)教材中采用的,將線性回歸作為計(jì)量經(jīng)濟(jì)學(xué)的基礎(chǔ)。從實(shí)用性的角度來說,線性回歸是非常優(yōu)秀的解釋方案,而隨機(jī)試驗(yàn)與匹配統(tǒng)計(jì)則顯得挖掘的太過深入,不適合作為本文的邏輯起點(diǎn)。
不要問,問就是做個(gè)回歸
為什么線性回歸那么受人喜愛,最主要的原因在于線性回歸的可解釋性是目前為止最直觀,最清晰的。另一方面,線性回歸的解決方案到目前為止也是最清晰、最簡明的方案。不妨考慮勞動(dòng)經(jīng)濟(jì)學(xué)的經(jīng)典案例,即教育水平對(duì)工資的影響(Wooldridge 2016):
在理想狀態(tài)下(即滿足了線性回歸的假設(shè)條件后),系數(shù)\beta_1可以解釋為每增加1年教育,工資的增量。但現(xiàn)實(shí)狀態(tài)下,工資顯然不僅僅受到教育年限的影響,這時(shí)候線性回歸的另一個(gè)優(yōu)勢(shì)就顯現(xiàn)了出來,即線性回歸的系數(shù)\beta_1(在理想狀態(tài)下)代表了在控制了其他因素不變的情況下,對(duì)于工資的影響。其理論推導(dǎo)也很簡單,不妨引入另一個(gè)會(huì)對(duì)工資產(chǎn)生影響的變量,工作年限workingAge,上述方程即變?yōu)?/p>
此時(shí),系數(shù)beta1代表了教育年限的邊際影響,不受到工作年限的影響,即有:
如何估計(jì)線性回歸的系數(shù)?目前最通用、最優(yōu)的方案依然還是最小二乘法(OLS)。(陳強(qiáng) 2015)
牛刀小試,我們做個(gè)回歸
針對(duì)上述討論的內(nèi)容,通過R語言便可以很容易實(shí)現(xiàn)。對(duì)R語言而言,完成一個(gè)統(tǒng)計(jì)回歸一般分為以下3步:
這個(gè)例子中并不涉及清洗數(shù)據(jù),因此只需要導(dǎo)入數(shù)據(jù)即可。
library(haven) #read_dta使用了haven包,因此需要導(dǎo)入haven#導(dǎo)入數(shù)據(jù),數(shù)據(jù)來源為伍德里奇《計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論-現(xiàn)代觀點(diǎn)》中的數(shù)據(jù)集
WAGE1 "WAGE1.DTA",sep = ""))
完成數(shù)據(jù)導(dǎo)入后,由于本節(jié)不涉及清洗數(shù)據(jù),因此直接對(duì)方程進(jìn)行回歸。
wage_LM #回歸方程命令summary(wage_LM) #回歸結(jié)果##
## Call:
## lm(formula = wage ~ educ + exper, data = WAGE1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.5532 -1.9801 -0.7071 1.2030 15.8370
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.39054 0.76657 -4.423 1.18e-05 ***
## educ 0.64427 0.05381 11.974 < 2e-16 ***
## exper 0.07010 0.01098 6.385 3.78e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.257 on 523 degrees of freedom
## Multiple R-squared: 0.2252, Adjusted R-squared: 0.2222
## F-statistic: 75.99 on 2 and 523 DF, p-value: < 2.2e-16
到這一步為止,我們已經(jīng)完成了一次回歸,但有兩個(gè)亟待解決的問題。
第一個(gè)問題很容易解決,可以通過引入其他美化輸出結(jié)果的工具解決。第二個(gè)問題則留到下一節(jié)進(jìn)行分析。
library(stargazer) #引入stargazer包,類似于STATA中的outreg2stargazer(wage_LM, title = "線性回歸結(jié)果",
header = F, type = "latex")
什么是不理想狀態(tài)?
一般來說,不理想狀態(tài)有四種狀態(tài),其中內(nèi)生性由于可以單獨(dú)成冊(cè)、且與最小二乘法無本質(zhì)聯(lián)系故按下不表,其他三個(gè)與最小二乘法密切相關(guān)。這三個(gè)分別是:
共線性
共線性是所有不理想狀態(tài)中影響最低的一個(gè)因素,一般來說,只要變量之間不存在完全的共線性,即對(duì)于變量x1與x2而言,只要x1=a+b x2不嚴(yán)格成立,即可以避免完全共線性的影響。
自相關(guān)
自相關(guān)往往伴隨著兩種情況出現(xiàn)。第一種情況是時(shí)間序列中的自相關(guān),舉例來說,今天的股票價(jià)格變動(dòng)很可能和昨天的股票價(jià)格變動(dòng)有關(guān)系。這種自相關(guān)是時(shí)間序列中要解決的一大問題,一般通過滯后項(xiàng)解決。第二種情況是空間溢出中的自相關(guān),舉例來說,上海地區(qū)的房價(jià)本身就會(huì)存在相關(guān)性。這種自相關(guān)直接導(dǎo)致了空間計(jì)量經(jīng)濟(jì)學(xué)(Spatial Econometrics)的誕生,但也可以通過其他的方式,如增加控制變量解決。一般來說,當(dāng)自相關(guān)出現(xiàn)時(shí)除了上述的兩個(gè)解決方案以外,還可以通過聚類穩(wěn)健標(biāo)準(zhǔn)誤的方法解決。
異方差
異方差的分析在初級(jí)計(jì)量經(jīng)濟(jì)學(xué)中占據(jù)了大量篇幅,之所以如此,是因?yàn)楫惙讲畛霈F(xiàn)會(huì)導(dǎo)致對(duì)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量失效,即導(dǎo)致了后續(xù)置信度的變化。如果單純只是關(guān)心系數(shù),那么異方差并不會(huì)影響結(jié)果,得出的系數(shù)依然無偏估計(jì)量。異方差直觀來說,便是擾動(dòng)項(xiàng)方差不再是一個(gè)常數(shù),而是依賴于i。定性來說,同方差條件下,殘差基本是隨機(jī)的;異方差條件下,殘差則會(huì)出現(xiàn)明顯的函數(shù)特性。
對(duì)于上文回歸的結(jié)果,同樣可以通過作圖的方式定性地看其是否符合同方差假設(shè)。從圖中不難發(fā)現(xiàn),上文回歸的結(jié)果還是存在異方差的情況。
plot(wage_LM, which = 1)對(duì)于異方差的解決則存在多種方法。從理論的角度來看,廣義最小二乘法(GLS)才是BLUE(最優(yōu)線性無偏統(tǒng)計(jì)量)。但從實(shí)操的角度來看,這個(gè)方法可能并不經(jīng)濟(jì)。之所以說其不經(jīng)濟(jì)的原因在于通過最小二乘法獲得的結(jié)果是無偏的,只是其檢驗(yàn)統(tǒng)計(jì)量無效,因此更換統(tǒng)計(jì)檢驗(yàn)量便可以解決該問題。目前,做實(shí)證分析的數(shù)據(jù)往往已經(jīng)有充足的數(shù)據(jù)量,因此直接采用穩(wěn)健標(biāo)準(zhǔn)誤(Eicker 1967)修正統(tǒng)計(jì)量的有效性即可。
經(jīng)典:電力部門的規(guī)模報(bào)酬
每每寫到實(shí)證論文部分,尤其是利用最小二乘法的文章,Nerlove(1961)是一篇完全無法回避的經(jīng)典文章,這篇文章也成為了諸多計(jì)量經(jīng)濟(jì)學(xué)教材中必定錄取的參考文獻(xiàn)。(Nerlove 1963)(Wooldridge 2016)(Hayashi 2000) 這篇文章想要度量的是美國電力供應(yīng)行業(yè)規(guī)模報(bào)酬效應(yīng)(Nerlove 1963),對(duì)應(yīng)的產(chǎn)出范圍又是多少。由于本文十分經(jīng)典,其數(shù)據(jù)集也已經(jīng)成為了公開數(shù)據(jù)集,可以直接在R內(nèi)引用。
psych::describe(nerlove)[,c("n","mean","sd","median","min","max")]| tc | 145 | 12.9760965 | 19.7945767 | 6.7540002 | 0.0820000 | 1.394220e+02 |
| q | 145 | 2133.0827586 | 2931.9421310 | 1109.0000000 | 2.0000000 | 1.671900e+04 |
| pl | 145 | 1.9765517 | 0.2300404 | 2.0000000 | 1.5000000 | 2.300000e+00 |
| pf | 145 | 26.1765517 | 7.8760714 | 26.8999996 | 10.3000002 | 4.280000e+01 |
| pk | 145 | 174.4965517 | 18.2094771 | 170.0000000 | 138.0000000 | 2.330000e+02 |
| lntc | 145 | 1.7246633 | 1.4217234 | 1.9101349 | -2.5010359 | 4.937505e+00 |
| lnq | 145 | 6.5566511 | 1.9127924 | 7.0112138 | 0.6931472 | 9.724301e+00 |
| lnpf | 145 | 3.2088584 | 0.3589002 | 3.2921262 | 2.3321440 | 3.756538e+00 |
| lnpk | 145 | 5.1567768 | 0.1003898 | 5.1357985 | 4.9272537 | 5.451038e+00 |
| lnpl | 145 | 0.6743732 | 0.1197522 | 0.6931472 | 0.4054651 | 8.329091e-01 |
1-10 of 10 rows
數(shù)據(jù)中,tc為總成本,q為產(chǎn)出數(shù)量,pl為勞動(dòng)價(jià)格,pf為燃油價(jià)格,pk為資本價(jià)格。在估計(jì)的過程中,Nerlove從Cobb-Douglas產(chǎn)出函數(shù)開始設(shè)定模型。
模型中,Q代表了i公司的產(chǎn)出,L代表了i公司的勞動(dòng)投入,K代表了i公司的資本投入,F代表了i公司為了發(fā)電投入的燃油。A則代表了不同公司的不可觀察的產(chǎn)出效率。方程 衡量了規(guī)模效應(yīng)。由于電力部門的產(chǎn)出即為需求,因此電力部門的收益最大化即成本最小化,可以概述為以下的優(yōu)化條件:
于是對(duì)于公司i而言,其Cobb-Douglas成本函數(shù)便為:
minLiKiFiTCi=pilLi+pikKi+pifFis.t.AiLiα1Kiα2Fiα3=Qi" role="presentation" style=" box-sizing: border-box; line-height: normal; font-size: 14px; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border-width: 0px; border-style: initial; border-color: initial; display: table-cell !important; width: 10000em !important; text-align: left; ">利用自然對(duì)數(shù)函數(shù)的特征,便可以將上述函數(shù)變?yōu)榫€性函數(shù)。
在設(shè)定了模型之后,便是對(duì)最小二乘法的適用性展開討論。這也是本文之所以作為經(jīng)典論文最主要的原因。
library(lmtest)
library(sandwich)
base_reg print(summary(base_reg))##
## Call:
## lm(formula = lntc ~ lnq + lnpl + lnpk + lnpf, data = nerlove)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.97203 -0.23377 -0.01091 0.16185 1.80985
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.56651 1.77938 -2.004 0.047 *
## lnq 0.72091 0.01743 41.352 < 2e-16 ***
## lnpl 0.45596 0.29980 1.521 0.131
## lnpk -0.21515 0.33983 -0.633 0.528
## lnpf 0.42581 0.10032 4.244 3.97e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3923 on 140 degrees of freedom
## Multiple R-squared: 0.926, Adjusted R-squared: 0.9239
## F-statistic: 437.9 on 4 and 140 DF, p-value: < 2.2e-16
上面是直接回歸得到的結(jié)果,為了檢驗(yàn)是否滿足同方差假設(shè)條件,不妨從圖示入手。從圖中容易發(fā)現(xiàn),殘差項(xiàng)的確無法滿足同方差條件,而是呈現(xiàn)出了二次函數(shù)的狀態(tài)。
plot(base_reg, which = 1)為此,進(jìn)一步考慮采用穩(wěn)健統(tǒng)計(jì)量進(jìn)行處理。容易發(fā)現(xiàn),通過穩(wěn)健統(tǒng)計(jì)量進(jìn)行處理后,估計(jì)的系數(shù)的確沒有變化,而是t統(tǒng)計(jì)量產(chǎn)生了差異。
Nerlove也正是通過對(duì)最小二乘法中高斯馬爾科夫定理成立的五大條件的細(xì)致論述,將他的論文流芳百世。對(duì)于論文作者而言,Nerlove(1963)最重要的啟示是通過產(chǎn)業(yè)或研究的數(shù)據(jù)集的實(shí)際情況對(duì)計(jì)量模型適用性進(jìn)行分析,分析的過程越充分,那么結(jié)果也就越具備說服力,也就可以發(fā)更好的期刊。同樣細(xì)致分析模型的文章還有白重恩(2012)對(duì)遺漏變量的解釋(白重恩, 李宏彬, and 吳斌珍 2012),未來在分析面板數(shù)據(jù)模型的時(shí)候,也會(huì)講到這篇文章。
結(jié)語
本文回顧了計(jì)量經(jīng)濟(jì)學(xué)中最基礎(chǔ)的線性回歸與最小二乘法,并通過Nerlove(1963)的經(jīng)典論文大致闡述了一篇優(yōu)秀的所需要具備的基本條件。通過本文,讀者應(yīng)當(dāng)能夠利用R語言在借助優(yōu)質(zhì)的數(shù)據(jù)集,通過最小二乘法完成一篇相關(guān)的計(jì)量文章復(fù)現(xiàn)。
參考文獻(xiàn)
總結(jié)
以上是生活随笔為你收集整理的matlab 最小二乘法拟合_计量与论文串讲:最小二乘法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 普通的单模光纤和单模光纤跳线是否可以达到
- 下一篇: matlab人脸追踪,求大神帮助我这个菜