GIS应用实例--模型预测、多元回归、空间自相关分析
免費(fèi)數(shù)據(jù)和原報告詳見個人主頁
中國地質(zhì)大學(xué)(武漢)地理信息系統(tǒng)原理課程報告_項(xiàng)目(免費(fèi))-行業(yè)報告文檔類資源-CSDN文庫https://download.csdn.net/download/qq_58010729/85076121
所有數(shù)據(jù)均來源于國家統(tǒng)計局等其他公開網(wǎng)站,僅供研究使用。
?目錄
一、研究方法
1.1移動平滑法
1.2多元回歸分析
1.3最小二乘法回歸
1.4 地理加權(quán)回歸分析
1.5 Moran指數(shù)分析
二、數(shù)據(jù)處理
2.1 數(shù)據(jù)參數(shù)設(shè)計
2.2 空間自相關(guān)
2.3 疫情及其經(jīng)濟(jì)損失的影響因素分析(OLS+GWR)
2.4 疫情及其對各省經(jīng)濟(jì)發(fā)展的總體影響
三、結(jié)論
一、研究方法
1.1移動平滑法
移動平均法是根據(jù)時間序列資料逐漸推移,依次計算包含一定項(xiàng)數(shù)的時序平均數(shù), 以反映長期趨勢的方法。當(dāng)時間序列的數(shù)值由于受周期變動和不規(guī)則變動的影響,起伏較大,不易顯示出發(fā)展趨勢時,可用移動平均法,消除這些因素的影響,分析、預(yù)測序列的長期趨勢。移動平均法有簡單移動平均法,加權(quán)移動平均法,趨勢移動平均法等。
簡單移動平均法的簡述:設(shè)有觀測序列y1,y2,y3,?,yT,取移動平均的項(xiàng)數(shù)N<T。一次簡單移動平均值計算公式為:
當(dāng)預(yù)測目標(biāo)的基本趨勢是在某一水平上下波動時,可用一次簡單移動平均方法建立預(yù)測模型:
其預(yù)測標(biāo)準(zhǔn)誤差為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
近N期序列值的平均值作為未來各期的預(yù)測結(jié)果。一般 N 的取值范圍:5≤N?≤200。當(dāng)歷史序列的基本趨勢變化不大且序列中隨機(jī)變動成分較多時,N的取值應(yīng)較大一些。否則N的取值應(yīng)小一些。在有確定的季節(jié)變動周期的資料中,移動平均的項(xiàng)數(shù)應(yīng)取周期長度。選擇佳 N 值的一個有效方法是,比較若干模型的預(yù)測誤差。預(yù)測標(biāo)準(zhǔn)誤差小者為好。
簡單移動平均法只適合做近期預(yù)測,而且是預(yù)測目標(biāo)的發(fā)展趨勢變化不大的情況。如果目標(biāo)的發(fā)展趨勢存在其它的變化,采用簡單移動平均法就會產(chǎn)生較大的預(yù)測偏差和滯后。即當(dāng)時間序列出現(xiàn)直線增加或減少的變動趨勢時,用簡單移動平均法來預(yù)測就會有滯后偏差。因此,需要進(jìn)行修正,修正的方法就是作二次移動平均,利用移動平均滯后偏差的規(guī)律來建立直線趨勢的預(yù)測模型。這就是趨勢移動平均法。
? ? ? ? ? ? ? ??
在一次移動平均的基礎(chǔ)上再進(jìn)行一次移動平均就是二次移動平均,其計算公式為:
設(shè)時間序列{yt}從某時期開始具有直線趨勢,且認(rèn)為未來時期也按此直線趨勢變化,則可設(shè)此直線趨勢預(yù)測模型為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,t為當(dāng)前時期數(shù);T為由t至預(yù)測期的時期數(shù);at為截距;bt為斜率。兩者又稱為平滑系數(shù)。但在后面實(shí)踐中發(fā)現(xiàn),從各年的預(yù)測來看,效果不太行,所以后來考慮了雙指數(shù)平滑法。
一次指數(shù)平滑可以克服移動平均法的缺點(diǎn)。但又平滑法進(jìn)行預(yù)測,仍存在明顯的滯后偏差。因此,也需要雙指數(shù)平滑來彌補(bǔ)。公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在單指數(shù)平滑法基礎(chǔ)上增加趨勢信息,第二個等式描述趨勢平滑過程,趨勢的未平滑值使當(dāng)前時刻平滑值si減去前一時刻平滑值si-1,再引入?yún)?shù)β對趨勢進(jìn)行一次指數(shù)平滑處理。
表 2-1:平滑預(yù)測比較(以北京市GDP為例)(單位:億元)
| 年份 | 真實(shí)GDP | 一次平滑 | 二次平滑 | 雙指數(shù)平滑 |
| 2001 | 3861.5 | 3861.5 | ||
| 2002 | 4525.7 | 5189.9 | ||
| 2003 | 5267.2 | 5904.345 | ||
| 2004 | 6252.5 | 6806.441 | ||
| 2005 | 7149.8 | 7757.643 | ||
| 2006 | 8387.0 | 5907.283 | 8946.247 | |
| 2007 | 10425.5 | 7001.283 | 10781.69 | |
| 2008 | 11813.1 | 8215.85 | 12547.92 | |
| 2009 | 12900.9 | 9488.133 | 14027.88 | |
| 2010 | 14964.0 | 10940.05 | 15939.83 | |
| 2011 | 17188.8 | 12613.22 | 18195.55 | |
| 2012 | 19024.7 | 14386.17 | 10440.78 | 20365.73 |
| 2013 | 21134.6 | 16171.02 | 11969.07 | 22621.1 |
| 2014 | 22922.6 | 18023.17 | 13603.63 | 24690.22 |
| 2015 | 24779.1 | 20002.87 | 15356.08 | 26664.67 |
| 2016 | 27041.2 | 22015.73 | 17202.03 | 28839.42 |
| 2017 | 29883.0 | 24131.43 | 19121.73 | 31504.23 |
| 2018 | 33106.0 | 26478.32 | 21137.09 | 34688.4 |
| 2019 | 35445.1 | 28863.4 | 23252.49 | 37563.54 |
| 2020 | 36102.6 | 36718.679 | 40060.33 |
這里雙指數(shù)平滑的指數(shù)取0.5,0.3。結(jié)果顯然比兩次平均平滑法的效果好。
不同指數(shù)下的雙指數(shù)平滑法1.2多元回歸分析
用回歸方程定量地刻畫一個應(yīng)變量與多個自變量間的線性依存關(guān)系,稱為多元回歸分析(multiple linear regression),簡稱多元回歸(multiple regression)。
多元回歸分析是多變量分析的基礎(chǔ),也是理解監(jiān)督類分析方法的入口!實(shí)際上大部分學(xué)習(xí)統(tǒng)計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應(yīng)用于實(shí)踐,可能還要真正領(lǐng)會回歸分析的基本思想和一些實(shí)際應(yīng)用手法!
回歸分析的基本思想是:雖然自變量和因變量之間沒有嚴(yán)格的、確定性的函數(shù)關(guān)系,但可以設(shè)法找出最能代表它們之間關(guān)系的數(shù)學(xué)表達(dá)形式。其模型基本表達(dá)式為:
? ? ? ? ??
樣本表達(dá):
? ? ? ? ? ? ? ? ? ? ? ??
矩陣表達(dá):
? ? ? ? ? ? ? ? ? ? ? ?? ? ?
1.3最小二乘法回歸
在所有的回歸方法中,最小二乘法回歸(OLS)最為著名。而且它也是所有空間回歸分析的正確起點(diǎn)。它可以嘗試了解或預(yù)測的變量或過程提供一個全局模型并可創(chuàng)建一個回歸方程來表示該過程。
最小二乘法的主要思想是通過確定未知參數(shù)(通常是一個參數(shù)矩陣),來使得真實(shí)值和預(yù)測值的誤差(也稱殘差)平方和最小,其計算公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
其中yi是真實(shí)值。如下圖所示,就是最小二乘法的一個示例,其中紅色為數(shù)據(jù)點(diǎn),藍(lán)色為最小二乘法求得的最佳解,綠色即為誤差。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
1.4 地理加權(quán)回歸分析
空間數(shù)據(jù)在地理學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境學(xué)、生態(tài)學(xué)以及氣象學(xué)等眾多領(lǐng)域中廣泛存在。根據(jù)Tobler提出的「地理學(xué)第一定律」︰任何事物之間都是空間相關(guān)的,距離越近的事物之間的何怕大)士R2大。因此,不同于傳統(tǒng)的截面數(shù)據(jù),空間數(shù)據(jù)的空間相關(guān)性會導(dǎo)致回歸關(guān)系的空間非平棕性(空同異質(zhì)性)。為了探索空間數(shù)據(jù)的空間非平穩(wěn)性,Brunsdon等(1996)首次提出了地理加權(quán)回歸模型,設(shè)定如下:
其中,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
為空間地理位置函數(shù)。
?根據(jù)Tobler地理學(xué)第一定律,距離越近的事物之間的相關(guān)性越大。故對于一個給定的地理位置
,可以采用局部加權(quán)最小二乘法來估計,即
?其中,是在地理位置處的空間權(quán)重。令
?
則在處的局部最小二乘估計值為
?其中:
? ?由于地理加權(quán)回歸模型中的回歸參數(shù)在每個數(shù)據(jù)采樣點(diǎn)上都是不同的,因此其未知參數(shù)的個數(shù)為n×(P+1),遠(yuǎn)遠(yuǎn)大于觀測個數(shù)n,這樣就不能直接利用參數(shù)回歸估計方法估計其中的未知參數(shù),而一些非參數(shù)光滑方法為擬合該模型提供了一個可行的思路。Foste & Gorr (1986)和Gorr & 0lligsehiaeger ( 1994)利用廣義阻尼負(fù)反饋(generalized damped negative feedback)方法估計未知參數(shù)在各地理位置的值,這種估計方法只是在很直觀的意義上考慮數(shù)據(jù)的空間結(jié)構(gòu),加之估計方法較為復(fù)雜,很難對估計量作深入的統(tǒng)計推斷方面的研究。Brunsdon 等(1996)在局部多項(xiàng)式光滑思想上提出了偏差和方差折衷(Bias-Variance Trade-off)的解題思路:假設(shè)回歸參數(shù)為一連續(xù)表面,位置相鄰的回歸參數(shù)非常相似在估計采樣點(diǎn)i的回歸參數(shù)時,以采樣點(diǎn)i及其鄰域采樣點(diǎn)上的觀測值構(gòu)成局域子樣,建立全局線性回歸模型,然后采用最小二乘方法得到回歸參數(shù)估計Bx(k=0.1,2,…,p)。對于另一個采樣點(diǎn),i+1采用另一個相應(yīng)的局域子樣來估計,以此類推。由于在回歸分析過程中,以其它采樣點(diǎn)上的觀測值來估計i點(diǎn)上的回歸參數(shù)因此得到的i點(diǎn)上的參數(shù)估計不可避免存在偏差,即參數(shù)估計為有偏估計。顯然參與回歸估計的子樣規(guī)模越大,參數(shù)估計的偏差就越大,參與回歸估計的子樣規(guī)模越小,參數(shù)估計的偏差就越小。從降低偏差這一角度考慮因盡量減少子樣規(guī)模,但子樣規(guī)模的減少必然導(dǎo)致回歸參數(shù)估計值的方差增加,精度降低。
1.5 Moran指數(shù)分析
莫蘭指數(shù)分為全局莫蘭指數(shù)(Global Moran's I)和局部莫蘭指數(shù)(Local Moran's I),前者是Patrick Alfred Pierce Moran開發(fā)的空間自相關(guān)的度量;后者是美國亞利桑那州立大學(xué)地理與規(guī)劃學(xué)院院長 Luc Anselin 教授在1995年提出的。
莫蘭指數(shù)是一個有理數(shù),經(jīng)過方差歸一化之后,它的值會被歸一化到 -1.0 與 +1.0 之間。Moran's I大于0時,表示數(shù)據(jù)呈現(xiàn)空間正相關(guān),其值越大空間相關(guān)性越明顯;Moran's I小于0時,表示數(shù)據(jù)呈現(xiàn)空間負(fù)相關(guān),其值越小空間差異越大;Moran's I為0時,空間呈隨機(jī)性。
其定義如下:
通常情況,先做一個地區(qū)的全局I指數(shù),全局指數(shù)只是告訴我們空間是否出現(xiàn)了集聚或異常值,但并沒有告訴我們在哪里出現(xiàn)。換句話說全局Moran'I只回答Yes還是NO;如果全局有自相關(guān)出現(xiàn),接著做局部自相關(guān);局部Moran'I會告訴我們哪里出現(xiàn)了異常值或者哪里出現(xiàn)了集聚,是一個回答Where的工具。
二、數(shù)據(jù)處理
2.1 數(shù)據(jù)參數(shù)設(shè)計
? ? ? ??
2.2 空間自相關(guān)
根據(jù)地理學(xué)第一定律,空間上的事物都是有相關(guān)性的,離得越近相關(guān)性越強(qiáng) ;離得越遠(yuǎn)相關(guān)性越弱。測試空間上某點(diǎn)的觀測值是否與相鄰點(diǎn)的值存在相關(guān)性,就是空間自相關(guān)的含義??臻g自相關(guān)可以從定性和定量兩個方面理解。現(xiàn)有多種指數(shù)可以量化空間自相關(guān),最主要的兩種指數(shù)為 Moran’I 指數(shù)和 Geary’C 指數(shù),本次研究主要聚焦于Moran’I 指數(shù)。
空間自相關(guān)包括全局和局部兩個層面。全局空間自相關(guān)是對屬性值在整個區(qū)域的空間特征描述,局部空間自相關(guān)反映區(qū)域經(jīng)濟(jì)空間差異的變化趨勢。空間自相關(guān)的結(jié)果會直接給出該數(shù)據(jù)的分布特征,即聚集、分散還是隨機(jī)。
(1)全局空間自相關(guān)
全局空間自相關(guān)是在整個研究范圍內(nèi)分析指定的屬性是否具有自相關(guān)性。根據(jù)整體分布狀況判斷某現(xiàn)象在空間是否有聚集特性存在,但不能確切地指出聚集在哪些地區(qū)以全局空間自相關(guān)的 Global Moran’I 為例,經(jīng)過方差歸一化之后,I 值在 [-1,1] 之間 :若 I 值 >0,表示數(shù)據(jù)呈空間正相關(guān)性,在空間上呈現(xiàn)聚集狀態(tài),具體表現(xiàn)為高值與高值聚集,低值與低值聚集。此時,I值越大,空間相關(guān)性越明顯。若 I 值 <0,表示數(shù)據(jù)呈空間負(fù)相關(guān)性,在空間上呈現(xiàn)分散狀態(tài),具體表現(xiàn)為高值排斥其他高值,傾向于靠近低值,或低值排斥其他低值,傾向于靠近高值。若 I 值 =0,表示數(shù)據(jù)呈隨機(jī)狀態(tài),在空間上沒有明顯的分布規(guī)律,空間相關(guān)性不明顯。另外,該工具還給出 z 得分和 p 值,對 I 值的顯著性進(jìn)行評估。Global Moran’I 公式如下 :
在本次研究中,n 表示省級行政區(qū)個數(shù),w(i,j)表示 n×n 的空間權(quán)重矩陣(可用鄰接性或空間距離閾值構(gòu)造,w(i,j)?的值為 0 或 1),xi?表示某省的GDP 觀測值。
以 I 值判斷全國GDP 整體的空間自相關(guān)性 :若I 值顯著為正,表明人GDP 較高(或較低)的地市在空間上集聚,I 值越接近 1,總體空間差異越小 ;若 I 值顯著為負(fù),表明GDP 較高的地市較分散, GDP較高的地市附近普遍是GDP 較低的地市,I 值越接近 -1,總體空間差異越大 ;若 I 值接近 0,表明GDP 在空間上隨機(jī)分布,沒有明顯規(guī)律。
(2)局部空間自相關(guān)
局域空間自相關(guān)主要研究每個區(qū)域與其周邊地區(qū)之間的關(guān)聯(lián)性,分析空間分布的異質(zhì)性。本論述采用 Local Moran's I,Moran 散點(diǎn)圖描述的是變量與其空間滯后(即該觀測值周圍鄰居的加權(quán)平均)向量之間的相關(guān)關(guān)系。橫坐標(biāo)為各單元標(biāo)準(zhǔn)化處理后的屬性值,縱坐標(biāo)為其空間連接矩陣所決定相鄰單元的屬性值的平均值。其分為四個象限,第一象限代表高觀測值區(qū)域被同是高值的區(qū)域所包圍(HH);第二象限代表低值被高值包圍(LH);第三象限代表低值被低值包圍(LL);第四象限代表高值被低值包圍(HL)。位于一三象限的空間單元存在較強(qiáng)的空間正相關(guān),表示區(qū)域的集聚性和相似性;位于二四象限的空間單元存在較強(qiáng)的空間負(fù)相關(guān),反應(yīng)區(qū)域的異質(zhì)性。Local Moran’I公式如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
為空間權(quán)重值,n為研究區(qū)域上所有地區(qū)的總數(shù),Ii則代表地i個地區(qū)的Local Moran’I指數(shù),其中各項(xiàng)式子及其含義以表格方式呈現(xiàn)如下:
Local Moran’I指數(shù)各項(xiàng)式子及其含義本次研究聚焦于2016-2020年間各個省份地區(qū)(不包括海南、香港、澳門、臺灣等省份或特別行政區(qū),下同)的GDP增長率及GDP總量 Global Moran’ I指數(shù)和Local Moran’ I指數(shù),探究我國GDP分布及GDP增長的空間自相關(guān)性的程度。
3.3.1 GDP增長率
利用空間統(tǒng)計分析軟件GeoDA分別計算了中國2016~2020這五年的全國各個省份GDP Global Moran’ I指數(shù),并繪制出各年度的變化趨勢圖,結(jié)果見圖1所示。
從表可以看出,計算出來的I值均大于0,且2016-2019年間的指數(shù)值大約都在0.1附近,說明這4年間,全國各省級行政區(qū)的GDP在整體上呈現(xiàn)一定程度的聚集狀態(tài),即GDP增長較高(或較低)的省份,其周邊的省份GDP增長也較高(或較低)。這一現(xiàn)象十分正常,因?yàn)楦鱾€省份的經(jīng)濟(jì)發(fā)展模式、主體經(jīng)濟(jì)行業(yè)都各不相同,且其經(jīng)濟(jì)模式一定程度上受到地理空間條件的制約,因此會在地理空間上呈現(xiàn)一定聚集狀態(tài)。但2020年,全國GDP增長率Global Moran’ I指數(shù)驟降到0.023左右,已經(jīng)接近于0,說明該年份的GDP增長率幾乎均勻分布,無明顯的空間自相關(guān)性??紤]2020年是由于新冠疫情的影響,全國經(jīng)濟(jì)遭受重創(chuàng),經(jīng)濟(jì)增長遲緩,但同時,由于國家疫情防控到位,及時采取相關(guān)措施控制疫情流行,2020年新冠疫情沒有大規(guī)模擴(kuò)散,收到嚴(yán)重影響的只有湖北省,這一點(diǎn)從2020年全國各省份Global Moran’ I指數(shù)統(tǒng)計圖(如圖3-2)也可以直觀地看出,各省份除湖北省外在統(tǒng)計圖上的位置均較為集中。
2020年全國各省份Global Moran’ I指數(shù)統(tǒng)計圖具體到局部的Moran’ I指數(shù),五年間的全國各個省份GDP局部聚集圖如所示
五年間的全國各個省份GDP局部聚集圖其中紅色省份地區(qū)為“高-高”區(qū)域,即該地區(qū)的GDP增長率高,且周邊地區(qū)的GDP增長率也高。
2.3 疫情及其經(jīng)濟(jì)損失的影響因素分析(OLS+GWR)
本節(jié)我們會分別通過最小二乘法回歸(OLS)和地理加權(quán)回歸(GWR)對8-10個變量進(jìn)行分析,因變量統(tǒng)一為2019-2020GDP增長率相較于2018-2019GDP增長率的相對變化率。
OLS部分:
為了尋找哪些因素會在疫情背景下影響GDP,選取了以下十個作為自變量進(jìn)行最小二乘法回歸擬合(OLS):
1.最小二乘法回歸標(biāo)準(zhǔn)殘差分布:
可以看出,除了廣東省之外,整體的標(biāo)準(zhǔn)殘差維持在了一個較小的區(qū)間范圍內(nèi)(尤其是中西部地區(qū)),湖北由于疫情較為嚴(yán)重,所以在圖中處于一個較為特殊的值(周圍較均明顯低于其)。這保證了后續(xù)的分析具有一定的可靠性。
2.整體結(jié)果概覽:
OLS結(jié)果匯總-模型變量除了相對疫情指數(shù)外,其余幾個指標(biāo)的概率[b]均過高,顯示出結(jié)果可靠性欠佳。
七個字段的說明及意義如下:
(1)系數(shù)[a]
??? 回歸分析的系數(shù)代表了每個自變量對因變量的貢獻(xiàn)度,系數(shù)的絕對值越大,表示該變量在模型里面貢獻(xiàn)越大,也表示了該自變量與因變量的關(guān)系越緊密。
??? 另外這些系數(shù)的值表明了自變量與因變量的關(guān)系,比如S(總出口)的系數(shù)為0.58,則表示當(dāng)總出口每增加一個單位,在其他自變量的值不發(fā)生改變的時候,因變量財政收入會增加0.58個單位。
??? 而且這個系數(shù)也表示了自變量與因變量之間的關(guān)系類型,即它分為正向和負(fù)向,系數(shù)為正,表示正相關(guān),系數(shù)為負(fù),表示負(fù)相關(guān)。不管是正向大還是負(fù)向大,越大,表示與因變量的關(guān)系強(qiáng)度越大,只不過是正相關(guān)還是負(fù)相關(guān)的問題。該參數(shù)是整個回歸模型里面最重要的參數(shù),沒有之一。
(2)回歸系數(shù)的標(biāo)準(zhǔn)差
??? 回歸的標(biāo)準(zhǔn)誤是模型中隨機(jī)擾動項(xiàng)(誤差項(xiàng))的標(biāo)準(zhǔn)差的估計值。它的平方誤差項(xiàng)的方差的無偏估計量,實(shí)際上又叫做誤差均方,等于殘差的平方和/(樣本容量-待估參數(shù)的個數(shù))。這個值越小,表示模型的預(yù)測越準(zhǔn)。
(3)t統(tǒng)計量
??? 在統(tǒng)計學(xué)里面,t統(tǒng)計量是假設(shè)檢驗(yàn)的重要樞軸量,多用于兩樣本均值檢驗(yàn),回歸模型系數(shù)顯著性檢驗(yàn)。
T-Statistic=平均值 / 標(biāo)準(zhǔn)誤
一般來來說,這個值表示,與P-value意義差不多,都是在驗(yàn)證零假設(shè)的情況下,模型的顯著性,但是有些時候P-value會有一些問題,比如丟失一些信息。計算機(jī)里面進(jìn)行統(tǒng)計驗(yàn)證的時候,T統(tǒng)計量越大,表示越顯著。
(4)、概率[b]:
??? 這個就是P值,用來表示系數(shù)是否具有統(tǒng)計學(xué)上的顯著性,越小則顯著性越高。
(5)、(6)、(7):Robust_SE Robust_t Robust_Pr [b]這三個字段,分別表示了標(biāo)準(zhǔn)差的健壯度、T統(tǒng)計量的健壯度和概率的健壯度。
在統(tǒng)計學(xué)里面,Robust Test通常被翻譯穩(wěn)健性檢驗(yàn),一般來說,就是通過修改(增添或者刪除)變量值,看所關(guān)注解釋變量的回歸系數(shù)和結(jié)果是否穩(wěn)健。
3.標(biāo)準(zhǔn)殘差圖:
標(biāo)準(zhǔn)殘差的分布近似符合正態(tài)分布,說明擬合模型效果尚可。
4.變量分布和關(guān)系:
這里會根據(jù)每組變量,形成一個自變量的分布柱狀圖(第一排)以及自變量和因變量組成的散點(diǎn)和回歸圖(第二排)。
首先要注意的是,OLS對自變量的分布是不是正態(tài)的,并不關(guān)心,但是如果Jarque-Bera統(tǒng)計量的P值指示,結(jié)果出現(xiàn)了偏差(也就是說殘差的分布不平衡),那么說明自變量的分布,可能影響到了回歸模型,所以這種情況下,我們可以嘗試對某些偏差嚴(yán)重的自變量進(jìn)行一些變換,然后重新建模驗(yàn)證(比如進(jìn)行Log變換等)。
理論上,進(jìn)行回歸分析,每個自變量應(yīng)該都要與因變量有相關(guān)性,如果某組出現(xiàn)了非線性,則表示此自變量無法對因變量進(jìn)行解釋,要么剔除掉,要么需要進(jìn)行變換。
圖 3-7:殘差與預(yù)測圖
從理論上來說,預(yù)測值和殘差值應(yīng)該沒有任何的相關(guān)性,因?yàn)槿魏晤A(yù)測和殘差的情況的產(chǎn)生都是隨機(jī)的,這樣才是最優(yōu),如果出現(xiàn)了相關(guān)性,就表示某些殘差的出現(xiàn)是有規(guī)律的,這樣就表示模型出現(xiàn)了偏差。
可以看出,本次最小二乘法回歸的殘差分布較為隨機(jī),說明結(jié)果具有一定的可靠性。
結(jié)論:由于自變量本身數(shù)量級的巨大差異性,我們難以從系數(shù)方面分析各類因素對GDP增長率的相對變化率的影響,而且OLS本身也并并不能從空間異質(zhì)性的角度分析出有價值的結(jié)論,接下來我們會利用地理加權(quán)回歸模型進(jìn)行進(jìn)一步分析。
GWR部分:
仿照最小二乘法的系數(shù)選擇,由于GWR分析的特殊性,為保證數(shù)據(jù)的多重共線性、自相關(guān)性等維持在一個較低的水平,在剔除了2020建筑業(yè)增加值和2020批發(fā)零售增加值后,對剩余的八個屬性進(jìn)行回歸分析。
因變量仍為2019-2020GDP增長率相較于2018-2019GDP增長率的相對變化率。
預(yù)備知識:GWR相關(guān)結(jié)果含義解讀:
Predicted
對因變量的預(yù)測值:這些值是由 GWR 計算所得的估計(或擬合)y 值。這個值一般用來和因變量進(jìn)行對比,越接近,表示擬合度越高。
Coefficient Intercept
截距:與Y軸的交點(diǎn),這里的截距為負(fù),表示觀測值小于預(yù)測值。
Coefficient
各樣本的各個自變量的系數(shù)。GWR的特點(diǎn)就在這里,不同于OLS,GWR會給出每個位置每個自變量的系數(shù)。
Residual
殘差,就是觀測值與預(yù)測值的差。
Standard Error
標(biāo)準(zhǔn)誤
不是標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差的英文是:standard deviation):衡量的是我們在用樣本統(tǒng)計量去推斷相應(yīng)的總體參數(shù)(常見如均值、方差等)的時候,一種估計的精度。
Standard Error Intercept
標(biāo)準(zhǔn)誤的截距:標(biāo)準(zhǔn)差與Y軸的交點(diǎn)。
Standard Error Coefficient
各自變量系數(shù)標(biāo)準(zhǔn)誤:參考標(biāo)準(zhǔn)誤的解釋。在這里,這些值用于衡量每個系數(shù)估計值的可靠性。標(biāo)準(zhǔn)誤與實(shí)際系數(shù)值相比較小時,這些估計值的可信度會更高。較大標(biāo)準(zhǔn)誤差可能表示局部多重共線性存在問題。
Std. Residual
標(biāo)準(zhǔn)化殘差:這個值也是ArcGIS進(jìn)行GWR分析之后,給出的默認(rèn)可視化結(jié)果。標(biāo)準(zhǔn)化殘差的平均值為零,標(biāo)準(zhǔn)差為 1。在 ArcMap 中執(zhí)行 GWR 時,將自動將標(biāo)準(zhǔn)化殘差渲染為由冷色到暖色渲染的地圖。官方說法是,請檢查超過2.5倍標(biāo)準(zhǔn)化殘差的地方,這些地方可能是有問題。
參數(shù)列表如下:
參數(shù)方面,可以看到R2普遍維持在0.49以上,系數(shù)截距普遍維持在-12左右,觀測值與預(yù)測值差距不大 ,結(jié)果較為可靠:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ??
可以看出,除西藏和吉林外,其余地區(qū)的標(biāo)準(zhǔn)殘差均在2.5倍標(biāo)準(zhǔn)差內(nèi),官方說法是,請檢查超過2.5倍標(biāo)準(zhǔn)化殘差的地方,這些地方可能是有問題。從這個角度來看擬合效果較為準(zhǔn)確,大部分地區(qū)的擬合結(jié)果可以采信,從而保證了后續(xù)的結(jié)果分析具有一定的可靠性。
1.R2分布:
在社會學(xué)分析中,R2在0.5左右已經(jīng)是較好的擬合模型了。本次的地理加權(quán)回歸中各省R2均位于0.5附近,且由西北內(nèi)陸向東南沿海遞增,呈現(xiàn)出一定的空間分布變化規(guī)律,說明擁有較好的擬合效果,后續(xù)分析結(jié)果可采納,同時也體現(xiàn)出GWR回歸分析的必要性。
3.疫情對各省級行政區(qū)GDP的影響系數(shù)分布:
由影響系數(shù)均為負(fù)可以看出,疫情對各省級行政區(qū)GDP均產(chǎn)生了負(fù)面影響,這一點(diǎn)符合常識。且這種影響呈現(xiàn)出一定規(guī)律的的空間異質(zhì)性,即由東北至西南影響逐漸變大,但總體維持在了一個相對穩(wěn)定的水平。具體原因可能是因?yàn)閲覍用嫱ㄟ^宏觀調(diào)控等手段有效控制了疫情對地區(qū)經(jīng)濟(jì)發(fā)展帶來的影響,所以單從疫情方面來分析可能不能得到較好的分析結(jié)果,故接下來將分析其他因素對GDP的影響。
4.失業(yè)率對各省級行政區(qū)GDP的影響系數(shù)分布:
?由上圖可以看出失業(yè)率對各省級行政區(qū)GDP的影響,可以看出,這種影響整體上右東部至西部逐漸增強(qiáng),在中西地區(qū),由于失業(yè)率的上升,在疫情之下對GDP產(chǎn)生了不小的沖擊,具體原因可能是這些地區(qū)勞動力較為集中,GDP對勞動力依存度比較高,疫情背景下失業(yè)率上升對該種經(jīng)濟(jì)結(jié)構(gòu)的地區(qū)經(jīng)濟(jì)影響較大,相比較而言東部地區(qū)經(jīng)濟(jì)結(jié)構(gòu)對勞動力依存較小,故失業(yè)率對GDP造成的影響相較于中西部地區(qū)較小。
5.出口額對各省GDP影響分布:
可以看到,相比于其他疫情不那么嚴(yán)重的地區(qū),在受疫情影響較為嚴(yán)重的湖北、河南等地,出口額并未對GDP增長造成大的損失。猜測原因一方面是國家政策的傾斜,如鼓勵湖北產(chǎn)的商品出口、周圍省份可出口廉價產(chǎn)品支援湖北等;另一方面,可能這些省份本身的出口額占GDP比重并不大,故出口額變化對GDP無大的影響。整體影響的變化趨勢是從東北至西南逐漸變大。推測疫情導(dǎo)致工廠關(guān)門、工業(yè)產(chǎn)出下降,進(jìn)而導(dǎo)致出口額降低幅度較大,而這些省份經(jīng)濟(jì)較為依賴出口,故出口額下降對GDP影響較大。
6. 進(jìn)口額對各省GDP影響分布:
和上面的出口額進(jìn)行對比,可以很明顯發(fā)現(xiàn)二者變化趨勢的差異性。進(jìn)口額變化對GDP的影響程度是由東南沿海向西北內(nèi)陸遞減。沿海地區(qū)交通發(fā)達(dá),對進(jìn)口商品依存度大(外省進(jìn)口以及國外進(jìn)口)而疫情極大的影響力這些地方的商品進(jìn)口,進(jìn)而對GDP產(chǎn)生了較大的影響。相反地,內(nèi)陸地區(qū)本就對進(jìn)口依存度不高,故在疫情大背景下GDP受影響程度不高。進(jìn)口和出口額地理空間分布趨勢的差異性也可反映出地理加權(quán)回歸的顯著優(yōu)勢。
7.工業(yè)產(chǎn)出對各省GDP影響分布:
我們知道,在東北老工業(yè)基地相關(guān)省份,工業(yè)占比大,這些地方的工業(yè)產(chǎn)出對GDP影響比重顯著高于其他省,而在疫情大背景下,許多工廠停產(chǎn),工業(yè)產(chǎn)出大大下降,進(jìn)而對GDP產(chǎn)生了較為顯著的損失影響。西南地區(qū)工業(yè)產(chǎn)值占比小,故其浮動對GDP影響較小。
附表:
? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
第一、二、三產(chǎn)業(yè)附加值對各省GDP影像系數(shù)結(jié)論:
國民生產(chǎn)總值(GDP)是一個相當(dāng)復(fù)雜的結(jié)果,其受相當(dāng)多的因素的影響,疫情確實(shí)是其中的一個顯著因素,但許多時候疫情并不直接影響經(jīng)濟(jì),而是通過影響進(jìn)出口額度或工業(yè)產(chǎn)出等方面來間接影響GDP。要研究清楚疫情究竟怎樣影響GDP,需要在對經(jīng)濟(jì)學(xué)原理有著深刻認(rèn)識的條件下,通過大量數(shù)據(jù)的分析,并通過大量的方法比較才有可能得到比較有價值的結(jié)果。很顯然,單從一個地理加權(quán)回歸分析并不能獲得理想中的結(jié)果,只能從某些方面對結(jié)果窺知一二,得出一些推測層面的簡單結(jié)論。
2.4 疫情及其對各省經(jīng)濟(jì)發(fā)展的總體影響
???? 2020年年初國內(nèi)爆發(fā)的新冠疫情使國內(nèi)各省各地區(qū)的生產(chǎn)和生活收到普遍沖擊,但各省表現(xiàn)不一樣,國內(nèi)疫情主打以湖北省為中心展開傳播。
???? 由圖可以看出,全國疫情分布基本上以湖北為中心,進(jìn)行傳播。經(jīng)計算各省相對疫情指數(shù)indexi和GDP損失率Lossi其計算公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
將計算出的結(jié)果進(jìn)行統(tǒng)計,各個列出位于前十的省市:
表 3-5:相對疫情與GDP損失率排前十的省市
| 序 號 | 疫情情況 | 經(jīng)濟(jì)情況 | ||
| 省市 | 相對疫情 | 省市 | GDP損失率 | |
| 1 | 湖北 | 11.86% | 湖北 | 16.134% |
| 2 | 黑龍江 | 0.30% | 青海 | 10.257% |
| 3 | 北京 | 0.27% | 新疆 | 9.959% |
| 4 | 上海 | 0.26% | 北京 | 9.876% |
| 5 | 江西 | 0.21% | 上海 | 9.796% |
| 6 | 浙江 | 0.19% | 陜西 | 9.795% |
| 7 | 重慶 | 0.17% | 天津 | 9.405% |
| 8 | 海南 | 0.16% | 廣東 | 9.290% |
| 9 | 安徽 | 0.16% | 河南 | 9.198% |
| 10 | 湖南 | 0.15% | 內(nèi)蒙古 | 9.143% |
直觀的分布圖如下:
相對疫情分布 GDP損失程度分布OLS報表:
?以上結(jié)果顯示二者確實(shí)存在一定的相關(guān)性,可見從整體而言疫情對GDP產(chǎn)生了不小的影響。
例如,湖北疫情是國內(nèi)最嚴(yán)重的。北京、上海等地區(qū)因?yàn)閰^(qū)域小,人口規(guī)模不大,基數(shù)相對較小和疫情傳播更聚集,導(dǎo)致相對疫情較嚴(yán)重。湖南、安徽、重慶、江西距離湖北較近,受到的波及較大。
就經(jīng)濟(jì)發(fā)展方面,湖北因?yàn)橐咔閷?dǎo)致的封城必然會受到非常大的經(jīng)濟(jì)沖擊。青海、新疆、陜西、內(nèi)蒙古因?yàn)楫a(chǎn)業(yè)鏈單一,在特殊情況下,難以做到變通適應(yīng),導(dǎo)致了一定性質(zhì)上的經(jīng)濟(jì)損失。北京、上海、廣東、天津等省市因?yàn)榈貐^(qū)盛世繁榮,在這一特殊情況下,要想達(dá)到預(yù)期的經(jīng)濟(jì)發(fā)展確實(shí)有一定難度。
三、結(jié)論
GDP無疑是國民經(jīng)濟(jì)核算的核心指標(biāo)和衡量一個國家或地區(qū)經(jīng)濟(jì)狀況和發(fā)展水平的最重要指標(biāo),長期以來各派學(xué)者對GDP影響因素的研究絡(luò)繹不絕。本文站在地理空間分析的角度,簡略分析了新冠疫情這一大背景下GDP受到了怎樣的影響以及被哪些因素影響。由于GDP是一個相當(dāng)復(fù)雜的結(jié)果,所以我們所做的研究只能算是窺探性或者說是驗(yàn)證性的研究。
總的來說,疫情對GDP的影響是負(fù)面的,這一點(diǎn)從預(yù)測分析和多元分析方面都可以窺見——幾種預(yù)測模型都顯示實(shí)際值低于預(yù)測值,基于此預(yù)測值計算的GDP損失程度確實(shí)與相對疫情指數(shù)存在著一定的相關(guān)性;后續(xù)的多元回歸分析進(jìn)一步印證了這一點(diǎn),即疫情雖然對某些行業(yè)發(fā)展利好(如醫(yī)療、某些電商行業(yè)等),但是總體上仍然對中國的經(jīng)濟(jì)發(fā)展產(chǎn)生了不小的影響。從地理加權(quán)回歸分析的結(jié)果來看,不同因素對GDP的影響有著不小的空間異質(zhì)性,這種異質(zhì)性時常存在著某些規(guī)律,而且不同因素所呈現(xiàn)的空間變化規(guī)律有時是截然相反的。這種異質(zhì)性的來源可能與地區(qū)自身的發(fā)展水平、人口、地理位置、經(jīng)濟(jì)結(jié)構(gòu)等等有關(guān)(例如某些省份經(jīng)濟(jì)結(jié)構(gòu)單一,受疫情沖擊影響大),在處理這種空間異質(zhì)性時,就可以體現(xiàn)出空間分析的必要性和強(qiáng)大威力,也是空間分析與其他類型分析的不同之處。
GDP是一個宏大的主題,這也導(dǎo)致了GDP本身受到的影響因素實(shí)在過多,所以在分析的時候,有時并不能得到理想中的結(jié)論。例如國家為了減小疫情下經(jīng)濟(jì)發(fā)展的不平衡、減小差異,會對某些疫情嚴(yán)重的省份給予政策上的傾斜,例如進(jìn)出口商品政策的傾斜、稅率的調(diào)整、土地政策的傾斜等等。而我們在一般的分析中很難將這種政策傾斜考慮在內(nèi),這就會使得結(jié)論在意料之外;此外,GDP也會受到近幾年來中美貿(mào)易戰(zhàn)的影響,所以只以近三年GDP數(shù)據(jù)得到的增長率的相對變化率作為因變量會顯得說服力沒有那么強(qiáng)(因?yàn)橘Q(mào)易戰(zhàn)也會在許多方面影響GDP,需要對其與疫情造成的GDP影響通過某些方法加以區(qū)分);有時也會受困于我們自身對經(jīng)濟(jì)學(xué)原理認(rèn)識的不足而難以從獲得的數(shù)據(jù)中分析出有價值的結(jié)論,這也是本研究目前存在的不足。
由此可知,本次研究下一步的改進(jìn)方法是擴(kuò)大搜索面,考慮包括國家政策、政治環(huán)境等在內(nèi)的更多因素對GDP的影響,并通過合適的篩選分批對自變量進(jìn)行處理,以此得到多項(xiàng)結(jié)論,通過合適的方法評判可靠性后綜合得出結(jié)論。
總結(jié)
以上是生活随笔為你收集整理的GIS应用实例--模型预测、多元回归、空间自相关分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SVN代码分支管理
- 下一篇: 数据可视化:Metabase