gis地理加权回归步骤_地理加权回归权重(History)
Jetbrains全系列IDE穩定放心使用
內容導讀
1)回歸概念介紹;
2)探索性回歸工具(解釋變量的選擇)使用;
3)廣義線性回歸工具(GLR)使用;
*加更:廣義線性回歸工具的補充內容
4)地理加權回歸工具(GWR)使用+小結。
說明:本節是這個學習筆記最后一部分。
PART/
04
地理加權回歸工具(GWR)使用
上一節我們講了GLR廣義線性回歸,它是一種全局模型,可以構造出最佳描述研究區域中整體數據關系的方程。如果這些關系在研究區域中是一致的,則 GLR 回歸方程可以對這些關系進行很好的建模。不過,當這些關系在研究區域的不同位置具有不同的表現形式時,回歸方程在很大程度上為現有關系混合的平均值;如果這些關系表示兩個極值,那么全局平均值將不能為任何一個極值構建出很好的模型。當解釋變量表現出不穩定的關系(例如人口變量可能是研究中某些地區911呼叫量的重要影響因子,但在其他地區可能是較弱的影響因子,這就是不平穩的表現)時,全局模型通常會失效。
為了解決非穩健的問題,提高模型的性能,可以使用將區域變化合并到回歸模型中的方法,也就是GWR(Geographically Weighted Regression)地理加權回歸的方法。
從數學角度上講,廣義線性回歸是將整個研究區域給定一個線性方程。地理加權回歸是給每一個要素一個獨立的線性方程。
在GWR中,每一個要素的方程都是由鄰近的要素計算得到的。(根據地理學第一定律,任何事物都是與其他事物相關的,只不過相近的事物關聯更緊密,鄰近要素對要求解的要素影響更大)
所以每一個要素的方程系數都有所不同。
GWR實現原理
從公式中可以總結出,雖然GLR方法與GWR方法有些不同,也就是系數不同,但是其因變量與解釋變量是不變的,所以通常在做GWR之前,我們可以先使用GLR或者是探索性回歸工具找到解釋變量,并分析GLR模型的精度,再使用GWR工具提高模型的精度。
那在GWR工具中,究竟需要哪些參數呢?這些參數具體又代表什么呢?
我們仍以ObsData911Calls-不同區域911電話呼叫數為例。
GWR工具
來看一下工具的參數:
輸入要素:ObsData911Calls面要素
因變量:這里我們選擇要解釋的變量,也就是Y值為calls,911電話呼叫次數
模型類型:高斯、邏輯以及泊松模型。與GLR工具的模型分類是一致的,這里不再贅述。
PS:這里我們演示的仍然使用的是連續數據的高斯模型。
針對不同類型的數據可以選擇不同的模型。
例如我們預測海岸線周邊是否有海草棲息。是否有海草不是連續數據,只可能是觀察到或者沒有觀察到。也就是0 和1的問題。就可以使用邏輯模型。
再比如我們想解釋某地的死亡人數。這是離散的數據,就可以選擇泊松模型了。
解釋變量:仍然選擇Pop, Jobs, LowEduc, Dst2UrbCen
設置輸出要素名稱GWRData911Calls
鄰域也叫做帶寬。表示每個局部回歸方程的距離范圍或相鄰要素數,可以控制模型的平滑程度。下圖表示使用不同的帶寬得到的模型,可以發現帶寬不同其模型的平滑程度不同。它是地理加權回歸要考慮的最重要的參數
帶寬對模型平滑程度的影響
在GWR中與鄰域有關的參數有兩個,一個是鄰域類型,一個是鄰域選擇方法。
鄰域類型可以選擇相鄰要素數或距離范圍。
如果選擇相鄰要素數,也就說每個要素在解算線性方程時,參與每一個目標要素運算的鄰近要素數相同。
這里我們以兩個高亮顯示的要素為例。不同要素選擇相同的鄰近要素數(要素數究竟是多少是根據鄰域選擇方法來確定的)
相鄰要素數
如果選擇距離范圍,也就說每個要素在解算線性方程時,每個要素的鄰域大小將保持不變 。(距離遠近是根據鄰域選擇方法來確定的)
相同距離
本例中我們選擇相鄰要素數。
鄰域選擇方法參數可指定鄰域大小的確定方式(所使用的實際距離或相鄰要素數)。有三個選項黃金搜索、手動間隔以及用戶定義。當你選擇了這當中的某一個選項,將會在工具里新增幾個參數,參數會根據這是哪個選項而不同。
黃金搜索和手動間隔都以AIC值為基礎,自動找到最優的實際距離或相鄰要素數。(類似于我們使用探索性回歸查找解釋變量的方法)
用戶定義選項設置特定的鄰域距離或相鄰要素數
這里我們選擇黃金搜索,最小搜索距離和最大搜索距離參數不填。
預測選項:GWR模型用來估計和建模變量之間的線性關系然后用這個模型來產生預測,本練習中我們只探究變量之間的線性關系,不做預測。
再來看其他選項中的局部權重方案和系數柵格工作空間。
局部權重方案也就是GWR工具通過什么方法來確定鄰近要素的距離權重,這里使用了核函數來確定,核是距離衰減函數。包括高斯和雙平方這兩種核函數選項。簡單來說二者區別在于雙平方衰減的更快,默認選擇雙平方。(注意這里的高斯是高斯核函數,與我們選擇的高斯模型不同)
系數柵格工作空間是指為模型截距和每個解釋變量創建系數柵格表面。這樣會生成多個柵格,用于展示各系數在不同要素上的分布強弱情況。這里選擇默認的數據庫為工作空間。
PS:ArcGIS Pro對GWR工作做了更新,與ArcMap中的工具參數有所不同。ArcMap中只提供了高斯核函數算法來設置局部權重。ArcGIS Pro能夠涵蓋ArcMap中功能。例如ArcMap中將核類型參數設置為 FIXED,帶寬方法參數設置為 BANDWIDTH_PARAMETER 時,對應ArcGIS Pro中的鄰域類型選擇距離范圍,鄰域選擇方法為用戶定義的功能。
運行工具
地圖視圖結果展示
地圖視圖中增加了GWRData911Calls圖層。并使用標準殘差來進行渲染。
內容列表中的GWRData911Calls圖層
同時增加了3個圖表。圖表與結果是相互印證的,因此在這里我們主要分析GWRData911Calls圖層的內容以及結果運行出來之后的詳細信息。
還增加了以INTERCEPT(截距)\POP\Jobs\Loweduc\Dst2Urben系數為渲染條件的柵格專題圖。
我們來逐個看一下。
先來看一下GWRData911Calls圖層屬性。
GWRData911Calls圖層屬性
與原始的ObsData911Calls相比較,保留了全部要素的Calls、Pop, Jobs, LowEduc, Dst2UrbCen也就是因變量和解釋變量,
新增字段
增加了截距、截距的標準誤差、每個解釋變量的系數和標準誤差、預測、殘差、標準殘差、條件數、影響、Cook 距離、局部 R 平方和鄰域數這些字段。
細心的同學會發現Intercept、Std. Error以及Coefficient這系列字段在GLR中都是一個數字,出現在結果中的。在GWR中我們也講過了每個要素都會構建一個方程,所以每個要素都會有Intercept、Std. Error以及Coefficient這系列屬性。也充分說明了GWR是一個局部的線性回歸方程。
再來看地圖視圖,它表示標準殘差的分布情況,標準殘差是殘差除以標準差之后得到的數據,也就是說標準殘差與殘差是線性相關的。標準殘差不能大于2.5或者小于-2.5,如果出現這種情況,表示這些區域的預測可能不可靠。
另外標準殘差需要保證呈現隨機的空間模式,這一點我們可以通過運行空間自相關工具來驗證。
接下來是本節的重點了,如何看GWR結果指標
在歷史工具中找到GWR工具,查看詳細信息中的消息。
運行結果詳細信息
結果包括黃金搜索結果,分析詳細信息以及模型診斷三部分。
鄰域類型這里我們設置的相鄰要素數據,所以黃金搜索結果顯示的是最佳要素數量,最后找到的最低值是56。黃色字體表示使用黃金搜索結果并沒有找到最低AICc,也就是說黃金搜索結果中的相鄰要素數據不是最優解。(這里明顯可以看出相鄰要素數為55時,AIC值更低,如果在選擇鄰域選項中選擇用戶指定數量為55時,結果如下圖)
相鄰要素數量為55時,模型擬合度更高
分析詳細信息這里顯示了模型中的要素數據、因變量、解釋變量、相鄰要素數目。
模型診斷部分內容就比較少了,包括了R方和校正R方,AIC、σ2、Sigma-Squared MLE和有效自由度這五項。
重點看校正R方和AIC。校正R方可以理解為是Local R方的均值。通過這個值我們會發現與GLR工具相比,GWR工具的擬合程度更高。再比較AIC,兩者相差大于3,說明GWR模型更好一些。(GLR的值是683,GWR的值是675)
當然這里如果使用不同的參數將會得到不同的模型精度。比如鄰域范圍參數這里選擇了距離范圍,鄰域選擇方法設置為黃金搜索,也就是按照最佳距離進行搜索,得出的模型精度在85.15%。
設置距離范圍運行GWR工具
整個模型的結果解釋完了,與GLR模型一樣,仍然需要驗證一下殘差是否是隨機分布。
使用空間自相關工具,評估所表達的模式是聚類模式、離散模式還是隨機模式。
空間自相關工具
輸入要素類為GWR
輸入字段為標準化殘差
可以選擇將結果生成報表,也可以在運行結果中直接查看
空間關系的概念化選擇反距離。
其他參數默認
查看其運行結果為隨機模式,也就得出殘差隨機分布,使用GWR方法是合理的結論。
空間自相關報表
PS:GWR中加入了地理權重,這個與GLR中的解釋距離要素是不同的,解釋距離要素是所有要素與給定要素之間的距離,它是一個距離單位的變量,例如距離市中心5公里,地理權重則是一個沒有單位的比值,表示其重要程度,例如權重為0.88。
使用工具實現回歸分析不是我們的最終目的,更多時候我們是想通過這個模型進行預測或者是說明問題,或者說除了得出模型合理的結論之外,結果該如何解讀呢?
以本例的GWR工具為例。我們將工具運行之后得到的系數柵格圖重新進行顏色渲染。(使用
配色方案,從綠到黃表示系數從高到低)分別得到以下幾張圖。
POP系數柵格圖 JOBS系數柵格圖
LowEduc系數柵格圖 Dst2UrbCen系數柵格圖
全區撥打911電話的數量受人口、就業人數、低教育程度人數以及距離市中心的程度影響。
其中低教育程度人數的影響程度最高。
從圖上可以看出人口對911電話數量的影響呈現中北部向外輻射的情況,越靠近東西部人口對電話數量的影響越小。
就業人數對911電話數量的影響呈現南高北低的情況,越靠近北部就業人數對電話數量的影響越小。
低教育程度人數對911電話數量的影響呈現西高東低的情況,越靠近東部就業人數對電話數量的影響越小。
距離市中心的遠近程度對911電話數量的影響呈現西高東低的情況,越靠近東部距離市中心對電話數量的影響越小。
為什么會出現上述的分布情況呢?這就需要我們從當前研究區域的經濟、地理、政策、歷史沿革等多角度去解釋說明了。(探索模型系數的重要程度和分布情況,這一步其實是比較重要的,這個例子能夠拿到的分析依據不多,類似的解釋建議大家觀看蝦神說D盧老師的https://www.bilibili.com/video/BV1nM4y157dX?p=4 對山東省財政收入的解讀)
(歡迎關注史上最不著調空間統計科普小能手蝦神的公眾號,收看大長篇“白話空間統計”)
以上我們就完成了ArcGIS Pro中線性回歸分析工具的介紹。除了常用了OLS、GLR、GWR這三個工具之外。ArcGIS還提供了使用機器學習技術的基于森林的分類與回歸工具,同樣也能夠實現基于地理加權的空間回歸,但是這個回歸不是線性的(后續有時間我們將補充這個工具的介紹)而且這個工具不需要事先確定解釋變量,也不用擔心出現冗余變量。GWR與基于森林的分類與回歸工具算法不同,但是不能說哪個工具就更加的優秀, 一般來說如果拿到了實驗要求,我們更建議大家使用兩個工具都運行一下,看哪個工具更合理,模型精度更高。甚至你還可以先使用局部二元關系工具確定兩個變量間(因變量與某個解釋變量)屬于哪種關系,例如不具有顯著性、正線性、負線性、凹函數、凸函數以及未定義這幾類,再決定使用哪種回歸模型。
PART/
05
小結
關于ArcGIS Pro中的回歸分析就全部介紹完了。我們來總結一下
一般我們拿到研究課題以及研究數據之后,如果發現其中的屬性或者變量之間有一定的聯系,或者需要對這些數據的變量進行建模和預測,就可以考慮使用ArcGIS Pro中的回歸分析工具。
ArcGIS Pro提供了OLS、GLR、GWR以及基于隨機森林的分類與回歸工具。這些工具都位于空間統計工具箱中的空間關系建模工具集中。
ArcGIS Pro中的回歸工具
在傳統的線性回歸中,我們為了模型的準確性,可以先確定解釋變量。ArcGIS Pro提供探索性回歸工具來選擇解釋變量。
在選擇了解釋變量之后,可以先運行GLR工具(如果GLR中選擇了高斯模型,就是OLS工具),再對其結果進行解釋。同時確保殘差的隨機性(運行空間自相關工具)
GLR的結果中如果一定指標建議使用GWR工具,我們可以繼續運行GWR工具,根據結果比較GLR與GWR模型的精確程度。同時確保殘差的隨機性。
最后,不要忘了挖掘并解釋模型合理性的原因。
如有問題,歡迎留言討論。
參考資料:
EsriRegressionAnalysisTutorial_ArcGIS10.pdf
ArcGIS Pro 中的回歸和分類
https://learn.arcgis.com/zh-cn/paths/regression-and-classification-in-arcgis-pro/
https://spatialstats-analysis-1.hub.arcgis.com/
ArcGIS Pro高級培訓(3)空間數據科學與空間統計學
https://www.bilibili.com/video/BV1nM4y157dX?p=4
白話空間統計之地理加權回歸
https://blog.csdn.net/allenlu2008/article/details/59480437
ArcGIS 規劃應用之空間回歸分析
https://space.bilibili.com/307935671?spm_id_from=333.788.b_765f7570696e666f.2
總結
以上是生活随笔為你收集整理的gis地理加权回归步骤_地理加权回归权重(History)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: id随机选择另一张表格的 sql_表格问
- 下一篇: 地图慧制作地图(谷歌卫星高清地图)