地理加权回归简易总结
地理加權(quán)回歸
空間統(tǒng)計(jì)有別于經(jīng)典統(tǒng)計(jì)學(xué)的兩大特征:空間相關(guān)性和空間異質(zhì)性,莫蘭指數(shù)等可以用來量化空間相關(guān)性,那么地理加權(quán)回歸,就可以用來量化空間異質(zhì)性。
1.地理加權(quán)回歸的出現(xiàn):
1)因?yàn)榈乩砦恢玫淖兓?#xff0c;而引起的變量間關(guān)系或結(jié)構(gòu)的變化稱之為空間非平穩(wěn)性(spatial nonstationarity)。——蝦神
在空間上出現(xiàn)的非平穩(wěn)性,通常被認(rèn)為由以下三個(gè)方面的原因引起的:
- 隨機(jī)抽樣的誤差引起的。抽樣誤差是無法避免的,也是無法觀察的,所以統(tǒng)計(jì)學(xué)上一般只假定它服從某一分布,沒必要去死糾這種變化,因?yàn)閷Ψ治霰旧淼年P(guān)系作用不大。
- 是由于各地區(qū)不同的自然環(huán)境、人文環(huán)境等差異所引起的變量間的關(guān)系隨著地理位置的變化而變化。這種變化反應(yīng)是數(shù)據(jù)本身的空間特性,所以在空間分析中是需要著重注意的地方。
- 用于分析的模型與實(shí)際不符,或者忽略了模型中應(yīng)有的一些回歸變量而導(dǎo)致的空間非平穩(wěn)性。
2)為了解決空間非平穩(wěn)性問題,以前的研究提出了三種方案:
- 第一就是所謂的局部回歸分析。(比如說按照行政區(qū)劃)
- 第二就是移動(dòng)窗口回歸。(可以解決邊界跳崖式變化)
- 第三就是變參數(shù)回歸(也就是地理加權(quán)回歸的前身)
2.地理加權(quán)回歸:
1)地理加權(quán)回歸的定義
地理加權(quán)和其他回歸分析一樣,首先要?jiǎng)澏ㄒ粋€(gè)研究區(qū)域,當(dāng)然,通常這個(gè)區(qū)域也可以包含整個(gè)研究數(shù)據(jù)的全體區(qū)域(以此擴(kuò)展,你可以利用空間關(guān)系(比如k-臨近),進(jìn)行局部地理加權(quán)計(jì)算)……接下去最重要的就是利用每個(gè)要素的不同空間位置,去計(jì)算衰減函數(shù),這個(gè)是一個(gè)連續(xù)的函數(shù),有了這個(gè)衰減函數(shù),當(dāng)你把每個(gè)要素的空間位置(一般是坐標(biāo)信息(x,y))和要素的值帶入到這個(gè)函數(shù)里面之后,就可以得到一個(gè)權(quán)重值,這個(gè)值就可以帶入到回歸方程里面去。
2)空間權(quán)重矩陣的確定
地理加權(quán)回歸里最重要的就是空間權(quán)重矩陣。
-
空間關(guān)系概念化
空間權(quán)重矩陣用是空間關(guān)系概念化計(jì)算出來的:空間關(guān)系觀念一共有七個(gè):
無論是臨近方法,還是觸點(diǎn)方法,都會(huì)導(dǎo)致局部回歸的結(jié)果,也就是計(jì)算的區(qū)間不一樣,會(huì)導(dǎo)致樣本數(shù)量的變化,而全部加進(jìn)來運(yùn)算,又變成全局回歸了,所以在GWR中,能且能夠選擇的,只有距離方法了。 -
GWR中最常用的權(quán)函數(shù)
就是選擇一個(gè)連續(xù)單調(diào)的遞減函數(shù)來表示權(quán)重w和距離d之間關(guān)系,以此來克服反距離的缺點(diǎn)。-
Gauss函數(shù)法
-
其中所謂的帶寬b,指的就是權(quán)重與距離之間函數(shù)關(guān)系的非負(fù)衰減參數(shù),就像上面那個(gè)圖所示,帶寬越大,權(quán)重隨距離的增加衰減的越慢,帶寬越小,權(quán)重隨距離的增加衰減的就快。
- 近高斯函數(shù)
但是,如果數(shù)據(jù)非常離散,帶來的結(jié)果就是有大量的數(shù)據(jù)躲得遠(yuǎn)遠(yuǎn)的,這種所謂的“長尾效應(yīng)”會(huì)帶來大量的計(jì)算開銷,所以在實(shí)際運(yùn)算中,應(yīng)用的是近高斯函數(shù)來替代高斯計(jì)算,把那些沒有影響(或者影響很少)的點(diǎn)給截掉,以提高效率。
bi-square函數(shù)其實(shí)是距離閾值法和Gauss函數(shù)發(fā)法的結(jié)合。回歸點(diǎn)在帶寬的范圍內(nèi),通過高斯聯(lián)系單調(diào)遞減函數(shù)計(jì)算數(shù)據(jù)點(diǎn)的權(quán)重,超出的部分,權(quán)重全部記為0。
地理加權(quán)回歸對權(quán)函數(shù)的選擇不是很敏感,但是對于帶寬的變化卻非常敏感。帶寬過大會(huì)導(dǎo)致回歸參數(shù)的偏差過大,帶寬過小又會(huì)導(dǎo)致回歸參數(shù)的方差過大。
3.帶寬的確定
-
CV(交叉驗(yàn)證)
其中,
表示在回歸參數(shù)估計(jì)的時(shí)候,不包括回歸點(diǎn)本身,只根據(jù)回歸點(diǎn)周邊的數(shù)據(jù)進(jìn)行回歸參數(shù)計(jì)算,然后把不同的帶寬和不同的CV繪制成趨勢線,那么就可以找出CV值最小的時(shí)候,對應(yīng)的最佳帶寬是多少了。 -
AIC(最小信息準(zhǔn)則)
當(dāng)我們有一堆可供選擇的模型參數(shù)的時(shí)候,選擇AIC最小的那個(gè)就行……因?yàn)锳IC的大小取決于獨(dú)立參數(shù)的個(gè)數(shù)和模型的極大似然函數(shù)兩個(gè)值,參數(shù)值少,AIC小,且極大似然函數(shù)大,AIC也小,參數(shù)少表示模型簡潔,極大似然函數(shù)大表示模型精確。因此AIC和修正的決定系數(shù)類似,在評價(jià)模型是兼顧了簡潔性和精確性。當(dāng)兩個(gè)模型之間存在較大差異的時(shí)候,這個(gè)差異肯定首先出現(xiàn)在模型的極大似然函數(shù)上;而這個(gè)函數(shù)沒有出現(xiàn)顯著的差異的時(shí)候,模型的獨(dú)立參數(shù)個(gè)數(shù)才氣作用了,從而,參數(shù)個(gè)數(shù)越少的模型,表現(xiàn)得越好。也就是這個(gè)原因,這個(gè)準(zhǔn)則才被稱為:最小信息準(zhǔn)則。
4.回歸結(jié)果解讀
- Bandwidth 或 Neighbors:是指用于各個(gè)局部估計(jì)的帶寬或相鄰點(diǎn)數(shù)目,并且可能是“地理加權(quán)回歸”的最重要參數(shù)。它控制模型中的平滑程度。通常,您將通過程序選擇所需的帶寬值或相鄰點(diǎn)值,方法是為帶寬方法參數(shù)選擇修正的 Akaike 信息準(zhǔn)則 (AICc) 或交叉驗(yàn)證 (CV)。這兩個(gè)選項(xiàng)都將嘗試識別最佳固定距離或最佳自適應(yīng)相鄰點(diǎn)數(shù)目。由于“最佳”條件對于 AICc 和 CV 并不相同,因此通常會(huì)獲得不同的最佳值。
- ResidualSquares:指模型中的殘差平方和(殘差為觀測所得 y 值與 GWR 模型所返回的 y 值估計(jì)值之間的差值)。此測量值越小,GWR 模型越擬合觀測數(shù)據(jù)。此值還在其他多個(gè)診斷測量值中使用。(非常重要)
- EffectiveNumber(有效數(shù)量):此值反映了擬合值的方差與系數(shù)估計(jì)值的偏差之間的折衷,與帶寬的選擇有關(guān)。帶寬接近無窮大時(shí),每個(gè)觀測值的地理權(quán)重都將接近 1,系數(shù)估計(jì)值與全局 OLS 模型的相應(yīng)值將非常接近。對于較大的帶寬,系數(shù)的有效數(shù)量將接近實(shí)際數(shù)量;局部系數(shù)估計(jì)值將具有較小的方差,但偏差將非常大。相反,帶寬接近零時(shí),每個(gè)觀測值的地理權(quán)重都將接近零(回歸點(diǎn)本身除外)。對于非常小的帶寬,系數(shù)的有效數(shù)量為觀測值的數(shù)量,局部系數(shù)估計(jì)值將具有較大方差但偏差較低。該有效數(shù)量用于計(jì)算多個(gè)診斷測量值。
- Sigma:此值為正規(guī)化剩余平方和(剩余平方和除以殘差的有效自由度)的平方根。它是殘差的估計(jì)標(biāo)準(zhǔn)差。此統(tǒng)計(jì)值越小越好。Sigma 用于 AICc 計(jì)算。
- AICc:這是模型性能的一種度量,有助于比較不同的回歸模型。考慮到模型復(fù)雜性,具有較低 AICc 值的模型將更好地?cái)M合觀測數(shù)據(jù)。AICc 不是擬合度的絕對度量,但對于比較適用于同一因變量且具有不同解釋變量的模型非常有用。如果兩個(gè)模型的 AICc 值相差大于 3,具有較低 AICc 值的模型將被視為更佳的模型。將 GWR AICc 值與 OLS AICc 值進(jìn)行比較是評估從全局模型 (OLS) 移動(dòng)到局部回歸模型 (GWR) 的優(yōu)勢的一種方法。
- R2:R 平方是擬合度的一種度量。其值在 0.0 到 1.0 范圍內(nèi)變化,值越大越好。此值可解釋為回歸模型所涵蓋的因變量方差的比例。R2 計(jì)算的分母為因變量值平方和。向模型中再添加一個(gè)解釋變量不會(huì)更改分母但會(huì)更改分子;這將出現(xiàn)改善模型擬合的情況(但可能為假象)。
- R2Adjusted:由于上述 R2 值問題,校正的 R 平方值的計(jì)算將按分子和分母的自由度對它們進(jìn)行正規(guī)化。這具有對模型中變量數(shù)進(jìn)行補(bǔ)償?shù)男Ч?#xff0c;因此校正的 R2 值通常小于 R2 值。但是,執(zhí)行此校正時(shí),無法將該值的解釋作為所解釋方差的比例。在 GWR 中,自由度的有效值是帶寬的函數(shù),因此與像 OLS 之類的全局模型相比,校正程度可能非常明顯。因此,AICc 是對模型進(jìn)行比較的首選方式。
參考文獻(xiàn):
1.《白話空間統(tǒng)計(jì):地理加權(quán)回歸系列》——大蝦盧
2.《ArcGIS Desktop 幫助文檔》
總結(jié)
以上是生活随笔為你收集整理的地理加权回归简易总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言快速入门课——结合各种生物信息学及
- 下一篇: angularjs初始化时不显示模板内容