白话空间统计二十四:地理加权回归(一)


二十四在人的生活中有举足轻重的地位,一年有二十四个节气,一天有二十四个小时。中国的正史称之为“二十四史”(有人说加清史就二十五了……但是正史这个词,出自清乾隆钦定二十四史,所以一直“正史”这个词,专指二十四史),白话空间统计写到现在,历时18个月,终于写到这个一元复始的二十四章了。

地理加权的回归分析是空间统计里面一个重要关口……如果说莫兰指数作为空间统计的入门门槛,P值Z得分是空间统计第一个拦路虎,那么地理加权回归分析,就应该是飞升的天劫了……渡得过去,就霞举飞升,天地同寿……渡不过去,就魂飞魄散……额,也没那么恐怖,过不去就过不去了,大不了我不当神仙了就是。

上一节说到,当数据缺失的时候,可以通过回归方程进行补全,通过两个数据示例我们发现,全局的回归方程会出现各种问题,而局部的回归,效果往往更好。说到这里的时候,我们来看下面的数据:
白话空间统计二十四:地理加权回归(一)_第1张图片
山东省分市区的人口与财政收入数据(2015年,数据来源山东省统计信息网),中国有句老话,叫做“人多力量大”,当然,也有个别想当一秒钟英雄的不甚认同这句话,比如下面:
白话空间统计二十四:地理加权回归(一)_第2张图片

但是一般来说,在我们的印象中,人口的多少与财政收入也往往是正相关的。


那么我们首先来进行一下全局的一元回归,看看结果:
白话空间统计二十四:地理加权回归(一)_第3张图片

以前漏掉回归概念的科普:R-squared,也就是判定系数,这个系数在0-1之间,越接近1,表示这回归模型的效果越好,比如判定系数为1的话,就表示模型中的自变量能够100%的解释因变量的变化……类推,上面的0.04,就表示在这个模型里面,自变量只能解释4%的因变量的变化……换句话说,这两个东东基本上就没有啥关系嘛。

但是,我抽取一个市的数据,比如威海,然后再计算一下,如下所示:
白话空间统计二十四:地理加权回归(一)_第4张图片


这一刻,我的心情是:
白话空间统计二十四:地理加权回归(一)_第5张图片

如果说,这是虾神刻意提出来的一些数据,还情有可原……但是这不是一个完整的市么?肯定是幻觉……我们来换一个城市……嗯,就换成虾神最喜欢的格陵兰——greenland……当然,你叫它青岛也行……
白话空间统计二十四:地理加权回归(一)_第6张图片


当一个数据,在A区域内有很强的解释能力,比如在威海市,人口数量对财政收入的变化,可解释性超过了96%,但是同样居于鲁东的青岛,只有1%,简直就不能用不显著来形容。这种在不同区域具有不同性质的情况,就是在空间分析里面无所不在的空间异质性了……

如何能够避免这个问题呢?那么地理加权的回归分析,就是为了对这个问题进行修正而生。

正如虾神所言:
天若不生GWR,万古回归如长夜……
白话空间统计二十四:地理加权回归(一)_第7张图片

至于这个神器如何使用,如何解读,我们下回分解……

你可能感兴趣的:(数据分析,GIS)