基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)

引言

最近在网上搜索有关空间误差模型的方法,看到的最多的就是https://editor.csdn.net/md/?not_checkout=1&spm=1001.2014.3001.5352链接下的经验分享,分享的内容很简洁,操作步骤很简单,但是有些细节可能没有讲到,我想通过一个案例对该方法进行充实一下。学习和整理期间也参考了一些书,在中国知网上搜索、下载和学习了一些文章,引用文献放在本文的最后。

方法介绍

本文在这里不做方法原理的探讨,主要想解决三个方面的问题:①分析的流程;②模型的选择;③参数解释。
一开头,我想给出我们使用SEM或者SLM的意义,那就是若要用SEM或者是SLM,需要给出一个为什么不用经典回归模型(OLS)的理由。我们都知道,经典最小二乘法在不引入空间权重进行空间变量的回归分析时,是不考虑变量的位置信息的,所以对于要素在空间中的集聚、扩散等空间维度的效应是无法考虑在内的,而SEM和SLM是考虑了空间要素信息的。那么,从笔者对该方法的认识来看,我要用SEM或者SLM就意味着SEM和SLM在表达空间信息时是要比OLS更加显著的,这就是我们要用SEM或者SLM的理由。

分析的流程

接着上面的说,我把第1步叫作方法的引子(我自己觉得这样讲比较形象)。前提条件 那就是对所要分析的因变量进行一个空间自相关的分析(空间自相关网上一大堆),先要证明我们所要分析的这个东西是一个具有空间依赖性(要素集聚,冷点热点)。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第1张图片

第2步是依据OLS法的一些基本描述信息和经典拟合优度得出对OLS法的一个基本判断,这些虽然都不是采用SEM和SLM的充分条件,但是却很必要(注意这里是不添加空间权重的OLS回归)。包括R²,Intercept、Coefficient、Akaike info criterion(AIC)、Schwarz criterion(SC)以及Log likelihood(LogL)等。下图这是我运行的结果
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第2张图片
第3步是对因变量和自变量残差的一个空间自相关的描述,算是使用SEM和SLM的一个充分条件,借此说明残差存在明显的空间依赖性,也就是有必要采用更加深入的模型去揭示空间规律。图中Spatial autocorrelation test of residuals的部分。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第3张图片
第4步是使用SEM和SLM更加充分的条件,即对Breusch-Pagan 检验和 Koenker-Bassett 检验结果的解释。注意下图中P均不显著(这正是我们不采用OLS的理由)。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第4张图片
第5步是考虑空间效应的OLS分析,通过建立空间权重,然后会默认计算空间滞后、空间误差、空间自回归移动平均的拉格朗日乘子统计量,这个统计量的结果是是否使用SEM或者SLM的最关键的充分条件。最终依据拉格朗日乘子统计量得出用哪种空间计量模型。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第5张图片
第6步是进行SEM或者SLM的空间计量分析。观察R²,Intercept、Coefficient、Akaike info criterion(AIC)、Schwarz criterion(SC)以及Log likelihood(LogL)与OLS的异同。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第6张图片
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第7张图片
第7步,基于模型的结果给出自变量和因变量的相关性解释,或者引申的因果解释。

模型的选择

这一部分其实是对分析流程第5步的拆解。
如图所示,给出的第一个统计量是Moran’I(error),并且列出了标准化的Z值和P值,虽然这里P<0.01,具有显著性,即在没有空间自相关时,Moran’I指数拒绝原假设,说明统计量具有空间关联。然而,这不不能让我们了解SEM或者SLM能否合理地进行空间回归。接着我们需要依靠拉格朗日乘子统计量的结果来作下一步的分析。
基于拉格朗日检验,即 Lagrange Multiplier(LM) test,通过判断 LM-Lag 和 LM-Error 的显著性来判断选择哪种空间模型最优。当 LM-Lag 和 LM-Error 的统计量都不显著时,说明变量间不存在空间关系,不适合用空间计量模型来进行分析,可直接采用最小二乘法进行分析。当LM-Lag显著,LM-Error不显著时,使用空间滞后模型(SLM);当 LM-Lag 不显著,LM-Error显著时,使用空间误差模型(SEM);两者都显著时,需要进行稳健性拉格朗日检验,即Robust LM-test,得到 Robust LM-Lag 和 Robust LM-Error两个统计量,Robust LM-Lag显著则使用空间滞后模型(SLM),Robust LM-Error则使用空间误差模型(SEM),两个都显著,则使用空间杜宾模型(SDM)(这个不在我们讨论的范围内)。
基于Geoda的经典空间回归模型(OLS)、空间误差模型(SEM)和空间迟滞模型(SLM)_第8张图片

参数的解释

因为本身不是空间计量出身的,所以对参数的解释不是很专业,但基本能说明白各个参数的用途和使用方法。
模型的选择介绍了一部分了,Robust LM (Error)和 Robust LM (Lag)反映空间相关关系的,若通
过检验,说明用空间误差模型和空间滞后模型能反映空间相关关系。
还有一些,拟合优度R²、对数似然函数值(Log likelihood)越大,赤池信息准则(AIC)和施瓦茨准则(SC)越小,则模型拟合效果越好,这些在在 LMLAG 和 LMERR 统计量无法判断模型 SLM、SEM和OLS模型优劣的情况下可以参考。
Breusch-Pagan 用来检验异方差问题,没有通过显著检验,接受零假设,不存在异方差问题。
Jarque-Bera test 是检验模型是否符合正态分布,没通过显著检验,接受零假设,符合正态分布。

案例所涉及的方法的详细解读可以参看《空间计量分析软件Geoda、GeoDaSpace和PySAL操作手册》一书。本文主要对该书中的参数解释有所引用。
另外,参考文献如下,
[1]陈瑶,陈湘满.房价、房价收入比对中国城镇化的影响与空间效应实证分析[J].经济地理,2021,41(04):57-65.DOI:10.15957/j.cnki.jjdl.2021.04.008.
[2]崔娜娜,冯长春,宋煜.北京市居住用地出让价格的空间格局及影响因素[J].地理学报,2017,72(06):1049-1062.
[3]马国霞,徐勇,田玉军.京津冀都市圈经济增长收敛机制的空间分析[J].地理研究,2007(03):590-598.

你可能感兴趣的:(回归,数据挖掘,数据分析,arcgis)