地理加权回归概念介绍(虾神专辑摘要)

(一)先抛出“空间异质性”这个问题

当数据缺失时,可通过回归方程进行补全。

全局回归会出现各种问题,相比之下,局部回归效果更佳。

例如:

在我们印象中大概率会认为:人口多少与财政收入往往是正相关。

拿山东省·分市区的数据(来源:山东省统计信息网)来做个全局回归看看


R-squared(判定系数)越接近1,回归模型效果越好。

0.04:自变量只能解释4%的因变量的变化,基本叫没有什么关系。。。

但如果抽取一个市的数据算一下,发现:


威海局部回归,系数高达0.966


青岛的可解释性居然只有1%

结论

当一个数据,在A区域有很强的解释能力(威海:人口数量→财政变化,可解释性超过96%)

但在B区域的解释却非常不显著(同居鲁东的青岛)

以上这种,不同区域具有不同性质的情况,就是空间分析里无所不在的 空间异质性 。

(二)为什么提出GWR

从概念来说,进行 global model 分析前,其实已经假定了“同质性”(homo·gene·ity),从而掩盖了变量间关系的局部特征。

也就是说,全局模型得到的结果,即研究区域内的某种“平均”。

例如:北京人均年薪17.7万

这种 “地理位置变化 → 变量间关系/结构的变化” 称为 空间·非平稳性(spatial non·station·arity)

Attention: 空间非平稳性 ≠ 空间异质性 (前者是后者的一种表现形式

引起空间非平稳性的三个原因

①随机抽样的误差  ②自然、人文环境等差异  ③分析模型与实际不符

传统的应对方法

①局部回归分析:将研究区域划分为若干个同质性的区域分别进行回归

(问题:样本数量不一致,导致拟合所得的估计参数不同;行政区划本身存在各种特殊情况,导致估计与实际不符,因为在现实中交界处的变化是缓慢而连续的,而边界划分会产生突然的“跳变”)

改进——移动窗口回归:在每个样本周边定义一个回归区域,以其中的样本数据建立回归方程进行参数估计(窗口大小和性质决定区域)

对比:

依然无法避免相邻回归点上参数估计的跳变问题

②变参数回归模型(GWR的前身)

一种趋势拟合法,当模型参数变化复杂时,此模型就歇菜了。

于是1996 地理加权回归模型(GWR) 被提出


(三)具体计算公式

GWR继续应用了 变参回归 局部回归 的思想,在回归时使用了空间关系作为权重加入到运算中。

全局回归 vs 局部回归

局部回归看起来就像缩小版的全局回归

地理加权回归

最重要的就是 “距离衰减函数”

首先:划定研究区域,通常这个区域也可以包含整个研究数据的全体区域(以此扩展,可以利用空间关系(比如k-临近),进行局部地理加权计算)……

接下来:利用每个要素的不同空间位置,去计算衰减函数。

于是就可以把每个要素的空间位置(一般是坐标信息(x,y)) 和 要素的 带入到这个函数里,得到一个权重值,这个值就可以带入到回归方程里了。

这个衰减函数的理论基础:地理学第一定律(Tobler's First Law)

利用公式对所有的样本点进行逐点的计算。

其他样本点 根据 与计算样本点不同的空间关系 赋予 不同的权值,得出每个不同样本的相关回归系数了。最后通过解读这些个系数,完成整个地理加权回归分析整个分析过程。

【计算公式】

不同点→不同 值:体现空间异质性

空间权重矩阵

无向图


距离矩阵
将以上矩阵带入方程

常见的空间权重函数

①高斯函数(Gauss

距离可以是:欧式、曼哈顿... ... 

②双重平方函数(Bi-Square

b:带宽 / 窗口大小

THEN 如何确定带宽?→(五)

①交叉确认·CV(Cross Validation)

②赤池信息量准则·AIC(Akaike information criterion)


(四)两类应用最多的空间权重计算函数

空间权重矩阵 就是用 空间关系 概念化计算来的

ArcGIS中的 七类·空间关系

距离阈值:在指定范围内权重为1,剩下就是反距离(距离反比:距离越远,权重越小)

:一个常数(经验值在0~3,取0就是全局回归)

存在问题:当d_ij=0(回归点和样本点重合)时,权值无穷大。若剔除又会使精度降低。

因此,我们选择一个连续单调的 递减函数 来表示 权重w和距离d之间关系,以此来克服反距离的缺点。(下面列出两种应用最为广泛的方法)

①Gauss函数法

b越大,权重随距离衰减越慢

但与直接的反距离公式不同:当带宽为0的时候,只有回归点上的权值为1,其他各观测点的权重都无限趋近0。当带宽无穷大的时候,所有的观察点权重都无限接近1,那么就变成了全局回归。

只要带宽给定了,距离d为0的时候 ,权重达到最大(w =1)。而随着距离的增加,权重w逐渐减少,当离得足够源的时候,权重w就无限接近于0了。所以这些足够远的点,可以看成对回归点的参数估计几乎没有影响。

但是,如果数据非常离散,就会产生“长尾效应”(大量的数据躲得很远),带来大量的计算开销。所以,在实际运算中,应用的是近高斯函数来替代高斯计算,把那些影响很小的点给截掉,以提高效率。

②Bi-Square函数

距离阈值法 + Gauss函数法

回归点在带宽的范围内,通过 “高斯连续单调递减函数” 计算数据点的权重,超出的部分,权重全部记为0。

(五)两种确定带宽的方法

①“交叉验证法”(Cross Validation)

进行回归参数估计时,不包含回归点本身。

将不同带宽对应的CV绘制成趋势线

最小CV值 → “最佳带宽”

通俗地说:把数据分成N组,用其中一部分用来计算,另外一部分数据就用来验证;之后用另一部分进行计算,使用前一部分进行验证。

应用举例:验证哪种战术效果最好。

具体方法:把所有队员分成若干组,然后用不同的战术相互进行PK。不断重新随机分组再来一次,最后统计不同战术的胜率。

②“最小信息准则”(Akaike information criterion)

AIC = (2倍(模型的独立参数个数)- 两倍 ln(模型的极大似然函数))/ 观测值个数

首先假设:误差的出现服从独立正态分布。所以采用极大似然函数就有意义了。

(极大似然函数:简单的说,假设有N种结果,如果我们仅作次实验,出现哪个结果,就认为哪个结果概率最大。)

当我们有一堆可供选择的模型参数的时,选AIC最小的。

(AIC的大小取决于 “独立参数的个数” 和 “模型的极大似然函数两个值”。参数值少(模型简洁),AIC;极大似然函数大(模型精确),AIC小。

当两个模型之间存在较大差异的时候,这个差异肯定首先出现在模型的极大似然函数上;而这个函数没有出现显著的差异的时候,模型的独立参数个数才起作用了,从而,参数个数越少的模型,表现得越好。也就是这个原因,这个准则才被称为:最小信息准则。(鼓励数据拟合的优良性,通过控制自由参数的多少避免出现过度拟合。)

你可能感兴趣的:(地理加权回归概念介绍(虾神专辑摘要))