空间统计分析与传统的统计分析,最大的区别就在于空间统计学把空间信息和空间关系都直接整合到了算法之中。如果取消掉空间相关的特性,空间统计学与传统统计学就没有多大的区别了。
因此在做空间统计时,都要求在分析之前进行“空间关系的概念化”。这个名词说起来很绕口,其实意思就是,你需要在分析时候,使用的“空间”这一概念,进行一个定义。
通俗的来说,空间很多时候就等于“距离”,特别是在生活中,我们对两个物体的“空间关系”进行定义,更多的是对这两个物体之间的距离进行描述。比如“A距离B,直线距离90公里”。那么既然有直线距离,自然也有其他的距离,比如“A距离B,车程大约3小时”。
这种使用距离来对空间概念进行的描述的方式,就是所谓的空间关系的概念化。当然,这是一种狭义的说法,之所谓狭义,是针对广义的空间概念而言的。如两个国家之间的空间描述,就从地理关系上来说,如果两个国家接壤,自然可以用“相邻”关系来描述。
而在人文上面的关系就更加多种多样了,比如两个国家处于战争状态,哪怕他们接壤,你从其中一个国家去另外一个国家,还有可能要绕道半个地球,通过第三方国家才能进入。这种情况的话,通行的距离,远远大于实际地理距离。
所以,对于不同的分析,就需要选择定义好相应的空间关系概念。例如,我们要研究某一地区的通勤情况,使用行程时间或者行程成本这种方式作为空间关系的概念,是一个很好的选择。但是有一些研究,时间和空间变得不是那么重要,比如我们要研究城市间的相关程度,或者交互程度,例如拿手机通话数来说,北京与上海之间的通话数,可能要远远的高于北京与涿州(或者保定)之间的通话数,从这种概念上来说,北京与上海的相关程度要高得多。
常见的空间关系概念化包括了距离、行程时间、固定距离、K最邻近、邻接等,具体使用哪个,取决于要测量的对象是什么。例如上面举出的几个例子,度量不同的研究对象,选择的概念就不同。
下面我们来对这些概念化内容进行一个简单的描述:
一、反距离、反距离平方(阻抗)
如果选择的是“反距离”这种方式的话,空间关系的概念模型就表示为一种阻抗或者是距离衰减。按照地理学第一定律,任何要素都会影响其他的要素,但是距离越远,影响就越小。所以使用反距离这个概念,即:随着距离的增大,影响就会减少。通常使用距离这个概念来描述空间关系的话进行分析的话,还会去设定一个距离范围,或者说阈值,这样可以减少所需要的计算数(特别是对于大型数据集而言,至关重要)。
如果你不去指定任何距离范围或者距离阈值,那么在计算的时候,系统会强行将每一个要素,都指定为其他所有要素都相邻的要素,把所有的数据都加入到计算中来。当然,在软件实现中(比如ArcGIS),就算你不指定,系统也会设定一个默认阈值,除非你强行指定阈值为0,这样就表示全集计算了。
反距离的表示如下:随着距离X的增大,影响力Y不断的衰减。
反距离(欧式距离)适用于对连续的数据(比如温度变化,直线测量等)进行建模,如果是在城市中固定位置的设施之间的空间关系衡量的时候,直线距离和路网距离可能都不太好用了,这种情况下,我们使用曼哈顿短距离,反而效果更好。
有时候我们还会选择“反距离的平方”这个概念,实际上与反距离的概念是一样的,只是你的曲线的坡度更陡,相邻要素之间的影响下降得更快,并且只有目标要素的最近相邻要素会对要素的计算产生重大影响。以下是关于反距离的幂对影响力的说明:
可以从图上看见,你选择反距离的幂越大,对距离就越敏感。
二、距离范围(影响的范围)
对于某些研究,比如热点分析,使用固定的距离是默认的空间关系的概念化。什么叫固定距离呢?就是在同等距离范围内的所有要素,都认为每个事件对我的影响是同等的。
如,在研究区域热点的时候,我们定义空间尺度为10公里,也就是将整个区域划分成10公里一个的网格,每个落在这个网格里面的事件点,都是这个网格的影响因子。而至于这个事件点,是落在网格的正中心,还是落在网格的最边缘,影响因子的强弱都是完全一样的。
如下图:
A、B、C三个点,它们都对这个网格产生影响,但是它们在网格的任何位置(无论是中心或者偏远),影响的权重都是一样的,即在固定距离范围内,所有的要素效果一样(范围内所有要素权重完全相等)。而一旦超出了指定范围,那么范围之外的所有要素都不影响计算(范围外所有要素权重为零)。
固定距离的函数表示如下:
比如我要研究的是小区居民对周边商业的影响,那么固定距离就是这个小区的范围。在小区里面居住的所有居民,无论是住在小区的中心,还是住在小区最角落里面的那栋楼,都对我的研究时候所产生的影响是一样的。
未完待续。有问题请关注虾神公众号,谢谢