数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度

文章目录

  • 1 空间地理相关性
  • 2 技术性定义
  • 3 空间相关类型
  • 4 Moran’s I(莫兰系数)
  • 5 空间自相关的应用
  • 6 案例研究: 意大利人口迁移分析
  • 7 总结
  • 8 实现工具

1 空间地理相关性

地理空间自相关是指一个物体与附近其他物体的相似程度。通俗地说,它度量的是相近物体与其他相近物体的相似程度。

地理信息系统的第一规则: 一切事物都与其他事物相关联。但是相近事物比较远事物更相关 (Waldo r. Tobler,1970)。

为了理解这个定律,例如:

  • 假设从一个网站随机挑选了一套房子,价格是60万美元。那么,如果它旁边的房子也挂牌出售,如何预测它的价格。65万美元和280万美元,会选择哪一个?

  • 如果选择了65万美元,那么我们已经潜意识地知道什么是空间自相关了。它是一些共同特征(例如房价)中两个相近物体之间的相关性。

空间自相关的一个潜在应用是,它有助于分析生态和疾病的集群和扩散。诸如“这种疾病是一个孤立的案例吗”或“降雨模式在不同地区是聚集的还是相同的”这样的问题可以通过空间自相关分析得到很好的理解和回答。

2 技术性定义

从技术上讲,空间自相关性是指在空间尺度上观测彼此相近的变量之间的关联性的度量。这个变量可能是:

  • 在连续表面上的任何一点(例如一个地区的土地使用类型,或年降水量);
  • 在特定区域内的一组固定地点(例如一组零售店铺);
  • 细分地区的一组区域(如人口普查数据中有两辆或两辆以上汽车的家庭数量或比例)。

自相关违反了统计学的核心原则,即观察值是相互独立的。根据经典统计学中的独立性假设,群体之间的观察值和群体内部的观察值应该是独立的。

因此,空间自相关显然违背了上述假设。

空间相关概念是时间相关的一种延伸。唯一的区别是时间相关性衡量一个变量随时间的变化,而空间相关性衡量两个变量的变化,即观测值(如收入、降雨量等)和位置的关系。

3 空间相关类型

地理空间相关性最常见的形式是斑块梯度

一个变量的空间相关性可以是外生的(由另一个空间自相关的变量引起, 如降雨),也可以是内生的(由某个过程引起,如疾病的传播)。

4 Moran’s I(莫兰系数)

空间自相关性通过Moran’s I系数进行度量,它是一个相关系数,用来度量数据集的整体空间相关性。Moran’s I系数可以分为正相关、负相关和无空间自相关:
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度_第1张图片

(1)空间正相关
一张地图上,当相似值聚集在一起时,空间相关性为正相关的。当Moran’s I系数接近+1时,出现正自相关。下面的图像显示了一个地区的土地覆盖情况,这是一个正相关的例子,因为类似的群集集中在一起。
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度_第2张图片
(2)空间负相关
在一张地图上,当不同的值聚集在一起时,空间相关性为负相关的。当 Moran’s I系数接近-1时,出现负的空间自相关性。棋盘是负自相关的一个很好的例子,因为不同的值相邻。
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度_第3张图片
(3)空间不相关
Moran’s I系数为0时,代表不具有空间自相关性。

5 空间自相关的应用

空间自相关的重要性在于,它有助于确定空间特征影响空间物体的重要性,以及物体与空间特性之间是否存在明确的关系。

以下是空间自相关的一些有趣的工业用例:

(1)衡量不平等性
空间自相关有助于找出衡量收入、人口或种族不平等和多样性的方法。可以利用Moran’s I系数分析收入、人口等参数在特定区域内是集中分布还是均匀分布。
[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6068954/]

(2)环境
空间自相关有助于发现城市土壤中稀土元素的聚集点。
[Spatial Autocorrelation: Neighbors Affecting Neighbors]

(3)兴趣点
自相关是用来映射不同的参数作为兴趣点距离变量的函数。
例如,离市中心多远时,房价开始下降。

(4)生态学
空间自相关广泛应用于与海洋和珊瑚礁生态系统有关的重要应用程序。
如场地适宜性分析,以确定贝类养殖场或海水养殖的规划面积。

(5)人口统计学
空间自相关用于绘制和分析选举期间的选民投票率。
例如,空间自相关用于绘制法国总统选举和法国地区选举期间的缺席率。
[https://www.researchgate.net/publication/320988214_Spatial_Autocorrelation_in_Voting_Turnout]

6 案例研究: 意大利人口迁移分析

意大利人口迁移分析
[Analyzing Migration Phenomena with Spatial Autocorrelation Techniques]

自相关对迁移分析有很大影响。本案研究意大利境内外国人口移徙情况的分析。
在不同规模的族群动态演变中,移民是一个关键因素,对经济、文化和环境都有影响。利用空间自相关性,可以识别代表移民集中度的空间聚类。

  • 从技术上讲,Moran’s I系数在这里表示的是外国和本地居民人口比率的加权方差和整体方差之间的差异。
  • 用外行术语来说,它表达了一个 给定地点的外来人口/总人口邻近空间单元的外来人口/总人口 之间的相关性。

利用相关性指数LISA (空间关联的本地指标) ,将这些场景分为三类:
(1)现象值高,且与周围环境相似程度高的地点(高-高)被定义为热点
(2)现象值低,且与周围环境相似程度低的地点(低-低)被定义为冷点;
(3)现象值高(低),但与周围环境相似程度低(高)的地点(高/低-低/高),被定义为空间异常点
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度_第4张图片
人口迁移受到限制的地区可分为以下三组:
(1)第一个集群在地理上集中在东北部地区,呈正相关(类型: 高-高)。这些群体拥有属性:收入机会 / 福利的增加,因此吸引了寻找工作的外国人;
(2)第二个集群位于中心区域,呈正相关(类型: 高-高)。这些地区也表现出类似的福利增加的特点;
(3)第三个集群位于意大利南部的城镇(类型: 低-低)。这些地区通常拥有属性:收入低,就业机会少。
数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度_第5张图片

7 总结

空间自相关不仅可以将相似对象与其他相似对象进行聚类,而且可以反映相关程度或相似程度。
它有助于发现隐藏的模式和关系,在生态学和人口统计学方面有很多应用。

8 实现工具

(1)数据量较少时,可以使用QGIS地理分析软件。
(2)Python编程进行大规模数据运算,地理分析中通常运用的分析包,包括:geopandas、OSMnx、pySal、geopy等。这些包可以帮助进行地理数据处理和运算,几分钟就可以得到结果。

LISA相关性指数:http://www.dpi.inpe.br/cursos/ser301/referencias/bivand/node9.html

原文链接:https://towardsdatascience.com/spatial-autocorrelation-close-objects-affecting-other-close-objects-90f3218e0ac8

本文主要参考于:空间自相关 | 空间位置与相近位置的指标测度(沈浩老师)

相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

你可能感兴趣的:(数据分析学习总结笔记)