目录
一、理论依据
二、统计计算依据
三、统计计算目标
四、统计计算的几个基本要素
五、统计计算方法
六、 统计计算工作流
附件:相关概念
地理学第一定律(相关性定律):任何事物都是空间相关的,相近的事物相关性更大。(托布勒)
地理学第二定律(异质性定律):空间隔离造成了空间分异,地理现象的空间变化是不可控的。(好孩子)
地理学第三定律(相似性定律):地理环境越相似,地理目标特征越接近。(朱阿兴)
地理学三大定律总结了地理单元之间属性依赖性与距离的相互关系,可以根据地理单元分布状况,分析地理现象,把握地理单元之间的相互关联、相互影响情况,预测地理要素距离上的未知值,模拟地理现象时空过程。
地理单元统计计算感兴趣的是聚集现象。
地理单元模型分为连续场模型、离散要素模型。
地理单元模型既包位置特征数据,也包含属性特征数据。因此,空间计算既包含地理单元位置维度的数据计算,也包含地理单元特征维度的数据计算。
地理单元具有聚集、分散等现象,地理单元之间具有相似性、联通性和各项异性特点。距离近的地理单元,特征相似;距离远的地理单元,特征分异。
地理单元各项异性是指地理单元的聚集或分散现象有明显的方向收缩或者扩张特性。
地理单元之间既不可能是完全随机分布,也不可能是完全结构化分布,地理单元的某个特征值在距离上存在自相关性。
地理单元之间自相关性:属性正相关,自变量增长,因变量也增长;负相关反之。
地理单元随机分布状况:正态分布、二项分布、高斯分布、泊松分布。。。。
地理单元空间统计既包含地理单元特征的统计分析,又包含地理单元的空间统计分析。地理单元的统计分析如:分层统计、分区统计、样方统计(此统计不在本文考虑范围内),地理单元的空间统计分析如:离散对象属性关联统计,连续场属性关联统计。
地理单元统计计算一定是与距离、方向相关的。
地理单元统计计算一定是某个距离范围内地理单元特征值之间的相互关系。比如A市内的总人口统计就不是地统计考虑的范畴,而A市内各个县总人口之间的关系就是统计计算的范畴。
地理单元统计计算一定会转化为正态分布。
空间统计计算的重点在于研究地理单元的聚集现象,以获取地理单元之间空间关系信息的一套方法或分析过程。
空间统计计算的目标在于界定地理单元之间的相互依赖性和相互影响力:到底哪一种或多种空间要素产生影响,影响力有多大,如何建立模型解释空间自变量与因变量之间的关系,以及如何根据这种关系计算、预测因变量随着自变量的时空变化情况。
空间数据总体:某种空间要素的总体或者总量。
空间数据观测样本:某种空间要素的抽样观测量,样本是否真实性,样本是否具有代表性(随机抽样、分层抽样)。
空间数据的基本特征值:既包含空间图形对象平面的空间众数中心、空间中心要素、空间平均中心、空间密度、空间聚类距离、方向分布等,也包含探测对象特征数据平面的欧式距离(非位置距离:比如不同地物光谱空间距离不同)、平均数、众数、方差、标准差、中心距、分位数、偏度、峰度、熵等以及与距离相关的反距离、行程时间、固定距离、K 最近邻域和邻接等。
空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到算法中。
地理单元的基础自变量是距离,因变量是地理单元的特征值(如:某个区域的气温、降水、土壤肥力、地磁场等与位置距离的依赖或影响情况),通过距离加权进行换算,如万有引力的加权是距离平方的倒数。
地理单元的其他特征值也可以是自变量(其他特征能够作为自变量的先决条件在于具有相关性,该相关不是自相关),要考察的地理单元特征值作为因变量,其他特征值也可以像距离一样加权进行换算。
空间数据观察手段:地图展示、直方图、标准差椭圆图、正态 QQ 图、Voronoi图、趋势图
空间分析或建模手段:分区分析(洛伦兹曲线、基尼系数、锡尔指数)、相关性分析(莫兰指数、吉尔指数)、多元线性分析、非线性分析、时间序列分析、聚类分析、分类分析、随机过程分析、空间网络分析、分形分析、复杂系统分析等。
空间模型常数回归改正手段:最小二乘法
空间预测手段:克里金插值(曲面拟合)、马尔科夫预测等
空间模型检验手段:参数估计、假设检验、抽样检验、分类误差椭圆、交叉验证。。。。。
空间规划手段:线性规划、非线性规划、多目标混合规划、投入产出规划、风险决策规划、系统规划等。
统计计算工作流包含空间数据探测、数据预处理(异常值剔除、数据变换)、空间自相关分析、空间数据建模、模型检验、空间数据预测、预测验证等几个方面。(手上也没有其他工具,就用arcgis吧)
1、数据探测
探索数据是详细了解地理现象之间关系的第一步,计算空间数据的地理中心、中位数、中心要素、标准距离、平均中心、方向分布、临近点距离等,将空间数据在地图上展示,可以大致了解数据的大致聚集或分散情况,地理中心覆盖范围有多广等,通过直方图、正态 QQ 图等工具探测空间数据的地理分布状况或分布趋势,在空间上是否服从正态分布等,对应工具:度量地理分布和ESDA(探索性空间数据分析)。
(1)地图展示
将一系列样本数据展示到地图上,观察数据空间分布状况,哪些地方是聚集的,哪些地方是分散的。在地图中,模式非常清晰,但试图通过地图得出结论仍然非常困难。全部是聚集,使用全局空间分析工具,局部聚集使用局部分析工具。
(2)核密度
使用核函数根据点或折线 (polyline) 要素计算每单位面积的量值以将各个点或折线 (polyline) 拟合为光滑锥状表面。
(3)点密度
根据落入每个单元周围邻域内的点要素计算每单位面积的量级。
(4)线密度
根据落入每个单元一定半径范围内的折线 (polyline) 要素计算每单位面积的量级。
(4)中位数中心
识别数据集中要素之间的总欧氏距离达到最小的位置点。
(5)中心要素
识别点、线或面要素类中位于最中央的要素。
(6)平均中心
识别一组要素的地理中心(或密度中心)。
(7)方向分布(标准差椭圆)
创建标准差椭圆以概括地理要素的空间特征:中心趋势、离散和方向趋势。
(8)标准距离
测量要素在几何平均中心周围的集中或分散的程度。
(9)线性方向平均值
识别一组线的平均方向、长度和地理中心。
(10)近邻点距离
返回一组要素与指定的 N 个最邻近点(N 为输入参数)的最小、最大和平均距离。可从结果窗口访问执行结果。
相邻元素----将要考虑的各要素的相邻点数目 (N)。此数目应为介于 1 和要素类中的要素总数之间的任意整数。各要素与其第 N 个相邻点之间的距离的列表将被编译,并且最大、最小和平均距离将被输出到“结果”窗口。
距离法
指定计算每个要素与邻近要素之间的距离的方式。
EUCLIDEAN_DISTANCE—两点间的直线距离
MANHATTAN_DISTANCE—沿垂直轴度量的两点间的距离(城市街区);计算方法是对两点的 x 和 y 坐标的差值(绝对值)求和。
(11)直方图
用于显示感兴趣数据集的频率分布并计算汇总统计数据,观察平均值、标准差、偏度、峰度等。
(12)正态 QQ 图
分位数-分位数 (QQ) 图是两种分布的分位数相对于彼此进行绘制的图,用于展示两种数据之间的相关关系。
(13)普通 QQ 图
用于评估两个数据集的分布的相似程度,这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上。
(14)Voronoi图
由围绕采样点的位置形成的一系列多边形所构成的地图,用于标识可能的异常值。
(15)半变异函数/协方差云
显示了一个数据集内的所有位置对的经验半变异函数和协方差值,并且将其作为分隔两位置的距离的函数进行绘制。
交叉协方差云显示了两个数据集间的所有位置对的经验交叉协方差,并且将其作为两位置间距离的函数对其进行绘制,交叉协方差云可以用来检查两个数据集之间空间相关的局部特征,并且能够用于在两个数据集之间的相关中查找空间平移。
(16)趋势分析
用于识别输入数据集中的趋势。
“趋势分析”工具提供数据的三维透视图。采样点的位置绘制在 x,y 平面上。在每个采样点的上方,值由 z 维中的杆的高度给定。“趋势分析”工具的唯一功能是值将会作为散点图投影到 x,z 平面和 y,z 平面上。可以将其视为通过三维数据形成的横向视图。之后会根据投影平面上的散点图拟合多项式。而且,您还可以旋转数据来隔离方向趋势。此工具也包括其他功能,这些功能可用于旋转和改变整个图像的视角、更改点和线的大小和颜色、移除平面和点,以及选择拟合散点图的多项式的阶数。默认情况下,工具会选择二阶多项式来显示数据中的趋势,但您可能想要研究一阶多项式和三阶多项式来评估其对数据的拟合程度。
2、异常值剔除
异常值是测量样本的误差或者错误数据,应当探查出来加以剔除。全局异常值是相对于数据集中的所有值而言具有非常高值或非常低值的已测量采样点。局部异常值是一个已测量采样点,其值处于整个数据集的正常值域范围内,但查看周围点时,其值则显得异常高或异常低。
(1)通过直方图工具查找异常值
直方图工具可用于选择分布形态尾部上的点。所选的点显示在 ArcMap 数据视图中。如果极值是孤立的位置(例如,被非常不同的值所包围),则可能需要做进一步的调查,而且在必要情况下,需将其移除。
在以上示例中,高臭氧值不是异常值,不应从数据集中移除。
(2)通过半变异函数/协方差云识别异常值
如果数据集中存在具有异常高值的全局异常值,则无论怎样,距离所有点和异常值的配对在半变异函数云中也将具有高值。如以下半变异函数云和直方图中所示。请注意,半变异函数中存在两个主要的点地层。如果擦除上层地层中的点,如图所示,可以在 ArcMap 视图中发现所有这些高值都来自与一个单个位置(全局异常值)的配对。因此,点的上层是通过所有与单个异常值的位置配对创建而成,而下层则由剩余位置中的配对组成。当查看直方图时,可以在直方图的右尾部看到一个高值,再次识别出全局异常值。该值可能是输入错误导致,应进行移除或校正。
当存在并未超出整个分布范围的局部异常值时,其相对周围的值来说,却显得异常。在以下所示局部异常值直方图中可以看出,彼此靠近的成对位置具有高半变异函数值(这些位于 x 轴的最左端的点表示它们彼此靠近,在 y 轴上存在的高值表示半变异函数值高)。当把这些点擦除后,可以看出所有这些点都和一个单个位置配对。当查看直方图时,会发现没有异常的单个值。有问题的位置高亮显示在直方图的下尾部,并和较高的周围值配对(参见直方图中的高亮显示点)。此位置可能是局部异常值。在确定该点上的值是错误的,还是实际上反映了现象的真实特征并应作为模型的一部分之前,应该进行进一步的调查。
(3)通过 Voronoi 制图查找异常值
Voronoi 地图基于聚类方法和熵方法可用于标识可能的异常值。熵值为相邻像元间的相异性提供了度量值。本质上,您会期望距离较近的事物比距离较远的事物更相似。因此,局部异常值可通过高熵区域识别。通过聚类方法可识别与其相邻像元不相似的像元。一般认为特定像元中记录的值至少应和一个相邻值相似。因此,此工具可用于识别可能的异常值。
(4)聚类和异常值分析
局部莫兰指数,给定一组加权要素,使用 Anselin Local Moran's I 统计量来识别具有统计显著性的热点、冷点和空间异常值。
(5)带渲染的聚类/异常值分析
给定一组加权要素,利用 Anselin 提出的局部 Moran's I 统计量识别出热点、冷点和空间异常值。然后,将由冷到热的渲染方式应用于 z 得分结果。
3、空间相关性分析
地理单元之间的相互作用,除了距离起作用,其他特征因素也会影响被观测对象,通过空间相关性分析探查距离、特征要素与被观察对象的相互依赖关系,为建立模型提供多元分析要素(如:一个地区的年降水量不仅受距离的影响,还受当地高程、气温的影响)。严格意义上说空间相关性分析也是一种数据探查手段。
根据空间数据的聚类分布状况,通过空间自相关(莫兰指数)、增量空间自相关、高低聚类、平均最邻近等工具分析空间要素的空间相关情况,对于多聚类情形,通过聚类制图和特殊渲染方式,确定在哪个距离处促进空间聚类的过程最明显。
(1)增量空间自相关
测量一系列距离的空间自相关,并选择性创建这些距离及其相应 z 得分的折线图。z 得分反映空间聚类的程度,具有统计显著性的峰值 z 得分表示促进空间过程聚类最明显的距离。这些峰值距离通常为具有“距离范围”或“距离半径”参数的工具所使用的合适值。
(2)多距离空间聚类分析(Ripleys K 函数)
确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。
(3)平均最近邻
根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。
“平均最近邻”工具将返回五个值:平均观测距离、预期平均距离、最近邻指数、z 得分和 p 值。
(4)莫兰指数,空间自相关
根据要素位置和属性值使用 Global Moran's I 统计量测量空间自相关性。
(5)高/低聚类
使用 Getis-Ord General G 统计可度量高值或低值的聚类程度。
(6)分组分析
根据要素属性和可选的空间/时态约束对要素进行分组。
收集事件并渲染:首先将事件数据转换为加权点数据,然后使用分级圆圈对生成的计数字段进行渲染。
计数渲染:应用分级圆圈对要素类中的数值型字段进行渲染。
(7)热点分析
给定一组加权要素,使用 Getis-Ord Gi* 统计识别具有统计显著性的热点和冷点。
带渲染的热点分析:计算热点分析的 Getis-Ord Gi* 统计,然后对输出 Z 得分应用“冷色到暖色”的渲染类型。
优化的热点分析:给定事件点或加权要素(点或面),使用 Getis-Ord Gi* 统计创建具有统计学上的显著性的热点和冷点的地图。它评估输入要素类的特征以获得最佳结果。
Z 得分渲染:对某一区域的 z 得分应用从冷色(蓝色)到暖色(红色)的渲染方案。
4、空间数据建模
对地理要素所关联的数据变量之间的关系进行建模,回归方法可以对空间关系进行验证并衡量空间关系的稳固性。
工具 |
描述 |
探索性回归 |
“探索性回归”工具会对输入的候选解释变量的所有可能组合进行评估,以便根据用户所指定的各种指标来查找能够最好地对因变量做出解释的 LOS 模型。 |
生成网络空间权重 |
使用网络数据集构建一个空间权重矩阵文件 (.swm),从而在基础网络结构方向定义要素空间关系。 |
生成空间权重矩阵 |
构建一个空间权重矩阵 (SWM) 文件,以表示数据集中各要素间的空间关系。 |
地理加权回归 |
执行“地理加权回归 (GWR)”,这是一种用于建模空间变化关系的线性回归的局部形式。 |
普通最小二乘法 |
执行全局“普通最小二乘法 (OLS)”线性回归可生成预测,也可为一个因变量针对它与一组解释变量关系建模。 |
生成空间权重矩阵:构建一个空间权重矩阵 (SWM) 文件,以表示数据集中各要素间的空间关系。
空间关系的概念化,指定要素空间关系的概念化方式。
INVERSE_DISTANCE—一个要素对另一个要素的影响随着距离的增加而减少。
FIXED_DISTANCE—将每个要素指定临界距离内的所有要素都包含在分析中;将临界距离外的所有要素都排除在外。
K_NEAREST_NEIGHBORS—将最近的 k 要素包含在分析中;k 是指定的数字参数。
CONTIGUITY_EDGES_ONLY—共用一个边界的面要素是相邻要素。
CONTIGUITY_EDGES_CORNERS—共用一个边界和/或一个结点的面要素是相邻要素。
DELAUNAY_TRIANGULATION—基于要素质心创建不重叠三角形的网格;使用相同边且与三角形结点关联的要素是相邻要素。
SPACE_TIME_WINDOW—相邻要素是指在指定的临界距离内且在彼此的指定时间间隔内出现的要素。
CONVERT_TABLE—在表中定义空间关系。
生成网络空间权重
使用网络数据集构建一个空间权重矩阵文件 (.swm),从而在基础网络结构方向定义要素空间关系。
探索性回归:“探索性回归”工具会对输入的候选解释变量的所有可能组合进行评估,以便根据用户所指定的各种指标来查找能够最好地对因变量做出解释的 LOS 模型。
相关性模型检验
通过参数估计、假设检验、抽样检验、交叉检验等验证相关性模型的有效性
空间数据预测
对数据进行空间曲面拟合,使用克里金插值或者表面拟合方法对空间分布趋势进行预测。
5、曲面拟合
插值方法
(1)确定性插值方法
确定性方法包含的参数可控制 (1) 值的相似程度(例如反距离权重法)或 (2) 表面的平滑程度(例如径向基函数插值法)。这些方法并不基于随机空间过程模型,且数据中不存在空间自相关的显式测量或建模。确定性方法包括以下内容:
全局多项式插值法 (GPI),局部多项式插值法 (LPI),反距离权重法 (IDW),径向基函数插值法(RBF)
(2)地统计插值方法
地统计方法假设至少某些自然现象中所观测到的空间变化可借助空间自相关通过随机过程进行建模,并需要对空间自相关显式建模。地统计方法可用于对空间模式进行描述和建模(变异分析)、预测未测量位置的值(克里金法)以及评估与未测量位置处的预测值相关联的不确定性(克里金法)。
地统计向导提供了多种类型的克里金法(适合不同类型的数据并具有不同的基本假定条件):
普通克里金法,简单克里金法,泛克里金法,指示克里金法,概率克里金法,析取克里金法面插值克里金法,经验贝叶斯克里金法。
这些方法可用于生成以下表面:
克里金预测值图,与克里金预测值相关联的标准误差图,指示是否超出预定义临界水平的概率图,预先确定的概率水平的分位数图。
(3)含障碍的插值法(在插值过程中使用不可透性或半透性障碍)
扩散核
核平滑
6、模型检验与评估
交叉验证:先移除一个数据位置,然后使用其余位置处的数据预测关联数据。该工具的主要用途是,比较预测值与实测值以获取有关某些模型参数的有用信息。
7、空间规划
空间规划有线性规划、非线性规划、多目标规划、系统规划等,属于未来资源配置范畴,通过抑制、疏导、促进等手段配置空间资源,可以参看城乡规划、自然资源规划、交通规划、水利规划、环境规划等材料。
属性汇总统计
功能 |
统计数据 |
输出 |
汇总菜单选项 |
最小值、最大值、平均值、总和、标准差、方差 |
结果将写入新表。 |
频数工具 |
计数、总和 |
结果将写入新表。 |
空间位置汇总统计
问题 |
工具 |
示例 |
中心在哪里? |
平均中心或中位数中心 |
人口中心在哪里以及它如何随时间变化? |
哪个要素的地理位置最便利? |
中心要素 |
新建的支持中心应定址在哪里? |
主导方向或方位是什么? |
线性方向平均值 |
冬季的主要风向是什么? 此地区断层线的朝向如何? |
要素的分散程度、密集程度或整合程度如何? |
标准距离或方向分布 (标准差椭圆) |
哪个犯罪团伙所涉案的地域最大? 哪种疾病菌株的分布范围最广? 根据动物选择的生活地点,各物种的融合程度如何? |
是否存在定向趋势? |
方向分布 (标准差椭圆) |
残骸现场的方位在哪里?残骸的集中区域在哪里? |
分布、分析模式和识别聚类统计
功能领域 |
工具集 |
工具 |
地理分布测量 |
度量地理分布 |
平均中心、中心要素、标准距离、方向分布(标准差椭圆)、线性方向平均值 |
地理模式分析 |
分析模式 |
平均最近邻、空间自相关 (Moran's I)、高/低聚类 (Getis-Ord General G) |
地理聚类分析 |
聚类分布制图 |
聚类和异常值分析 (Anselin Local Moran's I)、热点分析 (Getis-Ord Gi*) |
回归分析 |
空间关系建模 |
普通最小二乘法、探索性回归、地理加权回归 |
工具集 |
描述 |
分析模式 |
这些工具可用于评估要素(或与要素关联的值)是形成一个聚类空间模式、离散空间模式还是随机空间模式。 |
聚类分布制图 |
这些工具可用于识别具有统计显著性的热点、冷点或空间异常值。 |
度量地理分布 |
这些工具可以解决以下类型的问题:中心在哪里?形状和方向如何?要素如何分散布局? |
空间关系建模 |
这些工具可利用回归分析来建立数据关系模型,也可以构建空间权重矩阵。 |
渲染 |
这些工具可用于渲染分析结果。 |
工具 |
这些实用工具可执行多种功能:计算面积、评估最小距离、导出变量和几何、转换空间权重文件和采集重合点。 |
标识具有统计显著性的聚类
问题 |
工具 |
示例 |
热点在哪里?冷点在哪里?聚类的集中程度如何? |
热点分析 (Getis-Ord Gi*) 或聚类和异常值分析 (Anselin Local Moran's I) |
富裕地区与贫困地区之间过渡界限在哪里? 哪里是生物多样性最高且栖息条件最好的地方? |
异常值在哪里? |
聚类和异常值分析 (Anselin Local Moran's I) |
我们可以在洛杉矶的哪些地方找到异常的消费模式? |
如何可以实现最有效的资源调配? |
热点分析 (Getis-Ord Gi*) |
哪里的糖尿病发病率非常高? 哪里的厨房火灾占住宅火灾的比例高于预期值? 白天发生的犯罪案件与夜晚发生的犯罪案件是否具有相同的空间模式? |
哪些位置与问题发生位置相距最远? |
热点分析 (Getis-Ord Gi*) |
避难场所应设置在哪里? |
哪些要素最相似?数据的空间结构是什么样的? |
分组分析 |
数据库中的哪些犯罪与刚刚发生的犯罪行为最为相似? 测验分数具有不同的空间分布状况吗?哪些区域与较高的测验分数相关,哪些区域与较低的测验分数相关? 根据空间、时间和征兆判断,哪些疾病事件很可能属于同一次爆发事件。 |
评估整体空间模式
问题 |
工具 |
示例 |
各空间特征之间是否存在差异? |
空间自相关 (Global Moran's I) 或平均最近邻 |
哪一类犯罪的空间聚集度最高? 哪些植物物种的分布在整个研究区域中最为离散? |
空间模式是否随着时间的推移而发生变化? |
空间自相关 (Global Moran's I) 或高/低聚类 (Getis-Ord General G) |
富裕区和贫困区在空间上是否或多或少地出现隔离? 是否突然存在药品购买高峰? 随着时间推移,该疾病是保持固定在同一个地理位置,还是扩散到邻近的地方? 防范措施是否有效? |
空间过程彼此之间是否类似? |
多距离空间聚类分析 (Ripley's K 函数) |
该疾病的空间模式是否反映出高危人群的空间模式? 商业旺地的空间模式是否与商业设施的空间模式相偏离? |
数据在空间上是否相关? |
空间自相关 (Global Moran's I) |
回归残差是否表现出具有统计显著性的空间自相关? |
哪个距离上的空间聚类最明显? |
增量空间自相关 |
哪个距离最能反映分析的合适比例? |
关系建模
问题 |
工具 |
示例 |
是否存在相关性?关系的稳固程度如何?哪些变量是最一致的预测因子?这些关系在整个研究区域是否一致? |
普通最小二乘法 (OLS)、探索性回归和地理加权回归 (GWR) |
教育程度与收入之间是什么关系?这种关系在整个研究区域内是否一致? 财产破坏的行为数与入室盗窃数之间是否存在明确的关系? 哪些候选解释变量的组合将生成正确指定的回归模型? 患病几率是否会随着与水体要素的接近而增加? |
哪些因素可能会导致特定结果的发生?还有什么地方可能有类似的反应? |
普通最小二乘法 (OLS)、探索性回归和地理加权回归 (GWR) |
有哪些关键可变因素可以解释森林火灾频发的原因? 哪些人口特征导致了较高的公共交通工具使用率? 应对哪些环境群落加以保护以促进濒危物种的再引入? |
缓解措施在哪里会最有效? |
普通最小二乘法 (OLS) 和地理加权回归 (GWR) |
哪些地方的孩子会始终保持高的考试分数?似乎与哪些特征联系在一起?每个特征分别在哪些地方最为重要? 哪些因素与高于预期的交通事故的发生比例相关?在每个事故高发地点,哪些因素是最强的预测因子? |
模式可能会发生什么样的变化?我们可以做出哪些准备工作? |
普通最小二乘法 (OLS) 和地理加权回归 (GWR) |
911 报警呼叫的热点在哪里?哪些可变因素可有效预测呼叫数?鉴于对未来的预测,对应急资源的预期需求有哪些? |
此位置为什么会成为热点?此位置为什么会成为冷点? |
热点分析 (Getis-Ord Gi*)、 普通最小二乘法 (OLS) 和地理加权回归 (GWR) |
为什么在某些特定区域癌症发病率如此高? 为什么在一些地区的识字率很低? 美国是否有持续发生年轻人早逝的地方?原因是什么? |
栅格统计
工具 |
位置 |
输入 |
输出 |
用途 |
像元统计数据 |
局部工具集 |
多个栅格 |
栅格 |
根据多个输入为各像元计算各项指定的统计数据。 |
焦点统计 |
邻域分析工具集 |
栅格 |
栅格 |
汇总栅格中位于每个像元格附近指定邻域内的值,然后将汇总后的值分配给输出栅格中对应的像元。 |
点统计 |
邻域分析工具集 |
点要素 |
栅格 |
汇总指定邻域内点要素属性的值,然后将这些值分配给输出栅格中的像元 |
线统计 |
邻域分析工具集 |
线要素 |
栅格 |
汇总指定邻域内线要素属性的值,然后将这些值分配给输出栅格中的像元 |
分区统计 |
区域分析工具集 |
栅格或面要素 |
栅格或汇总表 |
按照输入栅格或面数据集的种类或类别(区域)汇总某栅格表面的各个值。 |
反距离
空间关系的概念模型是一种阻抗或距离衰减。任何要素都会影响其他所有要素,但距离越远,影响越小。使用反距离这一概念化表述时,通常要指定一个距离范围或距离阈值以减少所需的计算数(尤其对于大型数据集而言),通过将距离范围或距离阈值设置为零,可将每一个要素都强制指定为其他所有要素的邻域。
反欧氏距离适用于对连续数据(如温度变化)进行建模。当分析涉及硬件存储的位置或其他固定的城市设施位置时,道路网络数据不再适用,而反曼哈顿距离可能最为合适。使用“反距离平方”选项时的概念模型与使用“反距离”时相同,只是曲线的坡度更陡,因此邻域影响下降得更快,并且只有目标要素的最近邻域会对要素的计算产生重大影响。
欧氏距离
曼哈顿距离
零假设和空间统计
“空间统计”工具箱中的几种统计工具都是推断式空间模式分析方法,其中包括空间自相关 (Global Moran's I)、聚类和异常值分析 (Anselin Local Moran's I) 和热点分析 (Getis-Ord Gi*)。推断统计都建立在概率论的基础之上。概率是对评测可能性的一种量度,它的基本原则是,所有的统计检验(直接或间接)都是概率计算,用于评估可能性在分析结果中的作用。通常,对于传统的(非空间)统计,您处理的是随机样本,并设法确定样本数据是否能够很好地代表(反映出)整个总体的概率。例如,您可能会问:“从投票站调查得出的结果(表明候选者 A 将以微弱优势打败候选者 B)反映出最终选举结果的几率有多大?”但是对于许多空间统计方法(包括上面列出的空间自相关类型统计),您通常处理的是研究区内的所有可用数据(所有犯罪案件、所有的疾病案例、所有人口普查区的属性等等)。在对整个总体计算统计数据时,得出的不再是估算值。您所掌握的是事实。因此,探讨可能性或概率不再有任何意义。那么,通常适用于研究区域中所有数据的空间模式分析工具如何才能合理地报告概率呢?答案就是,它们可以通过假设数据事实上是某个更大总体中的一部分(通过零假设)来实现这一点。请更细致地考虑这一点。
随机化零假设 - 在适当的情况下,“空间统计”工具箱中的工具会将随机化零假设作为统计显著性测试的基础。随机化零假设会假定对您的数据所观测到的空间模式表示的是多种 (n!) 可能的空间排列中的一种排列。如果您可以拾取数据值并将它们放置到研究区域中的各要素,则可能会得到这些值的某一种可能的空间排列。(请注意,拾取数据值并将它们任意放置是随机空间过程的一个示例)。随机化零假设表明的是,如果您可以无数次进行此练习(拾取数据,然后放置数据),则多数时候您所获得的模式与观测到的模式(真实数据)相比都没有明显差别。偶尔您可能会无意中将所有最高值放置到研究领域的同一角落中,但这样做的概率很小。随机化零假设表明的是,您的数据只是完全空间随机性的众多可能版本之一。数据值是固定不变的,只有它们的空间排列会发生变化。
归一化零假设 - 归一化零假设是一种常见的备选零假设,并不是由“空间统计”工具箱来执行。归一化零假设假定所观测到的值是通过某一随机抽样过程从无限大的呈正态分布的值总体中获得的。如果使用另一个样本,您会得到不同的值,但您仍期望这些值可以用来代表更大型的分布。归一化零假设表明的是,所获得的值代表了是众多可能的值样本之一。如果您能够将观测的数据与正态曲线拟合并从该分布中随机选择值来放置到研究区域,则多数时候您所获得的值模式和值分布与观测到的模板/分布(真实数据)相比都没有明显的差别。归一化零假设表明的是,您的数据及其排列是众多可能的随机样本之一。数据值及其空间排列都不是固定不变的。归一化零假设仅适用于数据值呈正态分布的情况。
z 得分、 p 值
大多数统计检验在开始时都首先确定一个零假设。模式分析工具(“分析模式”工具集和“聚类分布制图”工具集)的零假设是完全空间随机性 (CSR),它或者是要素本身的完全空间随机性,或者是与这些要素关联的值的完全空间随机性。模式分析工具所返回的 z 得分和 p 值可帮助您判断是否可以拒绝零假设。通常,您将运行其中一种模式分析工具,并希望 z 得分和 p 值表明可以拒绝零假设,这就意味着:您的要素(或与要素关联的值)表现出统计意义上的显著性聚类或离散模式,而不是随机模式。如果您在景观分布(或空间数据)中发现了空间结构(如聚类),就证明某些基础空间过程在发挥作用,而这方面通常正是地理学者或 GIS 分析人员所最为关注的。
p 值表示概率。对于模式分析工具来说,p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率事件),因此您可以拒绝零假设。您可能会问这样的问题:要小到什么程度才算足够小?这是一个非常好的问题。请参见下面的表和内容论述。
Z 得分表示标准差的倍数。例如,如果工具返回的 z 得分为 +2.5,我们就会说,结果是 2.5 倍标准差。如下所示,z 得分和 p 值都与标准正态分布相关联。
在正态分布的两端出现非常高或非常低(负值)的 z 得分,这些得分与非常小的 p 值关联。当您运行要素模式分析工具并由该工具得到很小的 p 值以及非常高或非常低的 z 得分时,就表明观测到的空间模式不太可能反映零假设 (CSR) 所表示的理论上的随机模式。
要拒绝零假设,您必须对所愿承担的可能做出错误选择(即错误地拒绝零假设)的风险程度做出主观判断。因此,请先选择一个置信度,然后再执行空间统计。典型的置信度为 90%、95% 或 99%。这种情况下,99% 的置信度是最保守的,这表示您不愿意拒绝零假设,除非该模式是由随机过程创建的概率确实非常小(低于 1% 的概率)。
置信度
下表显示了不同置信度下未经校正的临界 p 值和临界 z 得分。
z 得分(标准差) |
p 值(概率) |
置信度 |
< -1.65 或 > +1.65 |
< 0.10 |
90% |
< -1.96 或 > +1.96 |
< 0.05 |
95% |
< -2.58 或 > +2.58 |
< 0.01 |
99% |
请考虑一个示例。置信度为 95% 时,z 得分的临界值为 -1.96 和 +1.96 倍标准差。同时,与其关联的未经校正的 p 值为 0.05。如果 z 值在 -1.96 和 +1.96 之间,则未经校正的 p 值将大于 0.05,因而不能拒绝零假设,因为所表现出的模式很可能是随机空间过程产生的结果。如果 z 得分在该范围之外(例如,-2.5 或 +5.4 倍标准差),则所观测到的空间模式可能过于罕见,不可能是随机过程产生的结果,而且 p 值很小也可以反映出这一点。在这种情况下,可以拒绝零假设,并着手找出是什么可能导致您的数据出现具有统计显著性的空间结构。这里的一个关键概念是,正态分布中间位置的值(例如,类似 0.19 或 -1.2 的 z 得分)代表了预期的结果。但在 z 得分的绝对值很大而概率很小时(即出现在正态分布的两端),您就会查看其中存在的不寻常现象并且这也非常有趣。例如,对于热点分析工具,不寻常意味着出现了具有统计显著性的热点或冷点。
FDR 校正
局部空间模式分析工具(包括热点分析和聚类和异常值分析 (Anselin Local Moran's I))提供了一个可选的布尔型参数应用错误发现率(FDR)校正。如果选中该参数,错误发现率 (FDR) 步骤可能会减小上表所示的临界 p 值阈值以兼顾多重测试和空间依赖性。减少值(如果存在)是所采用的输入要素数量和邻域结构的一小部分。
局部空间模式分析工具的工作原理是:考虑临近要素环境中的各个要素并确定局部模式(目标要素及其相邻要素)与全局模式(数据集中的所有要素)在统计学上是否不同。与各个要素关联的 z 得分和 p 值结果将确定该差异是否具有统计显著性。此分析方法同时导致多重测试和空间依赖性方面的问题。
多重测试 - 当置信度为 95% 时,根据概率论我们可知 100 种情况中存在 5 种情况空间模式会呈现某种结构(如聚类或离散)并在统计显著性方面与 p 值关联,而事实上促成该模式的基础空间过程是完全随机的。在此类情况下,我们可能会由于 p 值存在统计显著性而错误地拒绝 CSR 零假设。如果不考虑局部空间统计对数据集中的每个要素执行一次测试,5% 的可能性似乎还相当保守。例如,如果存在 10000 个要素,预计会出现多达 500 个错误结果。
空间依赖性 - 相互接近的要素往往较为相似;空间数据通常会揭示这种依赖性。但是,很多统计测试需要要素是独立的。对于局部模式分析工具而言,这是由于空间依赖性会人为地夸大统计显著性。空间依赖性在使用局部模式分析工具时更为严重,因为各个要素在其相邻要素环境内进行评估,而相互接近的要素可能共享很多相同的相邻要素。这种重叠会加重空间依赖性。
至少有三种方法可以解决多重测试和空间依赖性问题。第一种方法是以如下原则为指导忽略相应的问题:对数据集中各要素执行的单个测试应该孤立看待。但如果使用这种方法,一些具有统计显著性的结果很有可能是不正确的(似乎具有统计显著性而实际上基础空间过程是随机的)。第二种方法是应用经典的多重测试步骤(如 Bonferroni 校正或 Sidak 校正)。但这些方法通常过于保守。虽然它们能够显著降低误报的数量,但也会漏掉某些确实存在的具有统计显著性的结果。第三种方法是应用 FDR 校正,FDR 校正针对给定的置信度来计算误报的数量并相应地调整临界 p 值。使用该方法时,具有统计显著性的 p 值按照从最小(最强)到最大(最弱)的顺序排序,并根据误报估算结果将最弱的 p 值从列表中移除。其余具有统计显著性 p 值的要素在输出要素类中通过 Gi_Bin 或 COType 字段进行标识。虽然此方法并不完美,但经验检验显示此方法的效果好于假定孤立执行各个局部测试或应用传统的过于保守的多重测试方法。