案例与软件操作
(1)案例描述
现有全国省域矢量地图以及2014年 GDP等经济属性数据,利 用地理加权回归分析我国省域经济影响因素的空间异质性,影响因素 变量选取参照新古典经济增长模型,选取劳动力与资本这两个基本变量,另外 考虑到一个重要的制度性因素变量,即市场化变量。其中劳动力用年末就业人 口进行表征,资本用固定资产投资表征,市场化采用樊纲等人测度的市场化指 数进行表征。
(2)数据准备
全国省域矢量图,我国省域 2014 年 GDP、就业人口、固定资产投 资等数据,并将我国省域矢量图与 GDP、就业人口、固定资本存量等属性数据 进行连接操作,同时对图层数据进行投影坐标系转换。 (3)操作步骤首先,点击【空间统计工具箱】→【空间关系建模工具集】→【地理加权回归 工具】,工具界面及各参数意义如下:
输入要素:Arcgis 的空间统计工具箱,主要针对的是矢量数据,所以这里 的输入通常为矢量图层,并归的变量属性值,需要注意的是,使用的变量中,尽 量不要使用虚对该图层连接相关需要进行地理加权摸拟变量(,因为这些变量易导致局部多重共线性出现问题。尽量对图层进行投影坐 标系转换。这里输入中国省域图层。 因变量字段:这个字段包含因变量的值,即所要研究的经济现象,因变量通 常只有一个,这里输入GDP。 解释变量(自变量)字段:解释变量即我们要分析经济现象的影响因素或 驱动机制,这里分别输入就业人口、固定资本存量、市场化字段。输出结果:用户承载分析结果的要素图层,分析结果的解读后面会详细说。
核类型:该参数主要是指定是否允许核在作为要素密度函数的范围内进行 变化,而不是用来选择核函数(因为 Arcgis 只提供了高斯核函数),工具提供两种 核函数:一是FIXED,即固定距离法,按照一定的距离来选择带宽,创建核表面;二是 ADAPTIVE ,即自适应法,按照要素样本分布的疏密,来创建核表面,如果 要素分布紧密,则核表面覆盖的范围小,反之则大。默认会使用固定距离法,因 其能够生成更加平滑的核表面,这里采取默认选择。
核带宽:此参数用于设定 GER 的带宽,上节内容分析了带宽选择的重要 性,GWR 通常由 CV 法和AIC法两种方式来选择更好的带宽,此外,还很需要 留有自定义方式。在 Arcgis 语境下,核带宽会提供三类方式供选择:一是 CV法,通过交叉验证法来决定最佳带宽;二是 AIC法,通过最小信息准则来决定 最佳带宽;三是 BANDWIDTH-PARAMETER 法,根据固定距离或固定近邻数确 定核的范围。通常,如果不了解用于距离(FIXED 核类型)或相邻要素的数目 (ADAPTIVE 核类型)参数的选项,则选择 AIC或 CV。如果选择 BANDWIDTH-PARAMETER,则需要为距离或相邻要素的数目参数指定一个值。本 书选取 AIC法。
距离:由于CV 与AIC法下的带宽是通过计算来决定的,所以距离参数将 不可用。但如果在核带宽选项中选择了自定义带宽模式,则该选项变为可用 了。注意,这里设定的带宽距离单位,是要素类的空间参考中的单位,如果为经 纬度的话,这里设定的也是经纬度(设置为 1,就是 1 度,在中国范围内,约为 108公里左右)。这里不做设置。临近要素的数目:如果核类型为自适应(ADAPTIVE),以及核带宽为BANDWIDTH-PARAMETER 的时候,此参数才为可用,默认是30,表示选择回 归点周边的30 个点作为核局部带宽中作为临近要素的点。这里不做设置。权重字段:本工具可以对每个要素设置独立的权重,把这个将要设定的权 重写入一个字段,然后设置到此就行。一旦设置了权重,就说明允许部分要素 在模型校准过程中比其他要素更为重要。在很多时候,独立设置的权重有着很 重大的意义,主要用于在不同位置采集的样本数目发生变化以及对因变量和自 变量中的值求平均值的情况中,并且样本越多,位置越稳定(应该进行更高的加权)。如果一个位置平均具有 25个不同的样本,但其他位置平均只具有 2个样本,则可将样本数用作权重字段,以便在模型校准中具有更多样本的位置 比具有少量样本的位置有更大的影响力。这里不做设置。
此外,地理加权回归对话框还提供了扩展部分,可进行自定义选择,主要有 三部可选,如果不做设置,对结果不造成影响。这些参数的作用如下所示:系数栅格的工作空间:在回归过程中的截距和各个系数进行栅格化,被生 成为一个栅格文件,体现出的是各自变量在不同区域位置对因变量的作用的强 弱,一般来说,系数的矢量化图层很难对数据的差异性进行直观的感受的,但是 进行了栅格化之后,相对直观明显。输出单元格大小:关于生成栅格的粒度,设置得越小,表示越清晰,平滑,但 是所用的计算时间和存储空间越大。其他参数:3-5号参数是关于用于填充预测值的,使用较少。这里不做详 细阐述。 (4)结果分析确定完相关参数后,工具运行完成之后,软件通常会输出一副图层与一张 表,其中图层里又包含了大量的数据。
(一)辅助表 地理加权回归分析完成之后,会看到软件生成一张辅助表 (以_supp为后 缀的),里面会有如下信息,其中需要重点关注的是 AICC 与 R2Adjust,两者 是地理加权回归模型选取的重要参照指标。BANDWIDTH:该字段值代表了模型中用于各个局部估计的带宽值(因本书选 择的是固定距离法,但如果选择自适应法,则该字段将更换为NRIGHBORS,并代 表了相邻点数目的值),核估计中,带宽对结果影响很大,所以这个参数是“地 理加权回归”的最重要参数。它控制模型中的平滑程度。本书采用 AICC 法估 计带宽,且基于投影坐标系,单位是米,故 15.22 表示15公里左右,这也意味着15公里的带宽,这个距离是通过 AICC 方法估算出来的,代表了在某种最优的 带宽。需要注意的是带宽估计方法不同,得出来的所谓“最优”距离也不一样。此外,在设置分析参数的时候,也可以选择固定距离或者固定临近点的数目。
Residual Squares:指模型中的残差平方和。此测量值越小,GWR 模型越拟 合观测数据。此值还在其他多个诊断测量值中使用。
Eective Number:此值反映了拟合值的方差与系数估计值的偏差之间的折中,与带宽的选择有关。带宽接近无穷大时,每个观测值的地理权重都将接近 1,系数估计值与全局 OLS模型的相应值将非常接近。对于较大的带宽,系数 的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非 常大。相反,带宽接近零时,每个观测值的地理权重都将接近零(回归点本身 除外)。对于非常小的带宽,系数的有效数量为观测值的数量,局部系数估计 值将具有较大方差但偏差较低。该有效数量用于计算多个诊断测量值。
Sigma:此值为正规化剩余平方和(剩余平方和除以残差的有效自由度)的 平方根,是残差的估计标准差,此统计值主要用于 AICC计算,越小越好。
AICC:模型性能的一种度量,有助于比较不同的回归模型。考虑到模型复 杂性,具有较低 AICC 值的模型将更好地拟合观测数据。AICC不是拟合度的绝 对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的AICC值相差大于 3,具有较低 AICC值的模型将被视为更佳的 模型。将 GWRAICC 值与 OLSAICC 值进行比较是评估从全局模型 (OLS)移 动到局部回归模型 (GWR)的优势的一种方法。OLS回归出来的 AICC为 642.121650,而 GWR得出的 AICC 为 635.102759。从这个角度来讲,GER方法较好。
R2 ∶ R平方是拟合度的一种度量。其值在0 到 1 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。
R2Adjust:校正的 R平方值的计算将按分子和分母的自由度对它们进行 正规化。执行此校正时,无法将该值的解释作为所解释方差的比例。OLS回归 出来的校正 R2 为0.845354,而 GWR得出的校正 R2 为 0.894454。从这个角度 来讲,GWR 拟合优度较好。在GWR 中,自由度的有效值是带宽的函数,与像 OLS 之类的全局模型相比,校正程度可能非常明显。因此,AICC 与 R2Adjust 是对模型进行比较的首选方式。
(二)图层解读 除了辅助表以外,GER还会自动生成一张包含大量属性的可视化图层,该 图层自动将标准化残差渲染为由冷色到暖色渲染的地图,主要用来衡量每个系 数估计值的可靠性。一般来说,超过 2.5倍标准差的地方可能会有问题,从下 图中可以看到,广东超过 2.5 倍标准差,说明广东回归拟合效果不是很理想,其 余地区回归拟合效果都比较理想。条件数:此诊断用于评估局部多重共线性。一般来说,条件数小于0\大于 30 或设置为“空”,则意味着存在较强局部多重共线性,相关联的结果可能不可 靠。本书回归出来的条件数不到 14,不存在局部多重共线性。
LOCALR2:局部的R2 ,与全局 R2的意义是一样的,范围在 0与 1之间, 表示局部回归模型与观测所得 y 值的拟合程度。如果值非常低,则表示局部模 型性能不佳。对 LOCALR2 进行地图可视化,可以查看哪些位置GWR预测较准 确和哪些位置不准确。以便为获知可能在回归模型中丢失的重要变量提供相 关线索。从图中可以看到,北部地区R2 值相对南部地区高,出现明显的聚集趋势。
系数:各样本的各个自变量的系数。GWR的特点就在这里,不同于 OLS, GWR 会给出每个位置每个自变量的系数。这里将各变量系数进行渲染。首先是就业人口回归系数来看,就业人口对经济发展具有正向作用。劳动 力作为新古典经济增长的重要因素,有利于经济增长。不过这种促进作用存在 地区不均衡性,劳动力的经济贡献程度“由南向北”逐渐递减。南部地区作为 我国人口迁移的活跃区域,其经济增长具有明显优势。 固定资产投资变化量对各省经济总量变化影响为正相关关系,其影响程度 由东北到西南依次降低。高值区位于环渤海地区与东北地区省份,低值区集中 分布于我国最南部的省份。长期起来环渤海地区与东北地区经济发展侧重于 资本密集型的重工业发展模式,而且国有企业比重大,故此对固定资产投资依 赖程度深,经济结构单一性严重。而南方地区省份因其经济结构多样化,投资 对经济贡献程度没有北部地区省份高。 从市场化局部回归系数来看,市场化进程有利于促进你省域经济发展,不 过这种促进作用呈现出“由东部→中部→西部”逐级递减,东部沿海影响程度 要明显高于其他地区。其主要原因是在市场化改革逐步深入的过程中,各地区 的市场化进程也并不同步,东部沿海地区优惠扶持政策推行更早,改革力度较 大,而中西部内陆地区市场化启动晚,改革步伐相对迟缓。作为驱动经济增长 的重要制度性因素,市场化改革无疑会拉大了地区间经济发展差距。 总体来说,地理加权回归要比OLS回归分析在区域经济分析上更具有解 析性,能挖掘的信息更多,更有利于我们有效全面地分析区域经济现象。