VerHoef2017 Spatial Autoregressive Models

Ver Hoef J M, Peterson E E, Hooten M B, et al. 2017. Spatial Autoregressive Models for Statistical Inference from Ecological Data. Ecological Monographs, .

生态数据统计推断的空间自回归模型

摘要

生态数据通常表现出空间格局,可以模拟为自相关。条件自回归(CAR)和同时自回归(SAR)模型是基于网络的模型(也称为图形模型),专门用于基于邻域关系对空间自相关数据进行建模。我们使用CAR和SAR模型识别和讨论六种不同类型的实际生态推理,包括:1)模型选择,2)空间回归,3)自相关估计,4)其他连通性参数估计,5)空间预测,和6 )空间平滑。我们比较了CAR和SAR模型,展示了它们的发展以及与部分相关性的关系。描述了特殊情况,例如内在自回归模型(IAR)。 CAR和SAR模型依赖于权重矩阵,其实际开发使用邻域定义和行标准化。权重矩阵还可以包括生态协变量和连接结构,我们强调,但很少使用。阿拉斯加东南部海岸海豹(Phoca vitulina)的463个多边形趋势,其中一些缺失数据,用于说明六种推断类型。我们开发了各种权重矩阵,并使用最大似然法和贝叶斯方法拟合CAR和SAR空间回归模型。轮廓似然图说明了协方差参数的推断。相同的数据集用于预测和平滑,并且讨论了每个的相对优点。我们展示了CAR模型的非平稳方差和相关性,并证明了行标准化的效果。我们包括CAR和SAR模型的几个带回家消息,包括1)在CAR和IAR模型之间进行选择,2)在协方差矩阵中建模生态效应,3)空间平滑的吸引力,以及4)如何处理孤立的邻居。我们强调了生态学家希望直接和在层次模型中使用自回归模型的几个原因,不仅在显式空间设置中,而且在更一般的连通模型中。
关键词:条件自回归,同时自回归,CAR,SAR,IAR,地统计学,预测,平滑

引言

生态学家早就认识到数据具有空间模式(Watt,1947)。这些模式通常表现为空间自相关(Sokal和Oden,1978),这是一种趋势,即彼此靠近的站点具有比彼此距离更远的站点具有更多相似值的值。当数据中存在空间自相关时,生态学家经常使用空间统计模型,因为违反了独立误差的假设,使许多传统的统计方法不合适(Cliff和Ord,1981; Legendre,1993)。区域数据是一种空间生态数据,涉及多边形或区域参考数据以及来自多边形的测量值(例如,来自游戏管理区域的动物计数)。通常,由于相似的栖息地条件,迁移或扩散等生物过程以及人类影响或管理干预,在附近多边形中收集的生态数据与那些相似的生态数据更相似。例如,较高的动物数量或占用率通常在景观上形成空间聚类(Thogmartin等人,2004; Poley等人,2014; Broms等人,2014),来自一组地块的植物测量可以是空间图案化的( Agarwal等人,2005; Bullock和Burkhart,2005; Huang等人,2013),或全球物种多样性在表现为粗尺度网格时可以表现出地理模式(Tognelli和Kelt,2004; Pedersen等,2014) )。对于这些类型的空间数据,空间信息可以使用邻域进行编码,这导致空间自回归模型(Lichstein等,2002)。两种最常见的空间自回归模型是条件自回归(CAR)和同时自回归(SAR)模型(Haining,1990; Cressie,1993)。 CAR和SAR模型构成了一大类空间统计模型。生态数据通常表现出空间格局,虽然CAR和SAR模型已经用于生态学,但它们应该更频繁地使用。我们的目标是以实用的方式审查CAR和SAR模型,以便生态学家可以更充分地实现和使用它们的潜力,并且我们首先概述它们的许多用途。

CAR和SAR模型的统计推断

我们通过考虑典型(并非如此典型但有用)的目标来推动空间自回归模型的使用,其中CAR和SAR模型已被用于生态学研究中的统计推断:1)模型选择,2)空间回归,3)估计自相关,4)其他连通性参数的估计,5)空间预测,以及6)空间平滑(表1)。生态学中还有许多其他有趣的目标,但这六个目标与CAR和SAR的空间建模特别相关。当基于例如Moran的I(Moran,1948; Sokal和Oden,1978)发现残余空间自相关时,表1中的任何目标都不能严格完成(在概率框架中,使用模型选择和参数的可能性)在没有建模空间自相关的情况下用置信区间估计。当在空间区域(也称为格子,Cressie,1993)单位上收集数据时,SAR和CAR模型为实现任何这些目标提供了最直接和最充分研究的方法。我们依次激励每个目标,并提供使用自回归模型的研究实例。
模型选择(目标1)可以揭示响应(即因变量)和预测变量之间的重要关系。基于Akaike Information Criteria(AIC,Akaike,1973),Deviance Information Criteria(DIC,Spiegelhalter et al。,2002)等,有大量的模型比较方法或多模型推论,这些方法通常是可用的(例如, Burnham和Anderson,2002; Hooten和Hobbs,2015)。 CAR和SAR协方差矩阵可能是某些或所有模型的一部分,选择模型或比较各种CAR和SAR模型可能是调查的重要目标。例如,Cassemiro等。 (2007)比较了与SAR模型独立的经典回归模型,同时在研究两栖动物的代谢时使用AIC选择协变量。 Qiu和Turner(2015)在景观异质性研究中使用SAR模型进行随机误差和模型平均。 Tognelli和Kelt(2004)基于残差中的自相关比较了CAR和SAR,选择SAR来分析影响南美洲哺乳动物物种丰富度的因素。在最近的理论发展中,Song和De Oliveira(2012)提供了使用贝叶斯因子比较各种CAR和SAR模型的细节。朱等人。 (2010)使用最小角度回归算法(LARS,Efron等,2004)将最小绝对收缩和选择算子(LASSO,Tibshirani,1996)扩展到CAR和SAR模型。
回归分析(目标2)侧重于理解预测变量和响应变量之间的关系。 Gardner等人(2010)使用空间CAR回归模型来表明狼獾占用的概率取决于与地块中的海拔和人类影响相关的预测因子。回到上面的例子,Cassemiro等(2007)发现,一些环境预测因子,包括温度,净初级生产力,年实际蒸散量等,有助于解释两栖动物的物种丰富度。 Agarwal等人 (2005)使用CAR模型研究景观变量(包括道路和人口密度)对森林砍伐的影响。使用SAR模型来传播外来入侵植物物种,Dark(2004)发现了与海拔,道路密度和本地植物物种丰富度的关系。比尔等人(2010)提供了空间回归方法的回顾,包括CAR和SAR。在许多这些模型中,自回归分量是广义线性混合模型中的潜在随机效应(也被视为分层模型(Cressie等,2009)或状态空间模型(de Valpine和Hastings,2002))。 ),其中响应变量是计数(Clayton和Kaldor,1987),二元(Gardner等,2010),或序数(Agarwal等,2005)。之后,我们在分层模型中提供了更多关于CAR和SAR的讨论。
了解空间数据中自相关的强度(目标3)可以揭示生态系统的连通性和相互关联性。 Gardner等(2010)使用贝叶斯CAR模型来估计自相关参数,并使用可靠的间隔来显示不确定性。 Lichstein等(2002)还提供了对三种不同鸟类的CAR自相关参数的估计,以及针对零假设的似然比检验,它们为零。类似地,但对于SAR模型,Bullock和Burkhart(2005)使用似然比检验来显示具有正和负自相关参数的数千种树种/位置组合的显着估计。
目标4,了解直接协变量对自相关的影响,几乎从未在生态模型或其他学科中使用过。通常,对于回归,我们模拟影响响应变量均值的协变量。例如,对于第个响应变量,。 。其中是第个回归系数,而是第个变量的第个协变量。这里,协变量只是固定效应的一部分,因此通过残余误差间接地影响自相关。通常,自相关由单个参数控制,该参数可以缩放自相关的强度。然而,对于均值(和通过似然),我们可以模拟响应变量对(空间数据的位置)之间的多个测量(协变量)的影响。例如,如果是站点i和j之间的相关性,我们可以让。 。其中是在第i个和第j个位置之间定义的协变量(例如,被认为阻碍或促进动物扩散或基因流动的变量)。协变量对自相关的这种直接影响可能与关注连通性的生态学研究有关(对于景观 - 遗传实例,参见Hanks和Hooten,2013),我们提供了一个图形模型(点或数据构造点)的例子。 ,“由线连接,或”边缘“)可以用于以后解决这个目标。
非抽样位置的预测(目标5)是空间分析的共同目标。 Magoun等人(2007年)和Gardner等人(2010年)都提供了使用CAR模型进行预测的一个例子,他们模拟了航空测量中狼獾的占用情况(参见Johnson等人,2013a)。有三种类型的观察结果:1)用观察到的动物进行调查的地块,2)没有动物进行调查的地块,以及3)未经调查的地块。未预测的地块的预测提供了狼獾发生的概率。 Huang等(2013)使用CAR模型预测了缺少样本的牧场中的N2O,而Thogmartin等(2004)使用CAR模型预测了美国中西部的Cerulean Warblers丰度。尽管有这些例子,地质统计学和时间序列分别主要集中在预测(在非抽样地点)和预测(在未来的非抽样时间),但在生态学中使用CAR和SAR模型进行预测的例子很少,或者其他学科。
为了概念化平滑(目标6),想象一下保护区的疾病发病率通常很低,比如基于数千个样本的不到10%,但是在空间上有较低和较高比率的区域。然而,一个保护区只有一个样本,对该疾病有阳性。估计整个保护区根据该单一样本获得100%的疾病率是不现实的。通过使用附近地区的值来提供更好的估算,CAR和SAR模型可用于创建平滑观测数据的速率。例如,参见Beguin等人(2012)和Evans等人(2016)。关于这一主题的全书都有写过(例如,Elliot等,2000; Pfeiffer等,2008; Lawson,2013b),疾病的空间平滑形成了许多空间统计教科书中CAR和SAR模型的介绍(Cressie, 1993; Waller和Gotway,2004; Schabenberger和Gotway,2005; Banerjee等,2014)。当完整的区域单位普查(例如,地块中的农业生产或来自县的疾病计数)时,通常发生平滑。过去,生态学家经常从地块中抽样,很少进行完整的人口普查,所以他们很少使用这个目标。然而,越来越先进的仪器(例如,LIDAR,Campbell和Wynne,2011)正在产生具有完全空间覆盖的遥感数据,从而允许更多的平滑机会。此外,对于分层(Cressie等,2009)和状态空间(de Valpine和Hastings,2002)模型,平滑测量误差是有吸引力的
我们的综述表明,CAR和SAR模型被用于生态数据的多种类型的统计推断,但一些高度引用的生态学论文错误地将CAR / SAR与地质统计模型进行了比较,错误地制定了CAR模型,并且给出CAR和SAR模型的错误关系(详见附录S1)。我们强调,CAR和SAR模型的良好统计实践取决于更多更好的信息。当以空间面积单位收集生态数据时,CAR和SAR模型通常是考虑空间自相关的最合适的方法,因此是对空间数据进行有效推断的必要工具。为了更好地理解它们,我们首先将CAR和SAR与地质统计模型进行比较。

自回归模型和地统计学

生态学统计推断的一个共同框架是回归,或者更一般地说,是一种广义线性模型(GLM),其中响应变量的变化被建模为预测变量(或协变量)的函数。在考虑协变量效应之后,这些模型中的一个关键假设是每个响应变量独立于所有其他响应变量。当在空间中收集响应变量时,由回归或GLM分析产生的残差显示空间自相关是很常见的。这种自相关违反了独立性假设,并且可以使标准结果(例如置信度或可信区间)无效(Cliff和Ord,1981; Legendre,1993)。
空间统计模型不是假定独立性,而是通过将残差的协方差矩阵建模为收集包含在向量y中的响应变量的位置的函数来直接考虑空间自相关。例如,当观察点参考时(即,每个y在具有已知GPS坐标的位置处收集),经常使用地质统计学方法(例如,Turner等,1991)。在地质统计模型中,两个观测值的协方差直接建模为收集观测值的空间位置之间距离的函数。例如,在指数协方差模型(Chiles and Delfiner,1999,p.84)下,协方差随着观测值之间的距离呈指数衰减,模型1,指数模型:

这使得在空间中彼此接近的观测高度相关,而彼此相距很远的观测几乎是独立的。扩展回归模型以允许空间自相关(例如,Ver Hoef等人,2001)保持对回归参数的推断,使其不被残余自相关无效。
地质统计模型直接模拟空间位置之间的协方差,并且专门针对点参考数据而开发。然而,广泛的生态学研究收集了来自区域的集合观测,例如样方或预先指定的空间多边形。在此设置中,可以使用地质统计模型,例如指数协方差模型(1),但这需要指定一个点来表示每个区域单位,例如每个区域单位的质心(例如,Ver Hoef和Cressie,1993 )。虽然这是可能的,但是已经开发了另一类空间协方差模型以利用区域数据的特征,即自回归空间模型。在这些模型中,指定了相邻区域单元之间的连接网络,并且通过模拟相邻位置处的观察的模型来指定空间依赖性。可以显示该条件空间依赖性以定义协方差矩阵的逆(也称为精度矩阵,我们将在此后使用的术语)。然后,反转该精度矩阵导致由邻居关系的网络结构定义的空间协方差矩阵。我们接着举一个简单的例子说明。

空间自回归模型的一个例子

为了介绍自回归模型,并说明自回归模型的网络结构如何导致空间自相关,我们考虑一个简单的设置,其中在3x3网格中排列的9个位置收集观测值(图1)。
在地理统计模型中,观测是在点参考位置获得的,我们可以根据站点之间的距离定义空间自相关(方程1)。在自回归模型中,空间自相关由邻域(网络)结构定义。在图1中,我们基于每个基本方向上的最近邻居定义了邻域结构。通过垂直和水平线显示邻居,因此站点1有两个邻居,标记为2和4等。我们可以在矩阵中捕获这些邻域关系。

我们使用这个简单的例子来说明【CAR和SAR模型比地质统计模型更好】1)地质统计模型由实际空间距离定义,而CAR和SAR模型由邻域定义,2)地质统计模型直接指定协方差矩阵,而CAR和SAR模型指定精度矩阵。我们还注意到,协方差矩阵如何基于我们的邻域定义(由于矩阵逆的非线性特性)并不是立即显而易见的。例如,方程3的对角线上的方差并非全部相等。 注意站点1的协方差(第一行中的非对角元素),表明站点1与站点2和4最高度相关,但也与非邻居非零相关。 Wall(2004)发现了CAR和SAR模型的一些令人惊讶和不寻常的行为。我们的目标是揭开CAR和SAR模型的神秘面纱,并为在生态分析中使用这些模型提供实用建议。
CAR和SAR模型在文献中很普遍,上面列出的六个目标(表1)表明这些模型是分析生态数据的必要工具。我们的目标如下:1)解释如何获得这些模型,2)提供关于它们如何工作的见解和直觉,3)比较CAR和SAR模型,以及4)为它们的使用提供实用指南。使用海豹(Phoca vitulina)趋势,我们提供了一个示例,用于进一步说明表1中给出的目标。然后我们讨论到目前为止很少受到关注的重要主题。例如,文献中很少有关于处理孤立(未连接)站点的指导,或者如何在CAR模型和CAR模型的特殊情况(内在自回归模型(IAR))之间进行选择。我们提供这样的指导,并完成五个值得更多关注的带回家信息。

空间自回归模型

CAR和SAR模型的空间关系基于图形模型或网络,其中使用来自图形模型的术语(例如,Lauritzen,1996; Whittaker,2009),站点称为节点(图1中的圆圈)和连接被称为边缘(图1中的线)。边缘可以通过多种方式定义,但常见的方法是在地理空间或任何网络空间中的相邻单元之间创建边缘。基于图形空间结构的统计模型有时被称为高斯马尔可夫随机场(例如,Rue和Held,2005)。对于符号,让是一个随机变量,用于模拟第个节点的观测值,其中i = 1,2,.... 。 。 ,N和所有Yi包含在向量y中。然后考虑空间回归框架,

你可能感兴趣的:(VerHoef2017 Spatial Autoregressive Models)