最近看了一篇删失数据中的地理加权COX模型,COX模型中考虑加入患者地理位置信息。该文章主要是理论推导类问题文章,文章中算法对应R包还未发布。发布后,在模型中添加患者地理信息也是个不错的点。
在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(SpatiallyVarying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringhamet al,1997;Brunsdonet al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(GeographieallyWeighted Regression Model-GWR)。
地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即:
式中:(ui,vi)为第i个样点的坐标(如经纬度);βk(ui,vi)是第i个样点的第k个回归参数 ;Ei是第i个样点的随机误差。为了表述方便,我们将上式简写为:
若,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。
Fotheringhamet al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringhamet al,1996)的思想,利用加权最小二乘法来估计参数,得
其中:
是β的估计值,n是空间样点数,k是自变量的个数,Win是对位置i刻画模型时赋予数据点n的权重。
由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste& Gorr(1986)和Gorr &Olligsehiaeger(1994)利用广义阻尼负反馈(generalizeddamped negative feedback)方法估计未知参数在各地理位置的值,这种估计方法只是在很直观的意义上考虑数据的空间结构,加之估计方法较为复杂,很难对估计量作深入的统计推断方面的研究。Brunsdon等(1996)在局部多项式光滑思想上提出了偏差和方差折衷(Bias-VarianceTrade-off)的解题思路:假设回归参数为一连续表面,位置相邻的回归参数非常相似,在估计采样点i的回归参数时,以采样点i及其邻域采样点上的观测值构成局域子样,建立全局线性回归模型,然后采用最小二乘方法得到回归参数估计(k=0,1,2,…,p)。对于另一个采样点,i+1采用另一个相应的局域子样来估计,以此类推。由于在回归分析过程中,以其它采样点上的观测值来估计i点上的回归参数,因此得到的i点上的参数估计不可避免存在偏差,即参数估计为有偏估计。显然,参与回归估计的子样规模越大,参数估计的偏差就越大,参与回归估计的子样规模越小,参数估计的偏差就越小。从降低偏差这一角度考虑因尽量减少子样规模,但子样规模的减少必然导致回归参数估计值的方差增加,精度降低。
空间权重矩阵是地理加权回归模型(GWR)的核心(Brunsdonetal, 2000),空间权函数的选取对地理加权回归模型(GWR)的参数估计影响很大。
(1)距离阈值法
距离阈值法是最简单的空间权函数,它的关键是选取合适的距离阈值D,然后将数据点j与回归点i之间的距离dij与其进行比较,若大于该阈值则权重为0,否则为1,即
这种权重函数的实质就是一个移动窗口,计算虽然简单,但其缺点为函数不连续,因此在地理加权回归模型的参数估计中不宜采用。
(2)距离反比法
Tobler(1970)地理学第一定律认为空间相近的地物比相远的地物具有更强的相关性,因此在估计回归点i的参数时,应对回归点的邻域给予更多的关注。根据这种思路,人们自然想到用距离来衡量这种空间关系:
这里a为合适的常数,当a取值为1或2时,对应的是距离倒数和距离倒数的平方。这种方法简洁明了,但对于回归点本身也是样本数据点的情况,就会出现回归点观测值权重无穷大的情况,若要从样本数据中剔除却又会大大降低参数估计精度,所以距离反比法在地理加权回归模型参数估计中也不宜直接采用,需要对其进行修正。
(3)高斯(Gauss)函数法
高斯(Gauss)函数法就是表示wij与dij之间的连续单调递减函数,可以克服上述空间权函数不连续的缺点。其函数形式如下:
图3.1Gauss空间权函数
式中是描述权重与距离之间函数关系的非负衰减参数,称之为带宽(Bandwidth)。带宽越大,权重随距离增加衰减的越慢,带宽越小,权重随距离增加衰减的越快。
(3)bi-square 函数法
在实际中,往往会将对回归参数估计几乎没有影响的数据点截掉,不予计算,并以有限高斯函数来代替高斯函数,最常采用的便是bi-square函数(Bmndonetal,1997;Fotheringham et al, 1998):
图3.2 bi-square空间权函数
从上式可以看出,bi-square函数法可以看成是距离阈值法和高斯(Gauss)函数法的结合。带宽范围内的回归点,可以通过有限高斯函数来计算数据点的权重,而带宽之外的数据点权重为0。
本文分别选用高斯(Gauss)函数和bi-square函数两类空间权函数方法进行地理加权回归模型(GWR)的分析。
地理加权回归分析对高斯(Gauss)权函数和bi-square权函数的选择并不是很敏感,但对特定权函数的带宽却很敏感。因此,带宽的确定是地理加权回归分析巾的关键。
图3.3 不同权函数与带宽选择对参数估计的影响
在实际应用中我们发现,地理加权回归分析对Gauss权函数和bi-Squar权函数的选择并不是很敏感,但对特定权函数的带宽却很敏感(如图3.3),带宽过大回归参数估计的偏差过大,带宽过小又会导致回归参数估计的方差过大。最小二乘平方和是最常采用的优化原则之一,但对于地理加权回归分析中的带宽选择却失去了作用,这是因为对而言,带宽b越小,参与回归分析的数据点的权重越小,预测值越接近实际观测值yi,从,也就是说最优带是只包含一个样本点的狭小区域。
(1)交叉验证方法
基于此,Cleveland (1979)、Bowman(1984)建议采用用于局域回归分析的交叉验证方法(cross-validation, CV),该方法的公式表达为:
其中,是的拟和值,在刻画过程中省略了点i的观测值得。这样当b变得很小时,模型仅仅刻画点i附近样点而没有包括i本身。
在实际应用中为了减少计算量,Loader于1999年提出了一种近似交叉验证统计量的方法,称为广义交叉验证方法(generalizedcross validation,GCV):
由帽子矩阵S的构成可知,当带宽很小时,地理加权回归分析的有效参数个数趋近样本数量n,上式中的分母趋于零,这样即便预测值趋向yi,GCV也不会等于0。
(2) AIC准则
Akaike通过对极大似然原理的估计参数方法加以修正,提出了一种较为一般的模型选择准则,称为Akaike信息量准则(AkaikeInformation Criterion,AIC)。AIC 定义为(Akaike,1974):
其中,为的极大似然估计,Q为未知参数的个数。
AIC准则应用比较广泛,Hurvichet al将AIC准则扩展到非参数回归分析中的光滑参数选择(Hurvichet al, 1998),Brunsdon和Fotheringham 则在Hurvich等研究基础上将其进一步用于地理加权回归分析中的权函数带宽选择(Brunsdonet al,2002;Fotheringham et al, 2002),其公式为:
其中,下标C表示“修正后的” AIC估计值,n是样点的大小,是误差项估计的标准离差,tr(S)是GWR的S矩阵的迹,它是带宽的函数。AIC有利于评价GWR模型是否比OLS模型更好地模拟数据。
其简单形式表示为:
(3)贝叶斯信息准则
1978年SehwartZ提出了贝叶斯信息准则(BayesianInformation Criterion,BIC),该准则可以使自回归模型的阶数适中,故常被用来确定回归模型中的最优阶数,2002年Nakaya将其用于地理加权回归分析中的权函数带宽选择。BIC准则与AIC准则非常相似,只是惩罚因子不同,其公式为
式中q为未知参数的个数,n为样本个数,使BIC最小的模型为“最优”模型。式中可以看出,BIC准则对于具有相同未知参数个数的模型,样本数越多,惩罚度越大,对于具有相同样本的情况,则趋于选择具有更少参数的模型为最优。与AIC不同的是,BIC准则要求模型为Bayesian模型,即每个候选模型都必须具有相同的先验概率,而实际上模型参数的先验分布通常是不知道的,另外如何将BIC准则扩展到可变带宽的非参数模型,用有效参数个数来代替全局参数个数还不是很清楚。
本公众号部分精彩历史文章:
04:如何在R软件中求一致性指数(Harrell'concordance index:C-index)?
05:Nomogram 绘制原理及R&SAS实现.
06 :Lasso方法简要介绍及其在回归分析中的应用
07 : 最优模型选择中的交叉验证(Cross validation)方法
08 : 用R语言进行分位数回归(Quantile Regression)
09 : 样本数据中异常值(Outliers)检测方法及SPSS & R实现
10 : 原始数据中几类缺失值(Missing Data)的SPSS及R处理方法
11 : [Survival analysis] Kaplan-Meier法之SPSS实现
12 : [Survival analysis] COX比例风险回归模型在SPSS中的实现
13 : 用R绘制地图:以疾病流行趋势为例
14 : 数据挖掘方法:聚类分析简要介绍 及SPSS&R实现
15 : 医学研究中的Logistic回归分析及R实现
16 : 常用的非参数检验(Nonparametric Tests)总结
17 : 高中生都能看懂的最小二乘法原理
18 : R语言中可实现的常用统计假设检验总结(侧重时间序列)
19 : 如何根据样本例数、均数、标准差进行T-Test和ANOVA
20 : 统计学中自由度的理解和应用
21 : ROC和AUC介绍以及如何计算AUC
22 : 支持向量机SVM介绍及R实现
23 : SPSS如何做主成分分析?
24 : Bootstrap再抽样方法简介
25 : 定量测量结果的一致性评价及 Bland-Altman 法的应用
26 : 使用R绘制热图及网络图
27 : 几种常用的双坐标轴图形绘制
28 : 遗失的艺术—诺谟图(Nomogram)
29 : Nomogram 绘制原理及R&SAS实现(二)
30 : WOE:信用评分卡模型中的变量离散化方法
31 : 结构方程模型(SEM)简介及教程下载
32 : 重复测量的多因素方差分析SPSS实现操作过程
回复文章前代码数字如“04”即可查看或直接查看历史文章。
公众号:survival-analysis QQ:8243033
邮箱:8243033 @ qq.com 欢迎关注!