SatScan系列教程 1——数据准备

前言

SaTScan利用空间,时间或时空扫描统计数据分析空间,时间和时空数据,适用于以下场景:
1)对疾病进行地理监测,检测空间或时空疾病群,并查看它们是否具有统计学意义。
2)探测疾病是否随时间或在空间和时间上随机分布。
3)评估疾病群集警报的统计显着性。
4)进行前瞻性实时或定期疾病监测,以早期发现疾病爆发。
该软件还可用于其他领域的类似问题,如考古学,天文学,植物学,犯罪学,生态学,经济学,工程学,林业,遗传学,地理学,地质学,历史学,神经学或动物学。

输入文件类型

SatScan的输入数据主要包含以下三类:
“.cas”文件:这个文件主要包含了案例的编码、个数和时间信息;
“.geo”文件:这个文件主要包含了案例的编码和坐标信息
“.pop”文件:这个文件主要包含了案例的编码和对应时间人口数量信息。

其实本质上来说,这三个文件都是二进制的文本文件,只是因为软件的要求,将后缀名改成了不同的格式而已。

1、 “.cas”文件

在这里需要说明一下,在SatScan提供的示例数据中,针对不同的模型,其数据内容是不尽相同的。
1)对于Discrete Poisson Model(离散泊松模型)
由于离散泊松模型可以进行时空异质性计算,所以需要时间信息,格式如下:

其中各值之间用tab或者空格隔开,如

shandong	12	25	2012	2

这里就表示,位置:shandong,案例数:12,时间:2012年,年龄组:2,性别:2
注意在计算时,对于一些枚举值,尽量转换成数值,比如男/女对应1/2。

2)对于Bernoulli Model(伯努利模型)
只需要提供位置和案例数即可。

 <# cases>

3)对于Space-Time Permutation Model(时空置换模型)
需要给出位置,案例数和时间信息。

  <#cases=1> 

4)对于Multinomial and Ordinal Model(多项式和有序模型)
需要给出位置,案例数和类别信息。

  <# individuals> 

5)对于Exponential Model(指数模型)

 <# individuals> 

5)对于Normal Model(正态模型)

  <# individuals> 

总的来说,对于需要计算时空信息的模型来说,需要提供位置(这里的位置可以是名称、编码等,只要能跟后面的geo文件挂接上即可)。对于只计算空间分析的模型来说,则不需要提供时间信息。同时,需要注意的是,案例数需要为整数即int型。

2、.geo文件

地理坐标文件相对来说比较好理解。就是包含了.cas文件中每个位置id的空间坐标位置。其中对于geo文件的表达方式分为两种,一种是经纬度的表达方式,一种是投影坐标的表达方式。

  
  

这里顺便解释一下两者的区别:

地理坐标系统:地理坐标系统是使用经纬度来定义球面或椭球面上点的位置的参照系统,是一种球面坐标。最常见的位置参考坐标系统就是以经纬度来量算的球面坐标系统。地球坐标系统不是地图投影,只是对球体或椭球体的模仿。地理坐标系统有经线和纬线组成,经纬度以地心与地表点之间的夹角来量算的,通常以度分秒(DMS)来度量。地理坐标系统使用一个三维椭球体来定义地球上的位置,其经常被误认为是一个数据,但是数据仅仅是地理坐标系统的一部分,地理坐标系统包括角度测量单位、本初子午线和数据(数据是基于椭球体)。地理坐标系统参数必须具备Spheroid和Datum两个基本条件,系统参数才算完整。

投影坐标体系:在球面坐标上进行测量非常困难,所以地理数据通常都要投影到平面坐标上。投影坐标系统是定义在一个二维平面的坐标系统,与地理坐标系统不同的是,投影坐标系统在二维平面上有着恒定的长度、角度和面积,投影坐标系统总是基于地理坐标系统,而地理坐标系统又是基于球体或椭球体。在投影坐标系统中,以网格中心为原点,使用x,y坐标来定位,每个位置用两个值确定(水平方向和垂直方向)。

至于具体选择哪种坐标系就看你是否需要对长度和面积信息进行计算了。

3、“.pop”文件

人口文件用于离散泊松模型,提供有关的风险背景的人口信息,可以是人口普查的实际人口数或者是通过统计分析模型得到的预测人口数。格式如下。

     

你可能感兴趣的:(空间分析)