地理空间技术·基础数据篇

地理信息(GIS),是以计算机技术为基础,在计算机软硬件的支持下,采用地理模型分析方法,适时提供多种空间的、动态的地理信息,为地理研究和决策提供服务的信息系统。

作为一个工具,这是一门入行容易,上山难的学科。

入行地理信息,只得从最基本的开始攻克。

导论架构

一、关于GIS

地理信息系统(GIS)是用于采集、存储、查询、分析和显示地理空间数据的计算机系统。地理空间数据,是用于描述位置和空间要素属性的数据。

GIS,在自然资源管理领域显示了其重要性,包括土地利用规划、自然灾害评估、野生生物栖息地分析、河滨带监控和林木管理等。社会化应用有,共享单车的定位与查找、外卖路线跟踪、地图导航等。

二、坐标系统

GIS的一个基本原则:用在一起的图层必须在空间上相匹配,即必须转换成相同的空间参照系统。

地图要素的位置是基于用x轴和y轴表示的坐标系统平面,而地球表面空间要素的位置是基于用经纬度值表示的地理坐标系统。投影是将数据集从地理坐标转成投影坐标,重新投影是从一种投影坐标转成另一种投影坐标。

大地坐标系和地理坐标系都是经纬度表示的坐标系,本身并不包含投影信息。

由于经纬度的度数不对应某一标准长度,因此无法精确测量距离或面积,也难以在平面地图或计算机屏幕上显示数据。在使用许多(不是全部)GIS 分析和制图应用程序时,经常需要由投影坐标系提供的更稳定的平面坐标框架。与地理坐标系不同,在二维空间范围内,投影坐标系的长度、角度和面积恒定。投影坐标系始终基于地理坐标系,而后者则是基于球体或旋转椭球体的。在投影坐标系中,通过格网上的 x,y 坐标来标识位置,其原点位于格网中心。

我国的地形图采用高斯-克吕格平面直角坐标系。1954年我国在北京设立了大地坐标原点,采用克拉索夫斯基椭球体,依此计算出来的各大地控制点的坐标,称为北京54坐标系。

北京54和西安80本质上是参心坐标系,大地原点分别在苏联和西安,原点是参考椭球的几何中心,这类坐标难以表达高度信息,精度信息等也不够,正被淘汰。WGS84和国家2000本质上是地心坐标系,即以地球质量中心作为坐标系原点。北京54的椭球体长半轴半径是6378245米,西安80为6378140米,WGS84和2000坐标系一样,都是6378137米。国家最新的2000坐标系和WGS84据说在厘米级都是一样的,但和80坐标在高纬度地区误差达十几倍。

北京54、西安80、国家2000坐标系,如果没有指明投影信息时,说的是大地坐标系。

三、矢量数据模型

矢量数据模型用点、线和面等几何对象来表示简单的空间要素。点的维数为零,且只有位置性质。线是一维的,除了位置之外,还有长度特性。面是二维的,除了位置,还有面积和周长性质。

点线面表示矢量数据,取决于地图比例尺。1:1000000比例尺的地图上,一座城市为一个点;同一座城市在1:24000比例尺上,则为一个面。

拓扑:数学的一个分支,应用于GIS中,确保元素之间的空间关系能明晰表达。

拓扑的优点:一,拓扑能确保数据质量和完整性;二,拓扑可强化GIS分析,如野生动物的栖息地分析,通常涉及栖息地类型之间的边缘。

Geodatabase数据模型中的拓扑规则:

1、多边形:不重叠,没有间隙,不与其他图层重叠,必须被另一要素类覆盖,必须相互覆盖,必须被覆盖,边界必须被覆盖,区域边界必须被另一边界覆盖,包含点。

2、线:不重叠,不相交,没有悬挂弧段,没有伪结点,不相交或内部接触,不与其他图层重叠,必须被另一要素类覆盖,必须被另一图层的边界覆盖,终节点必须被覆盖,不能自重叠,不能自相交,必须是单一部分。

3、点:必须被另一图层的边界覆盖,必须位于多边形内部,必须被另一图层的终节点覆盖,必须被线覆盖。

地理关系数据模型用两个独立的系统分别存储空间和属性数据,用图形文件存储空间数据(地理),用关系数据库存储属性数据(关系)。地理关系数据模型一般用要素标识码(ID)对两者进行链接,空间和属性两部分必须同步才能进行查询、分析和数据显示。

Coverage和Shapefile都是地理关系数据模型的例子,Coverage是拓扑的,Shapefile是非拓扑的。

Coverage支持三种基本拓扑关系:a、连接性:弧段间通过节点彼此连接;b、面定义:由一系列相连的弧段定义面;c、邻接性:弧段有方向性,且有左多边形和右多边形。Coverage通过要素标识码(IDs)和成对的x,y坐标来将拓扑关系与数据结构结合起来。

Shapefile用几何学性质存储两个基本文件:以.shp为扩展名的文件存储要素几何学特征;以.shx为扩展名的文件保留要素几何学特征的空间索引。

基于对象数据模型,将地理空间数据作为对象(如公路、林区或水文单位等),可以表示一个公路图层或基于公路图层的坐标系统。基于对象数据模型把空间数据和属性数据存储在一个系统中;允许一个空间要素与一系列属性和方法相联系。属性描述其对象的性质或特征;方法执行特定的操作。

类与类之间的关系:联合(两个类之间有多少种对应关系)、聚合(定义了类之间的整体和部分的关系)、合成(描述部分不能独立于整体存在的一种联合)、类继承(父类和子类间的关系)、实例化(一个类的对象可以由另一个类中的对象创建)。

接口代表类或者对象的一系列外部可视化操作,使用封装性将对象的属性和方法隐藏起来,使得只能通过预定义接口访问对象。

Geodatabase是基于对象矢量数据模型的一个例子。将矢量数据集组织成要素类和要素数据集。要素类存储具有相同几何类型的空间要素;要素数据集存储则具有相同坐标系和区域范围的要素类。

Geodatabase

个人Geodatabase将数据存储在Microsoft Access数据库的表格中,以mdb为扩展名;文件Geodatabase把数据以许多小文件的形式存储在文件夹中,以gdb为扩展名。

复合要素是指以点、线和面合成应用而更好表示的空间要素。如三角网、分区和路径。

TIN把地表近似描绘成一组互不重叠的三角面,每个三角面在TIN中都有一个恒定的倾斜度。平坦地区可用少量样点和打三角形来描绘,而高度变化大的地区则需要更密而较小的三角面来描绘。TIN通常用来地形制图和分析,特别是用3-D表达。TIN的基本组成要素包括点、线、面。初始的TIN可以由高程点和等高线来构造,可以与线要素如河流、山脊线、道路,面要素如湖泊和水库相结合,以提高地表拟合精度。一个完成的TIN由三种几何对象组成:三角形(区域)、点(节点)和线(边界)。TIN数据结构包括三角形编号、每个毗连三角形的编号和数据文件,数据文件列表显示点、边界以及每个高程点的xyz值。

分区是指具有相似特征的地域范围,等级分区将地表逐级细分,随着分区变小其内部相似性递增。分区数据模型的两个空间特征:分区可以在空间上相连和分离;分区可重叠或涵盖相同区域。

路径是诸如高速公路、自行车道或河流等线要素,且有度量系统,可使线性测量用于投影坐标系统中。

四、栅格数据模型

栅格数据模型,用规则格网来覆盖整个空间,以表示连续的现象。

栅格数据用单个像元代表点,用一系列相邻像元代表线,用连续像元的集合代表面。栅格数据可以使整型或浮点型。像元大小决定了栅格数据的分辨率。10m像元大小意味着每个像元为100平方米。另一种像元的类别值如,濒危物种研究中更倾向于“出现/不出现”的表达。

栅格数据类型:

1、卫星影像,空间分辨率与地面像元大小相关,如空间分辨率为30M意味着卫星影像中的各个像元对应于地面900平方米。

2、USGS的数字高程模型(DEM),由等间隔海拔数据排列组成。DEM以点为基础,由像元中心的海拔点转换成栅格数据。提供4种DEM数据:7.5分DEM(格网间隔为10M或30M的高程数据,1:24000比例尺)、30分DEM(以2秒弧度为间隔的高程数据)、1度DEM(3秒弧度为间隔的高程数据)和阿拉斯加DEM(7.5分与15分)。

3、非USGS的数字高程模型。

4、全球数字高程模型。

5、数字正射影像,是一种由航片或其他遥感数据制备而得的数字化影像。

6、二值扫描文件,含数值1或0的扫描图像。

7、数字栅格数图、图形文件等。

栅格数据结构是指栅格数据的存储方法或格式,包括逐个像元编码(cell-by-cell encoding)、游程编码(run-length encoding)、四叉树(quad tree)。

逐个像元编码法,栅格模型被存在矩阵,其像元写成一个行列式文件。0为空白,1为有值,逐个像元编码法记录0和1的位置。

游程编码:以行和组来记录像元值的。0为空白,1为有值,游程编码仅记录1的位置。

四叉树,不再每次对栅格按行进行处理,而是用递归分解法将栅格分成具有层次的象限。

头文件,如数据结构、区域范围、像元大小、波段数和用于表示无数据的值。

数据压缩指数据量的减少对数据传递和网络制图尤为重要。有损压缩、无损压缩。

五、元数据

元数据可提供关于空间数据的信息,是GIS数据不可或缺的一部分,在数据生产过程中制备和输入的。包括:标识信息、数据质量、空间数据组织、空间参照、实体和属性、出版信息、元数据参考、引文、时段和联系方式等。

ISO19115元数据标准包括两方面:强制性和条件性。强制性因素包括:数据集标题、数据集参考日期、数据集语言、数据集主题分类、摘要、元数据联系方式和元数据日戳。条件性因素包括,数据集责任方、地理位置坐标、数据集特征集、空间分辨率、分布格式、空间表达类型、参照系统、谱系声明、在线资源、元数据文件识别、元数据标准名称、元数据标准版本、元数据语言和元数据特征集。

六、属性数据管理

GIS包括空间数据、属性数据。空间数据与空间要素的几何学有关,属性数据描述空间要素的特征,如街名、地址范围和邮政编码都与拓扑综合地理编码参照格式/线文件的每条街道分段相对应。

地理关系数据库模型分开存储空间数据和属性数据,由要素ID码来关联;面向对象数据模型把空间数据和属性数据结合在一个系统中,每个恐案件要素有唯一的目标ID码和属性数据来存储它的几何特征。

属性数据存储在表格中,由行和列组成,每一行代表一个空间要素,每一列代表空间要素的一个特征,行称为记录,列称为字段。

属性数据表有两种类型,一,要素属性表,获取几何要素,如线状要素的长度、多边形要素的面积和周长等;二,非空间数据表,如地名、地理编码等。

数据表的数据类型,包括数字型(整型和浮点型)、文本型(或字符型)、日期型和二进制块对象型BLOB。测量范围,包括标称的(描述不同种类的数据,如土地利用类型或土壤类型)、有序的(排列关系,如土壤侵蚀程度严重、中等、轻度)、区间的(数值之间的间隔,如70度-60度)、比率的(基于有意义的或绝对的零值)等。

数据库类型:平面文件、层次型、网络型和关系型。

平面文件,是一张大表中包括所有数据。层次型数据库,分层次组织数据,不同层之间一对多的关联。网络型数据库,在表格间建立联系。关系型数据库是表格或关系表的一个集合,通过关键字联系起来,主关键字代表一个或更多属性,对应的属性值在表格记录中可唯一确定,在另一个表中作为连接作用的相应字段被称为外部关键字。

关系类型:一对一、一对多、多对一、多对多。

关系数据库的链接:合并、关联、关系类。

合并:用两个表格的一个共同关键字或主关键字和外部关键字把两个表格连在一起。

关联:临时性的把两个表格连接在一起,而各表格保持独立。

关系类:基于对象数据模型,支持对象之间的关系。

七、数据探查

数据分析说GIS项目中重要的一个环节,而数据探查则是进入分析阶段的捷径。

数据探查的一个重要组成部分为交互式、动态链接的可视化工具。

数据探查的基本要素:描述性统计量(值域、中值、第一个四分位数、第三个四分位数、平均值、方差、标准差、z得分)、图形(线状图、直方图、累计分布图、散点图、泡状图、盒状图等)、动态图形。

数据探查的工具:数据分类(如失业率平均值分为全国平均值之上和之下)、空间集聚(按空间关系对数据进行分组)、地图比较(在植被图层上显示野生生物位置可揭示野生物种与植被分布的联系)

矢量数据探查,包括属性数据查询、空间数据查询。

属性数据查询:通过处理属性数据而获取数据子集,所选中的数据子集能同时在表格中进行查验、在统计图中显示以及链接道地图中高亮显示的要素中。

空间数据查询,是直接对地图要素操作获取数据子集的过程。与属性数据查询相似。由指针选择要素、由图形选择要素、由空间关系选择要素(包含、相交、邻近)、属性数据查询与空间数据查询的结合

栅格数据查询,由像元数据查询、用选择要素查询。


【一个小目标】66/365,关注行业关注趋势,多看多想多反思,做一个讲故事的人,讲一个好故事。

你可能感兴趣的:(地理空间技术·基础数据篇)