1.地理信息系统的对象是空间的地理实体
2.建立一个地理信息数据库的首要任务是建立空间数据库,即反映地理实体特性的地理数据存储在计算机中
3.需要解决的问题:
(1)地理数据具体以什么形式在计算机中存储和处理
(2)主要学习空间数据结构和空间数据库模型
GIS是由计算机硬件、软件、和不同方法组成的系统,该系统用来支持空间数据的采集、管理、处理、分析、建模和显示、便于解决复杂的规划和管理问题
指的是人们生存的地球表面附近的地理图层中可以相互区分的事物和现象
由矢量表示法和栅格表示法构成
1.属性特征:用以描述事物或现象的特性
2.空间特征:描述事物或者现象的地理位置以及空间的相互关系
3.时间特征:描述事物或现象随时间的变化
1.属性数据:描述地理实体的属性特征的数据,也叫做非几何数据
2.几何数据:描述地理实体的空间特征的数据,也叫做位置数据,定位数据
3.关系数据:描述地理实体之间的空间关系的数据。主要指拓扑关系
1.关联:不同类型的要素的联系
2.邻接:相同类型的要素的联系
3.包含关系:面与其他拓扑元素之间的关系
4.层次关系:相同拓扑元素的等级关系(道路分等级,城市的点分等级)
5.连通关系:拓扑元素之间的通达关系
空间数据的编排方式和组织关系
什么是矢量数据结构?
通过坐标来精确的表示点线面等地理实体的一种数据结构
点:通过一个坐标来表示;
线:通过一串有序的坐标对表示;
面:由一串有序并且首尾点的坐标相同的坐标对和面表示符组成;
一种存储地理要素的属性信息和几何位置的简单格式;
分为.shp存储几何要素;.shx几何索引文件;.dbf属性信息文件;
1.外业测量
2.柵格数据的转换:柵格矢量化到弧段数据,弧段自动生成多变形
3.跟踪数字化
L + 2 = A + P (Line + 2 = Area + Point)
面:构成面的链的顺时针表示
链:链两端结点(起点,终点)
结点-链的关系:通过结点的链(流入,流出)
链-面的关系:(左面,右面)链的左边在哪儿个面,右边在哪儿个面
柵格数据结构(网状结构,像元结构);
用规则的像元矩阵表示空间地物或现象的分布的数据结构,阵列中的每个数据表示地物或现象的属性特征;
操作简单,处理起来速度快;
容易与遥感数据相互结合;
1.矢量数据转换而来;
2.遥感数据;
3.扫描地图
4.手工方法获取;
1.中心归属法
2.长度占优法
3.面积占优法
4.重要性法
矢量数据:描述地理实体非常精确,结构紧凑,冗余度底,但是数据结构复杂,处理起来对硬件要求较高;
柵格数据:结构简单、便于数据的处理,但是数据量大,图形的质量低,有锯齿感;
点,线,面的地物可以保持矢量的特性,元子空间充填表达建立了位置与地物的关系,使得要素具有了柵格的特性
点:只有位置,没有形状和面积
线:有形状没有面积
面:有形状和面积
1.细分格网法:格网进行加密
2.线性四叉树编码,采样点和线性目标与基本格网的交点用两个Morton码表示
数据库的基本知识:
组成:数据集,物理存储介质,数据库软件;
数据库中的常用概念:Entity Attribute Key Domain EntityType ;
数据库管理系统,叫做DBMS,具有数据库的定义,管理,和维护等功能
层次数据模型是一种树结构模型,数据按照自然的层次关系组织起来,反映数据之间的隶属关系,双亲结点和子结点是1对多,结点之间不相交;
树结构为一种层次结构:四叉树向下分的方向有,北西 北东 南西 南东(从左到右,从上到下),圆的是树杈结点,可以再分,方的是子结点,不可以再分
将数据组成有方向的图,结点代表数据记录,连线描述结点数据之间的关系
每一个实体代表一行,相当于Excel中的每一行的表格
编程实现的面相对象编程,抽象性,封装性,多态性
时空地理信息系统(TGIS),以表达,管理和分析动态变化的地理现象为目的,核心是时空数据库;
类型有:连续快照类型,地图叠加,时空合成模型
表示概念模型最有力的工具是E-R模型,包括实体,联系和属性三个基本成分
地图数据;
遥感数据;
文本资料:法律文档,行业规范;
实测数据;
统计资料:人口、基础设施的统计数据;
多媒体数据:声音、录像;
已有系统的数据:其他建成的系统的数据;
将现有地图、外业观测成果、航空像片、遥感图像、文本资料等转换为GIS可以识别与接受的数字形式,通常需要验证、修改、编辑等处理
什么是GIS数据质量?
GIS中空间数据的可靠性,通常使用空间数据的误差来度量;
目的:建立一套空间数据处理和分析的体系,建立GIS产品的合格证制度;
意义:评定GIS质量,评判算法优差,减少GIS设计与开发的盲目性
指的是在现实世界中,不能再划分为同类现象的现象(城市不能再划分为城市,但是可以划分为街道,区域)
实体在地理数据库中的表示
点实体:具有特定的位置,没有长度的实体
线实体:具有长度的实体,比如线段,边界等,并且具有长度,曲率,方向等特征;
面实体:也叫做多变形、区域等,其具有的特征有面积,周长,独立或者相邻,重叠与否等特征;
体实体:用于描述三维空间中的现象与物体,具有长度宽度,高度等属性;
上面的地理实体可以使用0 1 2 3维 来进行表示(点,线,面,体);
编码:唯一标示;
位置:地理实体的具体的空间位置;
类型:地理实体属于什么实体类型;
行为:地理实体具有的行为和功能;
属性:地理实体对应的非空间信息,比如道路的宽度,路面质量,车流量等;
说明:说明地理实体数据的来源,质量等信息;
时间维描述:地理实体的属性或空间位置随时间的变化;
关系:与其他地理实体之间的关系;
属性数据:描述地理实体是什么;
几何数据:描述地理实体的空间特征,实体在哪儿里;
关系数据:描述地理实体之间的相互关系,拓扑关系等;
什么是图层?
按照某种属性特征形成的一个数据层,比如字体图层,点的图层
为什么要分层?
为了方便数据的管理、查询、显示、分析
怎么分层?
按照专题分层:每个图层包含一个专题,包含某一类数据;
按照时间序列分层:不同时间,不同时期的数据分别构成各个数据层
什么是地理编码?
对地理实体中的属性数据的编码,通过唯一的标示码与几何数据联系起来
属性数据的分类、分级
分类:
属性数据的分类原则:科学性、系统性、可扩性、使用性、兼容性
分类方法:线分类法(按照属性分为不同等级)、面分类法(按照属性分为不相关的面)
分级:数学方法,数列分级,最优分割分级
GIS中代码的种类:分类码(标识不同类别的数据),标识码(关键字)
代码的功能:鉴别、分类、排序
编码的基本原则:唯一性、合理性、可扩性、简单性、适用性、规范性
代码的类型:数字型、字母型、数字字母混合型
将纸质或其他材料的地图,转换为计算机可以识别的图形数据的过程
数字化方法:地图追踪数字化、地图扫描数字化;
检核内容:
数据的不完整;
几何数据不正确;
比例尺不正确;
变形;
几何数据与属性数据连接有误;
1.位置精度:坐标的精度
2.属性精度:属性数据的质量
3.逻辑一致性:多变形的闭合精度,结点匹配精度等
4.完备性:数据分类的完备性
5.现势性:采集时间,更新时间
源误差:指的是数据采集和录入时产生的误差;
遥感数据:
测量数据:
属性数据:
GPS数据:
地图:
地图数字化精度:
处理误差:GIS对空间数据处理时产生的误差;
几何纠正:
坐标转换:
几何数据的编辑:
属性数据的编辑:
空间分析:多变形的叠置;
数据格式转换:
计算机截断误差:
空间内插误差;
1.数字高程DEM的精度
2.矢量数据柵格化误差:像元越大,误差越大
3.多变形重叠产生的误差:匹配误差,几何误差,和属性误差
1.外部数据交换标准
2.空间数据相互操作协议
3.空间数据共享平台
4.统一数据库接口
元数据:关于数据的数据,描述数据和信息资源的数据
空间元数据:关于地理的数据和信息资源的描述性信息
结点与链的关系;
结点与起点、终点的关系;
中间相交,切断,然后顺序编号
一定限差中的链的端点作为一个结点,坐标值取多个端点的平均值;
(3.1)不闭合的原因:匹配结点误差的问题,数字化误差较大,本身就是悬挂链,不参加拓扑
(4.1)顺时针方向构建多变形:多边形在链的右侧
(4.2)从一条链的端点出发,选择在这条链的的方向上的最右边第一条链,作为下一条链
(4.3)要使得所走的是一个封闭路线,要么选前进方向上的最右边的链,要么选择左边第一条链(前进方向是起始端点和选定的链的另一个链的端点的连线,优先选择链的前进方向上的最右边的链 )
顺时针为正,逆时针为负
内点与多变形匹配后,内点的属性常赋值于多变形
设置光标点的坐标是:(x,y),某一个需要捕捉的要素的坐标是(X,Y),有两种计算方法,d = sqrt((X - x)^2 + (Y - y)^ 2),此种方法,计算时间较长,作为改进,使用d = max(|X - x|,|Y - y|),可以大大的加快运算速度。
假设光标点的坐标是:(x,y),线的每一个小结点的坐标是:(xn,yn),利用点到直线的距离公示,可以计算出最短的距离,设置捕捉半径,即可以捕捉到,公示简化为 Min(dx,dy) ,dx,dy是光标到直线段的水平距离和垂直距离,取到其中较小的,与捕捉半径相互比较,符合,则进行捕捉。
实际上是判断光标点是否存在于多变形内部。
使用方法:垂线法
从光标点向下方做垂线,计算其交点,交点为奇数,在面的内部,偶数,不在面的内部,有一种特殊情况,垂线经过两个边的交点,此时看交于一点的两条边是在垂线的同侧还是异侧,同侧则不算交点,异侧,算一个交点
目的:为了加快检索,需要进行分层建索引,主要方法有格网索引四叉树索引;
格网索引:
每个要素在一个或者多个格网中;
每个网格含有多个要素;
要素不真正被网格分割;
图形编辑时,只能消除数字化产生的明显的误差,对图纸变形以及其他原因产生的误差难以改正,所以需要几何纠正
多项式的最高次幂大于2;
不包括多项式最高次幂大于2的多项式
特性:
直线变换完成仍为直线;
平行直线变换完成仍为平行线;
不同方向的长度比发生变化;
第一步:A B 两个端点进行连接成线段AB(虚线)
第二步:每一个点对上一步的虚线作垂线,求出点到直线的距离
第三步:判断,找到垂线中,点到直线 AB 距离最大的点(显然 P 点满足),连接成虚线即连接 AP,PB ,继续判断小于 P 到直线 AB 的垂直距离的最大值,即 N ,连接 AN NP PB ,此时 N 的垂距任然大于限差 ,继续寻找,发现其他的点到 AB 的垂直距离均小于限差,所以依次连接 A N C P B ,压缩完成
第一步:从点号下标为 1 的点开始,将下标为奇数的点用虚线连接起来(即连接p1p3,p3p5,p5p7等),下标为偶数的点作其相邻的两个下标为奇数的点所连接成的直线的垂线(举例:p2作p1p3的垂线),如果点(p2)到直线(p1p3)的距离大于限差,保留,小于的话删除这个偶数点(即连接偶数点相邻的奇数点,连接p13p3,将p2舍去,达到压缩的目的)
简单来讲:有一条折线,折线的有的细节(折点太多)可以压缩掉,节省一点空间;具体的压缩方式如下:
1.自己设定一个光栏口径,上图的 d (扇形开口的大小,也可以叫做限差),d 垂直于起始折线p1p2。在距离p1p2的1 / 2d 处取得a1和a2两个点,连接p1a1和p2a2,此时形成了一个扇形区域;
2.看扇形区域内部除了折点p2外,看有没有折点,上图的绿色区域显然 点 p3 在内部,此时直接连接p1p3,将p2点舍去,达到了压缩的效果(就是删除不需要的细节);
3.连接好p1p3后,继续作和第一步相似的光栏,此时形成的新扇形(扇形也可以叫做光栏)是:b1p1b2;在看在扇形区域(b1p1b2)内部有无折点,有则直接连接p1到在扇形区域的新找到的折点,没有进行第四步;
4.前三步都完成了说明 p1 点的压缩完成,此时进行p3点的扇形压缩,重复上面步骤即可;
四叉树编码分为十进制和四进制两种,十进制四叉树的地址码叫做Morton码(M码是从 0 行 0 列开始的,切记)
使用四叉树编码,需要绘制四叉树,绘制时需要注意:
1.四叉树有树杈结点和叶节点;
2.叶节点习惯用方块表示并且不可以再分;
3.树杈结点习惯用小圆圈表示并且可以继续分;
4.树杈结点与叶结点之间的连接使用北西(NW),北东(NE),南西(SW),南东(SE);
1.按照地址码(即 M 码)用计算机语言读入图像的像元、将像元(值)放在一个一维的数组中
2.将上一步的所有数组分为四大块
举例:比如 16 个地址码(每一个地址码对应一个值,值可以相等,也可以不相等)读取进来,假设分为[A A A A] ,[B A A B],[C A B B],[ A B C A],(编程语言数组从 0 开始索引,所以索引下标是 0 到 15)
3.观察分为的这四个小数组,看数组中有没有值相同的,如果有,则进行合并,上面的数组可以合并为[A],[B A A B],[C A B B],[ A B C A],(因为第一个小数组都是 A 所以合并成一个 A 这样子就节省了存储空间,达到了压缩的目的)
在上面的(2.2.1)的第 3 步,已经完成了四叉树的编码,此时,还没有到达最大的压缩,此时游程编码闪亮登场,它的主要思想是,只要有相邻元素是相同的,就只记录这些相同元素的第一个的地址码存储
举例:还是上面的例子:
1.经过四叉树编码后的数组以及数组中的值的索引:
[A B A A B C A B B A B C A]
[0 4 5 6 7 8 9 10 11 12 13 14 15]
2.此时游程编码(只记录这些相同元素的第一个的地址码):
[A B A B C A B A B C A]
[0 4 5 7 8 9 10 12 13 14 15]
将栅格数据看作数据矩阵,从左到右,从上到下,记录即可
举例:
A A A A
B B A A
C C A A
C C B B
直接栅格后:A A A A B B A A C C A A C C B B(粗暴简单,数据量较大)
首曲线:首曲线,又叫基本等高线。是按基本等高距测绘的等高线,一般用细实线(0.15mm)描绘,是表示地貌状态的主要等高线。
计曲线:计曲线,又叫加粗等高线。为了便于判读等高线的高程,自高程起算面开始,每隔4条首曲线加粗描绘的等高线。一般用粗实线(0.3mm)并在适当位置断开注记高程。字头冲北方向,计曲线是辨认等高线高程的依据。(两条计曲线之间的差值是等高距的 5 倍)
间曲线:间曲线,又叫半距等高线。当首曲线不能显示某些局部地貌时,按二分之一等高距描绘的等高线。一般用细长虚线,尽在局部地区使用,可不闭合,但应对称。
助曲线:助曲线,又叫辅助等高线,是按四分之一等高距描绘的细短虚线,用以显示间曲线仍不能显示的某段微型地貌。
1、首曲线按基本等高距绘出的等高线;
2、为了阅读方便,从起点起,每隔四根等高线(首曲线)加粗描绘一根等高线,这根加粗的等高线就是计曲线(又叫加粗等高线);在地形图上以0.2mm的粗实线描绘,这样做便于查算点的高程或者两点间的高差;
为什么插值?
给未知的数据给出合理的预判值
概述:
内插:在已知观测点的区域内估算未知点的数据的过程;
外推:在已知观测点的区域外估算未知点的数据的过程;
前提条件:假定发生重要的变化都产生在区域的边界上,边界内部的变化是均匀的、同质的,代表性的插值方法是泰森多边形,基本的原理是:未知点的最佳值由最临近的观测值产生
概述:是一种多项式回归分析技术。多项式回归的基本思想是用多项式表示线或者面,使用最小二乘的原理对数据点进行拟合,拟合的时候假定数据点的空间坐标X,Y为独立变量,表示特征值的Z坐标为因变量。
数字高程模型:(DEM)Digital Elevation model , 研究空间起伏变化的连续表示方法
数字地面模型:(DTM)Digital Terrain Model , 含有地面起伏和属性(坡度,坡向)两个含义,是DEM的进一步分析
1.等值线表示
2.格网DEM,点模式表示
3.不规则三角网DEM(TIN),可以较少平坦区域的数据冗余
1.离散点构建格网
2.线性内插或者双线性内插
3.距离加权法
4.离散点的选取
方法:假设图幅的面积为 A ,具有 N 个数据点,每一个离散点的平均面积是:A0 = A / N ,那么选取K个离散点,正方形初始面积应该为A1 = K * A0 = D * D
1.构建三角网的要求
尽可能的保证每个三角形是锐角;
三角形三边的长度近似相等;
避免出现过大的钝角和过小的锐角;
2.构建三角网的过程
(1)选取距离最近的两个点作为三角形的两个顶点
(2)使用余弦定理选择第三个顶点,使得角度最大(求取余弦值的最大值,即角度最大)
(3)三角形向外扩展,扩展时需要对异侧进行判断,求出下图线段p1p2的方程,将p3与p的坐标(x,y)代入,满足判别式f(x,y) * f(x3,y3) < 0;说明在异侧,p 点可以扩展
(4)检查:一条边最多只能是两个三角形的公共边,检查三角形的三边是否被用过两次,大于2次以上,扩展无效。
(1)准备资料有:
当地的非城市用地数字高程模型(DEM),为了后面的计算坡度(选择坡度较低的地区),坡向(选择山的阴面);
当地的交通路网矢量图有公路,铁路,方便解决后期的果实的运输(缓冲区分析,计算交集);
找出当地的水系图,方便后期的浇水;
(2)对已知的数据的操作
缓冲区分析,求解坡度、坡向、计算缓冲区的交集,计算选址的面积,使用空间查询
一般定义:从数据库找出满足属性约束条件和空间约束条件的地理对象或数据内容
分类:
1.针对空间特征的查询
2.针对非空间特征的查询
3.结合空间特征和非空间特征的查询
1.基于关系数据库的查询(SQL)扩充的空间查询
举例:
SELECT *
FROM 县或市
WHERE 县或市.人口 > 50 万 AND THTOUGE = ‘长江’
从某个数据库中选中所有的属性,where 后面添加选定条件
2.可视化空间查询
画图直观的看出,数据之间的关系,上图体现在点线面之间的关系
3.超文本查询
html 相当于超链接的存在,可以提前设置好,需要的内容自己点击
4.基于自然语言的查询
SQL 查询中引用一些人说的话(自然语言)
SELECT name
FROM Cities
WHERE temperture is high
(1)频数和平均数
(2)中位数
(3)众数
(4)数学期望:数据的可能取值与概率的乘积,简单算数平均的一种推广,类似加权平均
(1)极差:最大与最小之差
(2)离差:一组数据中,各数据值与平均数之差
(3)方差与标准差
(4)变差系数:用来衡量数据在时间和空间上的相对变化的程度,无量纲
1.有 n 个样本 有n 个类别,计算类与类之间的距离;
2.将距离最小的两个类合并成一个类,此时有 n - 1 个类;
3.循环计算,直到到达指定的分类的数目或者分为一类
4.分别计算样本之间的距离( k 看作是列,i j 看作是行)
如果遇到的某个属性的值相对其他属性很大,可以进行下面的归一化操作(标准化,正规化)
概述:针对有序样本或者可变为有序(排序)的样本
问题一:n 个数据分为 n 个等级需要(n - 1)个空隙
问题二:分为 k 级需要的空隙是 (k - 1)
问题三:排列组合 C(n- 1)(k - 1)
问题四:满足级内的离差平方和最小,级外离差平方和最大即可
坡度:某点在曲面上的法线方向与垂直方向之间的夹角
坡向:法线的正方向在平面上的投影与正北方向的夹角,范围是:0~360°
计算方法如下:
剖面分析
什么是叠置分析?
将同一地区的两组或者两组以上的要素进行叠置,产生新的特征(新的空间图形或者空间位置上的新属性的过程)的分析方法
点与多边形的叠置:判断点是否在面内
线与多边形的叠置:线的多边形裁剪
概述:对原始图层的一系列的处理得到行的具有特殊意义的图层的过程
1.布尔逻辑运算
2.重分类
将属性数据的类别合并或者转化为新类
举例:将土壤类型重分类为水面和陆地两种类型
类别合并:由复杂到简单
3.滤波运算
通过移动窗口,对栅格数据作过滤处理,求解中央像元的新值(Z)
4.特征参数计算
使用栅格数据计算区域的周长、面积、重心、线的长度,点的坐标等
四方向计算和八方向计算:
5.相似运算
按照某种相似性度量来搜索给定物体相似的其他物体的运算
概述:多层栅格数据经过一系列的处理得到的新的栅格的属性的过程
概念:只对相应的栅格单元的属性作某种运算得到的新图层属性,不受邻近值得影响
概念:新属性不仅与原来得属性有关,还与原属性所在得长度、区域、面积有关
(1)类型叠置:获取到新的类型;
(2)数量统计:计算某区域的类型和面积
(3)动态分析:同区、同属性、不同时间的叠置
(4)益本分析:计算成本、价值
(5)几何提取:范围内的信息的提取
是地理空间目标的一种影响范围或服务范围;
根据分析对象的点线面目标、自动在其周围建立一定距离的带状多边形,从而识别这些对象对临近对象的辐射范围或者影响程度,以便于为某项分析或者决策提供依据
以线状地物为例:
1.线的重采样:对线进行化简,加快缓冲区的建立
2.建立线的缓冲区:在线的两端按照一定的距离绘制平行线,在线的端点处绘制半圆,连接成缓冲区多边形
3.重叠处理:对缓冲区边界求交,并判断每个交点是出点还是入点,以决定交点之间的线段保留或删除。这样就可得到岛状的缓冲区
每一个泰森多边形中只有一个离散点;
泰森多边形内的点到相应离散点的距离最近;
位于泰森多边形边上的点到其两边的离散点的距离相等;
1.构建三角网,构件Delaunay三角网
2.找出与每个离散点相邻的所有三角形;
3.将于离散点相邻的三角形按照顺时针或逆时针的方向排序;
4.计算每个外接圆的圆心;
5.根据每个点的相邻三角形,连接三角形的外心,形成泰森多边形,对于三角网边缘的泰森多边形,作出其中垂线于轮廓的相交的部分;