计算机在gis中的应用研究,空间聚类分析及其在GIS中的应用研究-计算机软件与理论专业毕业论文.docx...

-I-

-II-

摘要

摘要

GIS 数据库中含有海量、复杂的数据和信息,其中隐含着许多有价值的知识, 而传统的 GIS 系统主要局限于实现数据的录入、查询、统计等功能,无法有效地 发现数据中存在的关系和规则,数据挖掘技术可以对 GIS 数据进行更高层次地分 析,发现其中隐含的知识。因此从空间数据库中进行知识发现即空间数据挖掘, 己成为数据挖掘领域中一个重要的研究方向。

聚类是根据某个相似性准则对模式进行分组达到组内相似性最大、组间差异 行最大以发现有意义的结构特征的过程。在空间数据挖掘的技术体系中,聚类分 析由于其具有探索性数据分析方法的内在特质,被认为是从空间数据库中发现知 识的一种主要方法并取得了相当大的进展。然而,空间数据本身呈现出高度复杂 的特征,数据挖掘又为聚类分析带来了大量亟待解决的新课题。为此,空间聚类 分析技术值得进一步探索的空间还很广阔。

K-means方法是一种常用的空间聚类算法。它是基于划分的一种聚类算法, 该算法采用启发式方法,实现简单,收敛速度快。但是该算法存在以下两个缺陷:

(1)对初值敏感;(2)该算法常常陷入到局部最优。遗传算法是一种全局搜索 算法,它仿效了遗传学中生物从低级到高级的进化过程,以概率1收敛到全局最 优,但是收敛速度较慢。本文综合遗传算法的全局收敛性和K-means方法收敛速 度快的优点,并针对聚类问题的具体特点,提出了一种E-GAC算法,提高了遗传 算法的搜索效率,同时也改善了聚类结果。

本文提出了一个改进的关联规则挖掘算法,用来对聚类结果进行挖掘,输出 规则,供决策支持提供参考。该算法基于 Apriori 思想,只需扫描一遍数据库, 并优化了连接操作,提高了效率。同时,本文提出了一种迭代算法检测空间离群 点,该算法通过多次迭代检测离群点,并在迭代过程中对离群点的属性值进行修 正,可以提高检测结果的正确性,并能检测局部离群点。

最后,本文给出了一个基于 GIS 和数据挖掘的 CRM 系统,并将前述研究的 算法集成于其中,弥补了 GIS 在分析功能上的薄弱,同时又发挥了 GIS 在图形 显示方面的强大功能,为数据挖掘和 GIS 整合找到了一种可行的解决方法。

关键词:地理信息系统;空间数据挖掘;空间聚类;关联规则;空间离群点

Abstract

Abstract

There are voluminous and complicated data and information in database of Geographic Information System (GIS), which include much implicit and valuable knowledge. Conventional GIS is limited in collection, query and statistic of data. It can not discover information among data. By introducing data mining technologies into GIS, it helps to find that knowledge behind the data. Recently, it has been an important research aspect known as Spatial Data Mining (SDM) which is used to mine spatial data objects.

Clustering groups’ patterns with some similarity index is to find significant structures. In SDM, clustering, with the nature of exploratory data analysis, is being thought as the main method to find knowledge from spatial databases, which has also being obtained further development. Nevertheless, with the complexity of spatial data and many new needs brought by SDM, there still exists much widely space in the exploration of spatial clustering.

K-means algorithm is a common algorithm of spatial clustering. It is

你可能感兴趣的:(计算机在gis中的应用研究)