大数据GIS系列(1)——大数据时代下的GIS技术

Hadoop技术

Apache Hadoop项目提供了一个可扩展且可靠的分布式计算框架,允许大型数据集使用简单的编程模型在计算机集群上进行分布式处理。它被设计成能够从单一的服务器扩展到成千上万的机器,每个节点提供本地计算和存储。Hadoop意图在应用层检测和处理故障,而不是依靠硬件来提供高可靠性。它提供了基于集群的高可靠性服务,即使集群中的节点可能是易发生故障的。

Hadoop项目包括以下模块:

  • Hadoop Common:支持其它Hadoop模块的公共实用工具(common utilities)。
  • HDFS(Hadoop Distributed File System): 分布式文件系统,能够对应用程序的数据进行高通量访问,提供了海量数据存储能力。
  • Hadoop MapReduce:一个基于YARN的大型数据集并行处理系统,提供了海量数据计算能力。
  • Hadoop YARN:用于作业调度和集群资源管理的框架。

Hadoop使用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用多节点集群的威力进行高速运算和存储。

Spark技术

Spark是继Hadoop之后的新一代时空大数据处理框架,它是由加州大学伯克利分校AMP实验室主导开发的。

Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是它的中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。

Spark移动计算的位置而非移动数据,RDD分区可以就近读取分布式文件系统中的数据块到各个节点内存中进行计算。Spark还使用多线程池模型来减少任务启动的开销。

官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。

Spark拥有DAG执行引擎,并且引入了弹性分布式数据集RDD,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“DAG血统”对它们进行重建,保证了数据的高容错性。

Spark生态圈快速发展并逐渐形成了大数据处理一站式解决平台,以Spark Core为核心,从HDFS、Amazon S3和HBase等持久层读取数据,以MESOS、YARN和自身携带的Standalone为资源管理器来调度任务完成Spark应用程序的计算。这些应用程序可以来自于不同的组件,如Spark Shell/Spark Submit的批处理、Spark Streaming的实时处理应用、Spark SQL的即时查询、MLlib的机器学习、GraphX的图处理和SparkR的数学计算等等。

大数据时代GIS面临的挑战

信息技术、云计算技术和空间数据获取与处理技术的发展,催生了时空大数据的爆炸式增长。麦肯锡全球研究所指出:在2009年关于人的位置数据大概是1PB,这一数据以每年20%的速率增长。地面基站每天接收的不同传感器、不同成像方式的遥感数据一般在TB级。谷歌每天产生的数据量大概是25PB。这些数据当中,大部分都具有时间和空间信息。这些半结构或者非结构性的、具有时空属性的、远超出正常数据规模的、通过传统数据处理算法难以表达和分析的数据称为时空大数据。

时空大数据具有体量大、类型多、更新快、潜在价值大等特点,对其处理和分析要求很高的计算能力,传统的并行计算技术已无法满足计算要求。近年来,分布式并行计算集群和云计算技术被广泛应用,打破了原有的计算能力限制。此外,分布式并行计算技术的快速发展,使用户可以在这些平台上很容易地实现自己的空间分析功能。时空大数据隐含着巨大的社会、经济、科研价值,被誉为未来世界的“石油”,而分布式计算技术的发展为进一步提炼时空大数据的潜在价值提供了可能。

SuperMap iObjects for Spark

在上述背景下,SuperMap在支持多平台的SuperMap iObjects Java产品基础上,结合Spark技术,推出了SuperMap iObjects for Spark产品模块,意在帮助用户进行便捷高效的空间大数据处理与分析。

它既可以作为Apache Spark项目在空间数据领域的扩展模块,为大数据开发人员增添空间数据处理能力,也可以作为一个分布式的空间数据处理与分析开发包(SDK),为传统GIS开发人员提供面向大数据的处理能力。

SuperMap iObjects for Spark在Spark的核心要素RDD上扩展出了可以管理空间对象的FeatrueRDD,以此为大数据载体,它可以将多种数据格式如CSV、JSON等转化为FeatureRDD,继而以此为输入输出来进行多种空间时间的查询和分析操作。包括多种空间位置关系判断,求交求并、距离计算、凸包生成等多种空间计算,聚合分析、叠加分析、密度分析、缓冲区分析等多种空间分析功能。它还支持对FeatureRDD创建四叉树、R树等空间索引并重新分区,以提高空间查询或分析的性能。另外,SuperMap iObjects for Spark也提供了部分流数据处理功能,包括地理围栏监控和实时路况计算等。

你可能感兴趣的:(大数据GIS)