GeoSpark学习--初识GeoSpark

背景


传统的不足:
数据存储方面:
1、现有的数据存储主要是多依赖关系型数据库,比如Oracle等,但是关系型数据库在海量数据管理、高并发读写以及扩展性方面有很大的局限
2、传统的空间数据存储方式不但难以扩展,而且随着数据的激增读写性能存在极大瓶颈
3、传统的分布式文件系统虽然可以存放在不同的节点上,但这种分布式文件系统所支持的扩展性有限
数据分析方面:
大数据时代的数据是处处连接的,每个连接都是一个传感器,这些传感器无时无刻都在进行数据的采集,所以说数据的变化很快,在这样的背景下,迫切需要GIS能够做到低延迟的分析处理工作

技术发展


1、存储去结构化
非关系型数据库比如说HBase、Redis、MongoDB、InfoGrid,这些数据库不需要预先定义模式,并且可以在系统运行的时候动态增加或删除节点,避免了停机维护,提高了拓展性和可靠性
另外这些非关系型数据库没有共享架构,数据一般是存储在本地服务器上,可以直接读取数据,提高了数据的读取性能。
2、计算内存化
对于Hadoop来说主要进行离线数据的计算,应对低延迟的应用场景比较困难,另外Hadoop使用MapReduce模型,该模型将复杂模型使用简单的映射规约,对于复杂的算法逻辑支持不充分,并且数据存储在硬盘上,很容易收IO瓶颈的影响,所以对于处理GIS数据乏力。
而新的技术Spark启用了内存分布式数据集,支持更多的范式,而且配有一个数据处理模型,所以在处理GIS数据中性能更好。
3、分析去模型化
传统的GIS空间数据分析需要先建立分析模型,比如说考虑影响因子,权重,最后综合各影响因素进行建模,然而大数据环境下的数据是时刻在变化的,这样就无法满足,所以去模型化是最终的发展方向

GeoSpark


这里主要介绍GeoSpark以及我调试运行过程中遇到的问题
GeoSpark是在Apache Spark第三方项目中的一个子项目,也是一个用于处理大规模空间数据的集群计算系统,目前最新版本更新到v1.1.0(2018年3月13日)。GeoSpark继承自Apache Spark,并拥有一系列具有创造性的空间弹性分布式数据集(SRDDs),借助机器这些数据集可以有效的加载,处理并分析大规模的空间数据。GeoSpark为Apache开发人员提供了API使得他们能够利用SRDDs方便的开发空间分析程序,这些程序为地理空间查询提供了有力的支持。

主要功能

GeoSparkSQL
最新版本的GeoSpark主要是包含了新的SQL功能,新增了四叉树和R树的索引解析并修复了一些bug。这个版本最主要的就是包含了一个完整的GeoSparkSQL版本,GeoSparkSQL完全支持Apache Spark SQL。
SRDDs
支持特殊的SRDDs,包括PointRDD,RectangleRDD,PolygonRDD以及LineStringRDD。
空间分割
支持的空间分割技术有四叉树、KDB树、R树、沃罗诺伊图(Voronoi diagram)、均匀网络(Uniform grids)
空间索引
支持四叉树、R树、以及空间K近邻查询

调试之路

好,开搞,以下内容较多,纯属个人踩坑记录,想直接运行的跳到文章末尾即可
1、搭建环境

系统 IDE Spark Scala Jdk Maven Sbt
Ubuntu16.04 IntelliJ IDEA2017.3 2.2.1 2.11.12 1.8.0_151 3.5.3 1.1.1

基本的环境都搭建好了,没遇到什么问题,具体安装教程网上都有,就不多说,不过在我安装过程中也遇到了坑,这里就不一一说明,有遇到问题的可以问我
2、Git Clone
项目地址

这是什么鬼?怎么迁项目还出了问题,应该是权限的问题
GeoSpark学习--初识GeoSpark_第1张图片
稍微等一会儿就Clone好了,这时候在home可以看到
GeoSpark学习--初识GeoSpark_第2张图片
项目的位置的话看个人习惯,开始迁下来以后权限是只读的,这使得后面使用IDEA导入时候会出现权限的问题,所以需要修改权限
修改权限命令sudo chmod -R 777
这里简单说一下这个命令 chmod 修改文件和文件夹读写执行属性,777 指的就是二进制编码,总共有3位111就是可读可写可编译,即拥有全权限,可写 w=4可读 r=2可执行 x=1 ,详细介绍chown和chmod区别
get !
3、Package + Compile
这里说一下,我最开始没有跑GeoSpark,而是调的其中的一个案例,如果只是想简单的在本地IDE运行该项目的话,完全不需要这个步骤,然而……我还是照着做了
这部分基本没什么问题,只要你maven还有Sbt装好了,按照项目说明一步步执行,就都可以编译通过
4、导入项目
import project->GeoSparkTemplateProject/geospark/java->import project from external model->maven
这里需要注意运行Java部分的代码时,导入项目为maven项目,然后一路next即可,选择SDK时候添加你的jdk1.8
GeoSpark学习--初识GeoSpark_第3张图片
5、build+run
/src/main/Example 点击运行,好,报错

Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.mapred.FileInputFormat
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:312)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2126)
at org.apache.spark.rdd.RDD$$anonfun$aggregate$1.apply(RDD.scala:1115)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
at org.apache.spark.rdd.RDD.aggregate(RDD.scala:1108)
at org.apache.spark.api.java.JavaRDDLike$class.aggregate(JavaRDDLike.scala:426)
at org.apache.spark.api.java.AbstractJavaRDDLike.aggregate(JavaRDDLike.scala:45)
at org.datasyslab.geospark.spatialRDD.SpatialRDD.analyze(SpatialRDD.java:430)
at org.datasyslab.geospark.spatialRDD.SpatialRDD.analyze(SpatialRDD.java:404)
at org.datasyslab.geospark.spatialRDD.PointRDD.(PointRDD.java:300)
at example.Example.testSpatialRangeQuery(Example.java:156)
at example.Example.main(Example.java:128)

仔细看,主要是IllegalAccessError,Google搜索
1、https://blog.csdn.net/superzyl/article/details/53764731
开始解决,一句话就是项目中的依赖出现了问题,guava冲突,但是在我的pom.xml文件中并没有这个依赖啊?
GeoSpark学习--初识GeoSpark_第4张图片 无果。。
2、http://www.bubuko.com/infodetail-1909839.html
还是那个原因,但是给出了一点具体的解决办法
查看jar包,发现有多个版本的guava,这部分后面项目开发者都进行了修改,现在看到的只有一个版本
这里写图片描述
我当时是有4个,然后我具体不知道是哪个版本需要,就保留了16.0.1,把其余的都删了,再重新进行整合,编译,结果还是同样的错误
到这里为止,我就不清楚该怎么解决,期间删了项目重新下载,删除其他版本的guava还是没用
3、问导师
这个时候我知道问题肯定出在依赖上,应该是版本依赖冲突或者缺少依赖的问题,但是不知道具体在哪里
导师给我添加了GeoSpark还有Babylon的依赖,这里添加的话就是去maven的官网,对应依赖的地方搜索你想要添加的,就会得到对应的代码,然后复制粘贴到项目的pom.xml文件中即可,这部分我是刚接触还不太明白,后面慢慢熟悉。然而添加以后还是不行,我又开始自己琢磨
4、看原项目说明文档
这时候重新仔细的又看了一下原项目的说明,按照说的都做了不知道问题出在哪里
5、问大佬
实在不知道该怎么办,看了issue中也没有这个错误的回答,问了下师兄说需要打包编译吧,我这里比较不确定,索性我直接开了个issue,当时其实抱着问问的心态,压根儿没想着大佬会回复我,因为国内好多博客下面提问,从来没有收到回复=-=
GeoSpark学习--初识GeoSpark_第5张图片
不要嘲笑我蹩脚的英文。。。
没过几分钟就收到了回复,他说根本还是Spark依赖冲突的问题,让我理解dependency scope
GeoSpark学习--初识GeoSpark_第6张图片
Scope几种模式:
1、test范围指的是测试范围有效,在编译和打包时都不会使用这个依赖
2、compile范围指的是编译范围有效,在编译和打包时都会将依赖存储进去
3、provided依赖:在编译和测试的过程有效,最后生成war包时不会加入,诸如:servlet-api,因为servlet-api,tomcat等web服务器已经存在了,如果再打包会冲突
4、runtime在运行的时候依赖,在编译的时候不依赖
一般情况下默认是compile
我按照他说的又重新安装了IDEA,把我原来的配置文件删除,再重新导入项目,直接运行,还是报错。。。
没办法了,只能再继续提问
GeoSpark学习--初识GeoSpark_第7张图片
收到回复赶紧试了一下
GeoSpark学习--初识GeoSpark_第8张图片
!!!

总结


最新版的项目只要配置好环境,迁下来运行就可以了
说说这个过程,花了很久的时间,虽然最后还是没能自己解决,但是过程确实学到了很多的东西,这只是本地IDE中运行项目,后面需要在Spark cluster运行,到现在很多东西还是很模糊,慢慢一点点学习积累吧!

你可能感兴趣的:(Spark,GeoSpark,Ubuntu,maven)