spark2.0操作hive

用spark直接操作hive方式,完成之前的流量分析统计。

spark+hive的作用:

1,hive是企业里面离线分析的数据源,hive作为数据源进行rdd加工操作,比如做一些算法类。

2,为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里,要想运行在spark框架里,现在2.0版本就可以直接用hivesql,企业里面很多人做存储过程开发,所以大数据项目百分之80都是第二种情况。通常不会把全部hive作业都转到spark上运行,仅仅会把关键链上的关键作业放到spark上,比如作业链很长,基础作业必需串着跑,上游作业可以并着跑,上游作业也许只有两三分钟就跑完了,影响并不大,但基础作业的影响是很大的,这些基础作业也叫关键作业,这些关键作业要是跑1小时,整个作业的时长就要增加一个小时,这种关键作业通常是放在hive中跑以前,但是现在放在spark中跑,就可以节省很多时间,如果把全部hive作业放到spark中跑,内存会扛不住。


你可能感兴趣的:(spark)