大数据——粗谈Apache Spark(计算引擎)

 

Spark产生的原因:

1、MapReduce具有很多的局限性,仅支持Map和Reduce两种操作,还有迭代效率比较低,不适合交互式的处理,不擅长流式处理。

2、现有的各种计算框架各自为战。

Spark就是在一个统一的框架下能够进行批处理,流式计算和交互式计算。

Spark的核心概念就是RDD(弹性分布式数据集)分布在集群中的对象集合,存储在磁盘或内存中。通过并行“转换”操作构造,失效后自动重构。

RDD的两种操作:1、转换:通过Scala集合或者Hadoop构造心得RDD或者通过已有的RDD产生新的RDD

2、行动:通过计算得到一个或一组值

工具:

1、Shark:以Spark为计算引擎的交互式查询引擎,重用了Hive的HQL解析、词法解析、语法解析等模块,与Hive完全兼容,但效率有高于Hive.

2、Graphx:基于Spark图计算的框架,提供图存储结构和图算法。

3、MLBase:基于Spark机器学习库,与Mahout类似,但是是基于Spark实现的,而不是MapRedece,能够实现聚类、分类、推荐等算法、但算法没有Mahout多。

4、Spark Streaming:基于Spark的流式计算框架,充分利用了Spark计算快的优点,吞吐率和效率都高于Storm

Spark最常见的两种应用场景:

1、离线场景:以时间为维度,几年的数据集等,去进行处理。

2、实时场景:实时传输的数据、硬件信号、图像数据并进行计算处理

 

你可能感兴趣的:(大数据,apache,spark,计算引擎)