Spark的简介

1.spark是一门大规模数据处理的同一分析引擎.
2.Spark可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理.
3.

Hadoop Spark
基础平台, 包含计算, 存储, 调度 纯计算工具(分布式)
海量数据批处理(磁盘迭代计算) 海量数据的批处理(内存迭代计算、交互式计算)、海量数据流计算
对机器要求低, 便宜 对内存有要求 相对较贵
编程范式 Map+Reduce, API 较为底层, 算法适应性差 RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构 MapReduce中间计算结果在HDFS磁盘上, 延迟大 RDD中间运算结果在内存中 , 延迟小
Task以进程方式维护, 任务启动慢 Task以线程方式维护, 任务启动快,可批量创建提高并行能力

运行方式
4.尽管上述Spark相比较于Hadoop有较大的优势,但是Spark还是无法完全代替Hadoop,在计算层面Spark相比较于MR性能高,但是很多计算框架基于MR比如Hive,Spark仅做计算,但是Hadoop中有HDFS可以进行文件存储,Yarn可以进行文件的内存调度,很多大数据的项目基于Hadoop.
5.分布式的概念:有不同服务的服务器搭建在一起,例如一个网站中有很多的服务,需要不同的服务器,集群的概念:众多服务器只有一个大型的服务,例如百度的搜索,会在不同

你可能感兴趣的:(spark)