spark_1:spark的发展

hadoop

MRv1

  • hadoop1.0采用MRv1版本,实现封装在org.apache.hadoop.mapred包,通过接口编程实现
  • 不足
    1. 扩展性差
    2. 利用率低
    3. 无法支撑多种Mapreduce框架(spark等)
  • 三个部分组成
    1. 运行时环境: Jobtracker和Tasktracker
    2. 编程模型:MapReduce
    3. 数据处理引擎:Map任务和Reduce任务

MRv2

  • 对运行环境做调整(jobtracker的单机瓶颈):

    1. 通用资源调度平台(ResourceManager )
    2. 负责各个计算框架的任务调度模型(ApplicationManager )
  • 可拔插

hadoop和spark

  • Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析
  • Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速
  • spark更适合迭代计算
  • Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作
  • 速度快

版本

spark-1.6.0
spark-1.2.0

模式

  • local
  • standalone
  • on yarn

你可能感兴趣的:(spark_1:spark的发展)