Spark导论

  • Spark 允许用户程序将数据加载到集群内存中用于反复查询, 非常适用于大数据和机器学习
  • 相比Hadoop MapReduce: Spark 速度更快;其次, Spark 丰富的 API 带来了更强大的易用性;最后,Spark 不单单支持传统批处理应用, 更支持交互式查询、流式计算、机器学习、图计算等各种应用,满足各种不同应用场景下的需求
  • Spark 的一个主要特点就是能够在内存中进行计算
  • Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、 分发以及监控的计算引擎.


    Spark导论_第1张图片
    2017-05-03_135137.png
  • Spark的弹性数据分布集:RDD 表示分布在多个计算节点上可以并行操作的元素集合,是Spark 主要的编程抽象。
  • Spark SQL 是 Spark 用来操作结构化数据的程序包。
  • Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件。
  • Spark 中还包含一个提供常见的机器学习(ML)功能的程序库。
  • GraphX 是用来操作图(比如社交网络的朋友关系图)的程序库。
  • Spark 支持在各种集群管理器(cluster manager) 上运行 , 包括 Hadoop YARN、 Apache Mesos,以及 Spark 自带的一个简易调度
    器,叫作独立调度器。
  • Spark 不仅可以将任何 Hadoop 分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持 Hadoop 接口的系统,比如本地文件、亚马逊 S3、 Cassandra、 Hive、HBase 等。即Hadoop并非Spark的存在必须依赖。

你可能感兴趣的:(Spark导论)