Apache Spark概述

Apache Spark是用于分布式计算的通用框架,为批处理和交互式处理提供高性能的服务。 它公开了Java,Python和Scala的API,包括Spark核心和几个相关项目:

  • Spark SQL ** - 用于处理结构化数据的模块。 允许您无缝地混合SQL查询与Spark程序。
  • Spark Streaming - API允许您构建可扩展d的容错的流应用程序。
  • MLlib ** - 实现通用机器学习算法的API。
  • GraphX - API和图形并行计算。

    您可以通过使用交互式shell或通过提交应用程序,在本地运行Spark应用程序或在集群中运行分布式程序。 交互式运行Spark应用程序通常在数据探索阶段和临时分析期间执行。

    要运行分布在集群中的应用程序,Spark需要一个集群管理器。 Cloudera支持两个集群管理器:YARN和Spark Standalone。 当在YARN上运行时,Spark应用程序进程由YARN ResourceManager和NodeManager角色管理。 当在Spark Standalone上运行时,Spark应用程序进程由Spark Master和Worker角色管理。

    Unsupported Features

    不支持以下Spark功能:

  • Spark SQL:
    - Thrift JDBC/ODBC server
    - *Spark SQL CLI *
  • Spark Dataset API
  • SparkR
  • GraphX
  • Spark on Scala 2.11
  • Mesos cluster manager

    Related Information

  • Managing Spark
  • Monitoring Spark Applications
  • Spark Authentication
  • Spark Encryption
  • Cloudera Spark forum
  • Apache Spark documentation

  • 你可能感兴趣的:(Apache Spark概述)