Spark概述详解

Spark概述详解

1. spark概念

官网:http://spark.apache.org,Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

2.spark特点

  1. 快: 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。

     A.spark是基于内存的运行框架,比hadoop基于磁盘对数据的读取或者处理要快。
     
     B.spark 提供了更高级的执行引擎(DAG),支持数据流的处理与内存计算
     
     C. mapreduce它的作业都是以进程的级别进行运行。启动和运行需要一定的开销的。
       spark是基于线程模型的,也是有线程池的。
    
  2. 易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。

  3. 通用:Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

  4. 兼容性:Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。

3.核心组件

SparkCore: 核心部分 包含Spark基本功能(任务调度 内存管理 容错机制等)

SparkSQL: Spark中交互式处理模块

SparkStreaming: Spark中流式数据处理的模块

SparkMLib:Spark机器学习相关模块 => Mahout

SparkGraphX: Spark中图形计算的模块

SparkManagers:集群管理 (HadoopYARN、ApacheMesos、Spark自带的单独调度器)

4. spark与mapreduce的比较

代码繁琐
只能支持map和reduce方法
执行效率低下
不适合迭代多次、交互式、流式的处理
Spark计算的核心思路就是将数据集缓存在内存中加快读取速度,Spark的中间结果放到内存中,一次创建数据集,可以多次迭代运算,减少IO开销。适合运算比较多的ML和DL。


Hadoop MapReduce计算模型是磁盘级的计算,下图是Hadoop权威指南上很经典的一幅关于MapReduce计算过程的截图


Hadoop MapReduce将每个计算任务都划分为Map、Shuffle和Reduce三个阶段,Map的输入和输出要读写磁盘,Reduce的输入和输出也要读写磁盘,这对于通过递归迭代算法来解决的问题,如机器学习和数据挖掘,无疑在性能上产生很大的影响。

Spark内存级计算模型
Spark的DAG(有向无环图作业),Spark实现了非常精致的作业调度系统,这是Spark的精髓所在.

5. 安装spark集群

  1. 下载spark.tgz安装包,解压到安装目录

  2. 进入到spark安装目录,进入conf目录并重命名并修改spark-env.sh.template文件
    修改文件:mv spark-env.sh.template spark-env.sh
    vi spark-evn.sh
    在该配置文件中添加如下配置
    export JAVA_HOME=/usr/java/jdk1.7.0_45
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    保存退出

  3. 重命名并修改slaves.template文件 mv slaves.template slaves
    在该文件中添加子节点所在的位置(Worker节点)vi slaves
    slave1
    slave2
    slave3
    保存退出,将配置好的Spark拷贝到其他节点上

  4. Spark集群配置完毕,目前是1个Master,3个Work,在master上启动Spark集群
    启动:/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh
    启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,
    登录Spark管理界面查看集群状态(主节点):http://master:8080/

  5. spark 本地模式运行 : bin/spark-shell --master local[2]

  6. 编译spark源码的两种方式

maven编译:
./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -DskipTests clean package

make-distribution编译:
./dev/make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.4 -Phive -Phive-thriftserver -Pmesos -Pyarn

6. spark shell

  1. spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。
  2. 启动spark shell
    /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell

    –master spark://master:7077 \指定Master的地址
    –executor-memory 2g \指定每个worker可用内存为2G
    –total-executor-cores 2 \指定整个集群使用的cup核数为2个
  3. Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可
  4. 执行spark程序
    /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit

    –class org.apache.spark.examples.SparkPi

    –master spark://master:7077

    –executor-memory 1G

    –total-executor-cores 2

    /usr/local/spark-1.5.2-bin-hadoop2.6/lib/spark-examples-1.5.2-hadoop2.6.0.jar \100

7.总结

你可能感兴趣的:(sparksql)