Spark

Spark core

一、 spark是一个分布式同通用计算框架，可用于离线大数据处理、实时流计算、交互式计算、图计算等，集成了SparkSQL、SparkStream、MLLib等库，提供了丰富的API。

spark中针对弹性分布数据集RDD进行计算，RDD可缓存在内存或磁盘中，程序运行结束时删除。可通过sc.testFile()、其他RDD通过转化因子转化，DF/DS转化等方式构建成RDD。RDD会有多个分区，如果从HDFS上读取的数据，如果不指定分区，默认分区与block块一一对应，如果不指定最小分区数，默认为2。

spark提供两种算子对RDD进行计算，Transformation 和 Action，Transformation 为惰性执行，只记录关系，当执行Action算子时，才会触发Transformatin的一系列执行操作，生成新的RDD。一个Action对应一个job。

spark与mapReduce的相比，具有优势：

1.计算速度快，spark采用了缓存机制，中间结果不用写入HDFS再读取，减少了IO消耗。

2.spark采用DAG引擎、以及执行任务时，excutor中采用多线程方式处理，提升了任务执行速度。container中不能多线程吗？

2.mr只有map 和 reduce两种语义，实现复杂的逻辑不够灵活，spark提供了丰富的Transformation 和 action 算子，实现较为方便

二、spark的程序运行结构

1. Driver：Driver中封装了SparkContext，一个程序对应一个driver，main函数运行在driver中，driver负责程序的解析。sparkContext加载程序运行的环境，及创建内部的DAGscheduler和TaskSchedule。

TaskSchedule将任务调度到WordNode的Executor中，一和节点可以启动多个Executor中，每个Executor中可以以多线程方式运行多个Task。

spark程序内部执行流程：

1.根据Transformation算子，查询RDD间的依赖关系，构建逻辑查询计划

2.构建物理查询计划：由DAGSchedule 构建DAG图，根据算子是否为宽依赖进行Stage划分，一个Stage中生成一组Task，组成一个TaskSet，task可并行执行，提交给TaskSchedule

3.TaskSchedule将任务调度到Executor，以及负责任务失败的重新调度，执行较慢的任务启动备份执行等。

三、Spark-shuffle

划分Stage时，类似MR的Shuffle，sparkShuffle分为 shuffleWrite 和 shuffleRead阶段，

shuffleWrite：将Task中间结果写入磁盘

shuffleRead：从磁盘拉取数据到内存中进行并行计算

shuffleWrite 方式有：

基于Hash：将每一个mapTask的结果对ReduceTaskNum取余，将结果写入本地小文件，例，一个Executor中有2个MapTask，3个ReduceTask，则每个MapTask会生成3个小文件，分别对应3个ReduceTask，在写入小文件时，会先将数据写到buffer缓冲区，再写入小文件。基于Hash的方式会生成大量小文件，增加IO消耗，且消耗缓冲区。

基于Hash的优化版：如果一个Excutor中有多个MapTask，余数相同的会写入相同的小文件中，例，一个Executor中有2个MapTask，3个ReduceTask，则该Executor中会生成3个小文件，减少了小文件个数，但未减少缓冲区消耗。

基于Sort：

shuffleRead 方式：

基于Hash的优化版、基于Sort 的shuffleWrite 采用相同的shuffleRead实现，将拉取的数据写入到HashMap中，如果需要对key进行排序，则排序后写入HashMap中（HashMap本身是无序的，用的是linkHashMap？），HasHMap写满后，溢出一个小文件到磁盘中，最后将多个小文件进行归并排序合成大文件，进行处理输出。

四、Spark运行模型

1.本地local方式运行 spark-shell

2.独立集群模式

3.结合其他调度系统，例如Spark-on-YARN

参见 https://blog.csdn.net/swing2008/article/details/60869183

五、常用算子

reduceBykey、groupByKey等

SparkSQL

一、sparkSql：基于spark的SQL引擎，提供更加丰富的数据源及API：DF、DS；可通过SQL、DF、DS来对数据进行处理。

使用SQL操作Spark组件，进行数据分析。

与spark core相比：

1. 提供数据集类型DF（schema +RDD）、DS 处理结构化数据，比直接操作RDD简单方便

2. 提供更多灵活API，例如读写多种数据源的数据，json等，可以通过API直接解析

3.内置优化器catalyst自动优化程序（优化逻辑查询计划等），而且效率较高，若直接操作RDD，还需要自己优化程序。

相比直接利用Spark SQL处理数据，利用 spark DF/DS 处理数据，可以实现复杂的语义逻辑，例如实现算法等，用SQL处理较复杂的逻辑实现很困难。

RDD的算子，DF、DS基本都支持，RDD可处理结构化/非结构化数据，DF/DS 只能处理结构化数据。三者可相互转化。

spark SQL: 适用于交互式查询，实时查询，数据量不太大，响应时间快的操作。

Hive：适用于大规模的数据查询分析，对响应时间要求较低的操作。（底层是mr）

广泛应用场景：

部署 spark thrift server，接受BI系统的SQL请求，转化为spark 引擎处理，读取hive中的数据。

二、程序流程

三、Spark Streaming

将流式计算转化为一批很小的，确定的批处理作业。以秒（分钟等）为单位将作业切分成很小的离散的作业（以时间为单位切分数据流）。低延迟，秒级别。

特有算子：

window

mapWithStatus：类似Spark自己维护的分布式HashMap（不需要再借助外部存储，节约与外部存储交互的开销），状态信息以KeyValue形式存储状态信息。实时操作中的状态信息。适合保存短时间内的状态信息用于分析。

Spark

你可能感兴趣的:(Spark)