Hadoop之Spark框架研究相关知识汇总

Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，节省了磁盘IO耗时，号称性能比Hadoop快100倍。

Spark性能比Hadoop快原因分解：
(1)传统Hadoop数据抽取运算模型是：

ps:数据的抽取运算基于磁盘，中间结果也是存储在磁盘上。MR运算伴随着大量的磁盘IO。
(2)Spark 则使用内存代替了传统HDFS存储中间结果:

简述：第一代的Hadoop完全使用Hdfs存储中间结果，第二带的Hadoop加入了cache来保存中间结果。而Spark则基于内存的中间数据集存储。可以将Spark理解为Hadoop的升级版本，Spark兼容了Hadoop的API，并且能够读取Hadoop的数据文件格式，包括HDFS，Hbase等。

3.Spark架构图：

(1)Bagel(pregel on spark)：Bagel是基于Spark的轻量级的Pregel(Pregel是Google鼎鼎有名的图计算框架)的实现。

(2)Shark(Hive on Spark)：Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口。可以理解为Shark On Spark，就是Hive On Hadoop，两者地位是一样的。ps：Shark可以通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析功能结合在一起（最大化RDD的重复使用）。

(3)Streaming(Spark):Spark Streaming是构建在Spark上的处理实时数据的框架。其基本原理是将Stream数据分成小的时间片段（几秒），以类似batch批处理的方式来处理小部分数据。

(4)RDD(Resilient Distributed Dataset，弹性分布式数据集):RDD是Spark操纵数据的一个高度抽象，即Spark所操作的数据集都是包装成RDD来进行操作的，例如Spark可以兼容处理Hadoop的HDFS数据文件，那么这个HDFS数据文件就是包装成Spark认识的RDD来完成数据抽取和处理的。RDD的一个英文定义是：RDDs are fault-tolerant, parallel data structures that let users explicitly persist intermediate results in memory, control their partitioning to optimize data placement, and manipulate them using a rich set of operators. 用我薄弱的英语能力翻译一下就是：RDD是一个能够让用户可以准确的将中间结果数据持久化到内存中的一个可用错的并行数据结构，可以控制(RDD数据集)分区，优化数据存储，并且有一组丰富的操作集可以操作这份数据。ps:RDD是Spark的一个核心抽象，Spark的数据操作都是基于RDD来完成。

(5)Map Reduce：MR 是Spark可以支撑的运算模式，比传统的Hadoop MR的性能更好，并且操作集更加丰富。Spark的MR计算引擎的架构图：

(6)Spark的运行模式：apache Mesos和YARN计算两套资源管理框架，Spark最初设计就是跑在这两个资源管理框架之上的，至于Spark的本地运行模式和独立运行模式则是方便了调试。（至于图中的EC2，应该属跑在亚马逊云端的资源管理引擎上的吧，我猜？)。YARN资源管理框架也是Hadoop2.0的产物，大大优化了传统Hadoop通过JobTracker和TaskTracker来调度计算任务的方式，使集群更加平台化，可以部署多中计算引擎，比如传统的Hadoop MR和Spark都可以跑在同一个集群上，YARN这类资源管理框架出现之前是做不到的。

(7)Spark数据的存储：Spark支持多种数据底层存储，这点比Hadoop支持的数据文件格式广泛的多。Spark可以兼容HDFS，Hbase,Amazon S3等多种数据集，将这些数据集封装成RDD进行操作。

4.Spark照比传统Hadoop MR的改进点：
(1)迭代运算，一次创建数据集。多次使用，减少了IO的开销;(2)允许多种计算模型（包含map-reduce）;(3)支持非OO式算法实现，对机器学习算法，图计算能力有很好的支持。

5.Spark的适用场景：
Spark立足于内存计算，从而不再需要频繁的读写HDFS，这使得Spark能更好的适用于：
(1) 迭代算法，包括大部分机器学习算法Machine Learning和比如PageRank的图形算法。
(2) 交互式数据挖掘，用户大部分情况都会大量重复的使用导入RAM的数据（R、Excel、python）
(3) 需要持续长时间维护状态聚合的流式计算。

二、Hadoop YARN 基础知识梳理

1.Yarn是什么：
Yarn (Hadoop MapReduceV2)是Hadoop 0.23.0版本后新的map-reduce框架或这更准确的说是框架容器。
架构图：

名词解释：
(1) ResourceManager:以下简称RM。YARN的中控模块，负责统一规划资源的使用。
ps:ResourceManager是YARN资源控制框架的中心模块，负责集群中所有资源的统一管理和分配。它接收来自NM的汇报，建立AM，并将资源派送给AM。
(2) NodeManager:以下简称MM。YARN中的资源结点模块，负责启动管理container。
(3) ApplicationMaster以下简称AM。YARN中每个应用都会启动一个AM，负责向RM申请资源，请求NM启动container，并告诉container做什么事情。
(4) Container:资源容器。YARN中所有的应用都是在container之上运行的。AM也是在container上运行的，不过AM也是在Container上运行的，不过AM的container是向RM申请的。

简述：新一代的YARN容器框架，是传统的MR Hadoop容器框架的升级版本，之前的MR部署架构依赖于JobTracker和TaskTracker的交互模式，而新一代的YARN容器框架，则采用了ResourceManager和NodeManager的交互模式，更高层次的抽象和架构设计，是的YARN容器框架能够支撑多种计算引擎运行，包括传统的Hadoop MR和现在的比较新的SPARK。

2.Hadoop YARN产生的背景：
(1)直接源于MRv1(传统的Hadoop MR)如下几个缺陷：
受限的扩展性；单点故障；难以支持MR之外的计算； (2)多计算框架各自为战，数据共享困难。比如MR(离线计算框架)，Storm实时计算框架，Spark内存计算框架很难部署在同一个集群上，导致数据共享困难。
简述：Hadoop Yarn的出现则解决了上述问题。

3.Hadoop 1.0到Hadoop 2.0(基于YARN)的演变：

简述：hadoop2.0在传统的MapReduce计算框架和存储框架HDFS之间加了一个YARN层，使得集群框架可以支撑多中计算引擎，包括上文中的SPARK。

5.运行在YARN上的计算框架：
(1)离线计算框架：MapReduce
(2)DAG计算框架：Tez
(3)流式计算框架：Storm
(4)内存计算框架：Spark
(5)图计算框架：Giraph，Graphlib

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。

　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。

　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HBASE 顺序文件等。

　　传统Hadoop如下图性能慢原因有：磁盘IO 复制和序列化等等，涉及图中的HDFS

Spark的编程模型

弹性的分布数据集(RDD) ：分布式对象集合能够跨集群在内存中保存。多个并行操作，失败自动恢复。

使用内存集群计算，内存访问要比磁盘快得多。有Scala Java Python API,能够从Scala和Python访问。

当进行filter操作是，是一种transformed RDD，RDD跟踪这种转换，当有数据丢失失败时，重新计算得到这个数据。

Spark流处理

Shark

什么是Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：

Spark与Hadoop的对比

Spark的中间数据放到内存中，对于迭代运算效率更高。
- Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。
Spark比Hadoop更通用。
- Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup,mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。
- 这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。
- 不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
容错性。
- 在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。
可用性。
- Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小
由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式
Standalone模式
Mesoes模式
yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。
Spark streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+）可以用于实时计算，另一方面相比基于Record的其它处理框架（如Storm），RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
Bagel: Pregel on Spark，可以用Spark进行图计算，这是个非常有用的小项目。Bagel自带了一个例子，实现了Google的PageRank算法。

在业界的使用

Spark项目在2009年启动，2010年开源, 现在使用的有：Berkeley, Princeton, Klout, Foursquare, Conviva, Quantifind, Yahoo! Research & others, 淘宝等，豆瓣也在使用Spark的python克隆版Dpark。

Spark核心概念

Resilient Distributed Dataset (RDD)弹性分布数据集

RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。
RDD的特点：
1. 它是在集群节点上的不可变的、已分区的集合对象。
2. 通过并行转换的方式来创建如（map, filter, join, etc）。
3. 失败自动重建。
4. 可以控制存储级别（内存、磁盘等）来进行重用。
5. 必须是可序列化的。
6. 是静态类型的。
RDD的好处
1. RDD只能从持久存储或通过Transformations操作产生，相比于分布式共享内存（DSM）可以更高效实现容错，对于丢失部分数据分区只需根据它的lineage就可重新计算出来，而不需要做特定的Checkpoint。
2. RDD的不变性，可以实现类Hadoop MapReduce的推测式执行。
3. RDD的数据分区特性，可以通过数据的本地性来提高性能，这与Hadoop MapReduce是一样的。
4. RDD都是可序列化的，在内存不足时可自动降级为磁盘存储，把RDD存储于磁盘上，这时性能会有大的下降但不会差于现在的MapReduce。
RDD的存储与分区
1. 用户可以选择不同的存储级别存储RDD以便重用。
2. 当前RDD默认是存储于内存，但当内存不足时，RDD会spill到disk。
3. RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区（如Hash 分区），以此保证两个数据集在Join时能高效。
RDD的内部表示
在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示：
1. 分区列表（数据块列表）
2. 计算每个分片的函数（根据父RDD计算出此RDD）
3. 对父RDD的依赖列表
4. 对key-value RDD的Partitioner【可选】
5. 每个数据分片的预定义地址列表(如HDFS上的数据块的地址)【可选】
RDD的存储级别
RDD根据useDisk、useMemory、deserialized、replication四个参数的组合提供了11种存储级别：

    val NONE = new StorageLevel(false, false, false) 
    val DISK_ONLY = new StorageLevel(true, false, false) 
    val DISK_ONLY_2 = new StorageLevel(true, false, false, 2) 
    val MEMORY_ONLY = new StorageLevel(false, true, true) 
    val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2) 
    val MEMORY_ONLY_SER = new StorageLevel(false, true, false) 
    val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2) 
    val MEMORY_AND_DISK = new StorageLevel(true, true, true) 
    val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2) 
    val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false) 
    val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

RDD定义了各种操作，不同类型的数据由不同的RDD类抽象表示，不同的操作也由RDD进行抽实现。

RDD的生成

RDD有两种创建方式：
1、从Hadoop文件系统（或与Hadoop兼容的其它存储系统）输入（例如HDFS）创建。
2、从父RDD转换得到新RDD。

下面来看一从Hadoop文件系统生成RDD的方式，如：val file = spark.textFile("hdfs://...")，file变量就是RDD（实际是HadoopRDD实例），生成的它的核心代码如下：

 
             1 
           
             2 
           
             3 
           
             4 
           
             5 
           
             6 
           
             7 
           
             8 
           
             9 
           
            // SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像  
           
            // 需要InputFormat, Key、Value的类型，其实Spark使用的Hadoop的InputFormat, Writable类型。  
           
            def 
            textFile 
            ( 
            path 
            : 
             
            String 
            , 
             
            minSplits 
            : 
             
            Int 
             
            = 
             
            defaultMinSplits 
            ) 
            : 
             
            RDD 
            [ 
            String 
            ] 
             
            = 
             
            { 
             
            hadoopFile 
            ( 
            path 
            , 
             
            classOf 
            [ 
            TextInputFormat 
            ] 
            , 
             
            classOf 
            [ 
            LongWritable 
            ] 
            , 
             
            classOf 
            [ 
            Text 
            ] 
            , 
             
            minSplits 
            ) 
             
            . 
            map 
            ( 
            pair 
             
            = 
            > 
             
            pair 
            . 
            _2 
            . 
            toString 
            ) 
             
            } 
           
            // 根据Hadoop配置，及InputFormat等创建HadoopRDD   
           
            new 
             
            HadoopRDD 
            ( 
            this 
            , 
             
            conf 
            , 
             
            inputFormatClass 
            , 
             
            keyClass 
            , 
             
            valueClass 
            , 
             
            minSplits 
            )

Hadoop之Spark框架研究相关知识汇总

二、Hadoop YARN 基础知识梳理

Spark的编程模型

Spark流处理

Shark

什么是Spark

Spark与Hadoop的对比

Spark与Hadoop的结合

Spark的适用场景

运行模式

Spark生态系统

在业界的使用

Spark核心概念

Resilient Distributed Dataset (RDD)弹性分布数据集

RDD的生成

RDD的转换与操作

Lineage（血统）

容错

资源管理与作业调度

编程接口

Scala

Java

Python

使用示例

Standalone模式

yarn模式

使用Spark-shell

编写Driver程序

参考资料

相关的文章推荐阅读

你可能感兴趣的:(Hadoop之Spark框架研究相关知识汇总)