大数据技术之Spark(一)——Spark概述
Apache Spark是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。
Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎
。
Spark Core:Spark Core包含Spark的基本功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等。Spark建立在统一的抽象RDD之上,使其可以以基本一致的方式应对不同的大数据处理场景;通常所说的Apache Spark,就是指Spark Core;
Spark SQL:兼容HIVE数据,提供比Hive更快的查询速度(10~100x)的分布式SQL引擎,开发者可以轻松地使用SQL命令进行查询,并进行更复杂的数据分析;
Spark Streaming:流式计算分解成一系列小的批处理作业利用spark轻量级低时延的框架来支持流数据处理,目前已经支持Kafka,Flume等;
MLilb:提供基于Spark的机器学习算法库,包括聚类、分类、回归、协同过滤等,降低了机器学习的门槛,开发人员只要具备一定的理论知识就能进行机器学习的工作;
GraphX:提供图形计算框架,与Pregel/GraphLab兼容。
尽管 Spark 相对于 Hadoop 而言具有较大优势,但 Spark 并不能完全替代 Hadoop,Spark 主要用于替代Hadoop中的 MapReduce
计算模型。存储依然可以使用 HDFS
,但是中间结果可以存放在内存中;调度可以使用 Spark 内置的,也可以使用更成熟的调度系统 YARN
等。
Hadop | Spark | |
---|---|---|
类型 | 分布式基础平台, 包含计算, 存储, 调度 | 分布式计算工具 |
场景 | 大规模数据集上的批处理 | 迭代计算, 交互式计算, 流计算 |
价格 | 对机器要求低, 便宜 | 对内存有要求, 相对较贵 |
编程范式 | Map+Reduce, API 较为底层, 算法适应性差 | RDD 组成 DAG 有向无环图, API 较为顶层, 方便使用 |
数据存储结构 | MapReduce 中间计算结果存在 HDFS 磁盘上, 延迟大 | RDD 中间运算结果存在内存中 , 延迟小 |
运行方式 | Task 以进程方式维护, 任务启动慢 | Task 以线程方式维护, 任务启动快 |
Spark
和 Hadoop
的根本差异是多个作业之间的数据通信问题 ;Spark
多个作业之间数据通信是基于内存,而 Hadoop
是基于磁盘。
实际上,Spark
已经很好地融入了 Hadoop
生态圈,并成为其中的重要一员,它可以借助于 YARN
实现资源调度管理,借助于 HDFS
实现分布式存储。
此外,Hadoop
可以使用廉价的、异构的机器来做分布式存储与计算,但是,Spark
对硬件的要求稍高一些,对内存与 CPU
有一定的要求。
首先看看MapReduce
,它提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如 HDFS
),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的,例如迭代式计算,交互式数据挖掘,图计算等。
因此 AMPLab
提出了一个新的模型,叫做 RDD
。
RDD
是一个可以容错且并行的数据结构(其实可以理解成分布式的集合,操作起来和操作本地集合一样简单),它可以让用户显式的将中间结果数据集保存在 内存 中,并且通过控制数据集的分区来达到数据存放处理最优化。同时 RDD
也提供了丰富的 API (map、reduce、filter、foreach、redeceByKey...)
来操作数据集。后来 RDD
被 AMPLab
在一个叫做 Spark
的框架中提供并开源。
快:与 Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快 100 倍以上,基于硬盘的运算也要快 10 倍以上。Spark 实现了高效的 DAG 执行引擎,可以通过基于内存来高效处理数据流。
易用:Spark 支持 Java、Python、R 和 Scala 的 API,还支持超过 80 种高级算法,使用户可以快速构建不同的应用。而且 Spark 支持交互式的 Python 和 Scala 的 shell,可以非常方便地在这些 shell 中使用 Spark 集群来验证解决问题的方法。
通用:Spark 提供了统一的解决方案。Spark 可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX),这些不同类型的处理都可以在同一个应用中无缝使用。
兼容性:Spark 可以非常方便地与其他的开源产品进行融合。比如,Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器,并且可以处理所有 Hadoop 支持的数据,包括 HDFS、HBase 和 Cassandra 等。这对于已经部署 Hadoop 集群的用户特别重要,因为不需要做任何数据迁移就可以使用 Spark 的强大处理能力。
① local 本地模式(单机) - 不需要其他任何节点资源就可以在本地执行Spark代码的环境
② standalone 独立集群模式
③ standalone-HA 高可用模式
④ on yarn 集群模式
⑤ on mesos 集群模式
⑥ on cloud 集群模式
Spark
框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave
的结构。
如下图所示,它展示了一个 Spark
执行时的基本结构。图形中的 Driver
表示 master
,负责管理整个集群中的作业任务调度。图形中的 Executor
则是 slave
,负责实际执行任务。
Spark
驱动器节点,用于执行Spark
任务中的main
方法,负责实际代码的执行工作。Driver
在Spark
作业执行时主要负责:
Spark Executor
是集群中工作节点(Worker)
中的一个JVM
进程,负责在Spark 作业中运行具体任务(Task)
,任务彼此之间相互独时启动,并且始终伴随着整个Spark
应用的生命周期而存在。如果有Executor
节点发生了故障或崩溃,Spark
应用也可以继续执行,会将出错节点上的任务调度到其他Executor
节点上继续运行。
Executor有两个核心功能:
Spark
应用的任务,并将结果返回给驱动器进程(Block Manager)
为用户程序中要求缓存的RDD
提供内存式存储。RDD
是直接缓存在Executor
进程内的,因此任务可以在运行时充分利用缓存数据加速运算。Spark
集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master
和Worker
,这里的Master
是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于Yarn
环境中的RM
, 而Worker
呢,也是进程,一个Worker
运行在集群中的一台服务器上,由Master
分配资源对数据进行并行的处理和计算,类似于Yarn
环境中NM
。
Hadoop
用户向YARN
集群提交应用程序时,提交程序中应该包含ApplicationMaster
,用于向资源调度器申请执行任务的资源容器Container
,运行用户自己的程序任务job
,监控整个任务的执行,跟踪整个任务的状态,处理任务失败等异常情况。
说的简单点就是,ResourceManager(资源)和Driver(计算)之间的解耦合靠的就是ApplicationMaster。
Spark Executor
是集群中运行在工作节点(Worker)
中的一个JVM
进程,是整个集群中的专门用于计算的节点。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。这里的资源一般指的是工作节点Executor
的内存大小和使用的虚拟CPU
核(Core)
数量。
应用程序相关启动参数如下:
名称 | 说明 |
---|---|
–num-executors | 配置Executor的数量 |
–executor-memory | 配置每个Executor的内存大小 |
–executor-cores | 配置每个Executor的虚拟CPU core数量 |
在分布式计算框架中一般都是多个任务同时执行,由于任务分布在不同的计算节点进行计算,所以能够真正地实现多任务并行执行,记住,这里是并行,而不是并发。这里我们将整个集群并行执行任务的数量称之为并行度。那么一个作业到底并行度是多少呢?这个取决于框架的默认配置。应用程序也可以在运行过程中动态修改。
这里所谓的有向无环图,并不是真正意义的图形,而是由Spark
程序直接映射成的数据流的高级抽象模型。简单理解就是将整个程序计算的执行过程用图形表示出来,这样更直观,更便于理解,可以用于表示程序的拓扑结构。
DAG(Directed Acyclic Graph)
有向无环图是由点和线组成的拓扑图形,该图形具有方向,不会闭环。
sc.parallelize(1 to 10).map((_,1)).reduceByKey(_+_)
- 根据RDD之间的依赖关系,形成一个DAG DAG
- Scheduler将DAG划分为多个Stage
划分依据:是否发生宽依赖(shuffle)
划分规则:从后往前,遇到宽依赖且各位新的stage
每个stage由一组并行的Task组成
Linux中Spark的安装方式
输入spark-shell
运行,显示Spark context(sc)
和Spark session(spark)
。
SparkContext和SparkSession的区别
// 1. 读取文件,获取一行一行的数据
// hello world
val lines = sc.textFile("datas")
// 2. 将一行数据进行拆分,形成一个一个的单词(分词)
// "hello world" => hello, world, hello, world
val words = lines.flatMap(_.split(" "))
// 3. 将数据根据单词进行分组,便于统计
// (hello, hello, hello), (world, world)
val wordGroup = words.groupBy(word => word)
// 4. 对分组后的数据进行转换
// (hello, hello, hello), (world, world)
// (hello, 3), (world, 3)
val wordToCount = wordGroup.map {
case(word, list) => {
(word, list.size)
}
}
// 5. 将转换结果采集到控制台打印出来
wordToCount.collect.foreach(println)
object WordCount {
def main(args: Array[String]): Unit = {
// Spark配置
val conf = new SparkConf().setMaster("local[*]").setAppName("wordcount")
// 创建SparkContext
val sc = SparkContext.getOrCreate(conf)
// 从hdfs中读取文件
val rdd = sc.textFile("hdfs://192.168.153.139:9000/tmp/words.txt")
val result = rdd.flatMap(x=>x.split("\t")).map((x=>(x,1))).reduceByKey(_+_)
// 保存文件并输出
result.saveAsTextFile("hdfs://192.168.153.139:9000/tmp/wordsResult.txt")
}
}
程序编写完成后,将生成的jar包放到linux中。这里我放在了/opt
目录下,尝试编译代码。由于输入输出固定,我们可以直接在9870端口
中查看是否成功输出名为wordResult.txt
的文件
[root@hadoop02 opt]# spark-submit --class org.example.WordCount --master local[*] ./sparkstu-1.0-SNAPSHOT.jar
Spark
计算框架为了能够进行 高并发 和 高吞吐 的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:
- RDD : 弹性分布式数据集
- 累加器:分布式共享 只写 变量
- 广播变量:分布式共享 只读 变量
RDD(Resilient Distributed Dataset)
叫做弹性分布式数据集,是Spark中最基本的 数据处理模型 。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
Resilient :它是弹性的,RDD 里面的中的数据可以保存在 内存 中或者 磁盘 里面。
存储的弹性:内存与磁盘的自动切换
容错的弹性:数据丢失可以自动回复
计算的弹性:计算出错重试机制
分片的弹性:可根据需要重新分片Distributed : 它里面的元素是分布式存储的,可以用于分布式计算。数据存储在大数据集群不同节点上。
Dataset: 它是一个集合,封装了计算逻辑,并不保存数据。
在spark
中创建RDD
的创建方式可以分为四种:
从集合中创建RDD
,Spark
主要提供了两个方法:parallelize
和makeRDD
parallelize:
scala> var rdd = sc.parallelize(1 to 4) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[168] at parallelize at <console>:24 scala> rdd.collect res107: Array[Int] = Array(1, 2, 3, 4)
makeRDD:
从底层代码实现来讲,makeRDD方法其实就是parallelize方法scala> var rdd = sc.parallelize(1 to 4) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[168] at parallelize at <console>:24 scala> rdd.collect res107: Array[Int] = Array(1, 2, 3, 4) ```
由外部存储系统的数据集创建RDD
包括:本地的文件系统,所有Hadoop
支持的数据集,比如HDFS
、HBase
等。
// 从文件中创建RDD,将文件中的数据作为处理的数据源
// 1. path路径默认以当前环境的根路径为基准。可以写绝对路径,也可以写相对路径。
// 2. path路径可以是文件的具体路径,也可以是目录名称
// 3. path路径还可以使用通配符 *
// 4. path路径可以是分布式存储系统路径HDFS
scala> val rdd = sc.textFile("hdfs://hadoop02:9000/tmp/wordcount.txt")
scala> val rdd = sc.textFile("file:///opt/stufile/words.txt")
textFile:以行为单位来读取数据。读取的数据都是字符串
wholeTextFiles:以文件为单位读取数据。读取的结果表示为元组。第一个元素表示文件路径,第二个元素表示文件内容
通过一个RDD
运算完后,再产生新的RDD
。
使用new
的方式直接构造RDD
,一般由Spark框架自身使用。
默认情况下,Spark
可以将一个作业切分多个任务后,发送给Executor
节点并行计算,而能够并行计算的任务数量我们称之为并行度。
需要注意的是,并行执行的任务数量 ≠ 切分任务的数量。
// RDD的并行度 & 分区 // makeRDD方法可以传递第二个参数,用于表示分区的数量 // makeRDD第二个参数可以不传递,会使用默认值 val rdd = sc.makeRDD( List(1,2,3,4), 2 ) // 将处理的数据保存成分区文件 rdd.saveAsTextFile("hdfs://hadoop02:9000/tmp/rdd2_output")
我们放在下一篇里面详细介绍=>RDD算子