运行示例和shell
可以通过一个改进版的scala shell来运行交互式的spark。这是一个来学习该框架比较好的方式。
./bin/spark-shell --master local[2]
该--master选项可以指定为针对分布式集群的master URL, 或者以local模式使用1个线程在本地运行,local[N] 会使用N个线程在本地运行。你应该先使用local模式进行测试。可以通过-help指令来获取spark-sell的所以配置项。Spark同样支持Python API。
MapReduce
MapReduce 是一种分布式计算模型,是google提出的,主要用于搜索领域,解决海量计算问题。
MR有两个阶段组成:Map和Redue,用户只需要实现map()和reduce()两个函数,即可实现分布式计算。
spark运行模式
* local: 主要用于开发调试Spark应用程序
*standlone: 利用spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用Xookeeper实现高可靠。
* apache mesos: 运行在著名的Mesos资源管理框架基础之上,该集群运行模式将资源管理交给Mesos,Spark只负责运行任务调度和计算
* Hadoop YARN: 集群运行在yarn资源管理器上,资源管理交给yarn,Spark只负责进行任务调度和计算。
每个spark应用都由一个驱动器程序来发起集群上的各种并行操作。
集群模式-- 组件
spark应用在集群上作为独立的进程组来运行,在您的main程序中通过SparkConext来协调(称之为driver程序)。
具体的说,为了运行在集群上,SparkContext可以连接至几种类型的Cluster Manager(既可以用Spark自己的Standlone Cluster Manager,或者Mesos,也可以使用YARN), 它们会分配应用的资源。一旦连接上,Spark获得集群中节点上的Executer,这些进程可以运行计算并且为您的应用存储数据。
注意点:
每个应用获取到它自己的Executor进程,它们会保持在整个应用的生命周期中并且在多个线程中运行Task。这样做的优点是把应用互相隔离,在调度方面和Executor方面。然而,这也意味着若是不把数据写到外部的存储系统中的话,数据就不能够被不同的Spark应用之间共享。
Spark是不知道底层的Cluser Manager到底是什么类型的。只要它能够获得Executor进程,并且它们可以和彼此之间通信,那么即使是在一个也支持其他应用的Cluster Manager上来运行也是简单的。??
???
每一个Spark应用程序由一个在集群上运行着用户的main函数和执行各种并行操作的driver program(驱动程序)组成。Spark提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨集群节点的元素集合。RDD可以从一个Hadoop文件系统,或者一个在driver program中已经存在的Scala集合,以及通过transforming来创建一个RDD。
在Spark中的第二个抽象是能够用于并行操作的shared variables(共享变量), 默认情况下,当spark的一个函数作为一组不同节点上的任务运行时,它将每一个变量的副本应用到每一个任务的函数中去。
初始化Spark
Spark程序必须做的第一件事情是创建一个SparkContext对象,它会告诉Spark如何访问集群。要创建一个SparkContext,首先需要构建一个包含应用程序的信息的SparkConf对象。
每一个JVM可能只能激活一个SparkContext对象。????????
在创建一个新的对象之前,必须调用stop() 该方法停止活跃的SparkContext。
val conf = new SparkConf().setAppName(appName).setMaster(master)
new SparkContext(conf)
这个appName参数是一个在集群UI上展示应用程序的名称。master是一个Spark Mesos或YARN 的cluster URL,或者指定为在local mode中运行"local"字符串。(Master URL 意义: local[K,F] 使用k个线程跑spark,并允许失败F次。)
外部数据集
Spark可以从Hadoop所支持的任何存储源中创建distributed dataset(分布式数据集),包括本地文件系统,HDFS,Cssandra,HBase等等
可以使用SparkContext的textFile方法来创建文本文件的RDD.
scala> val distFile = sc.textFile("data.txt")
使用Spark读取文件时需注意:如果使用本地文件系统的路径,所工作节点的相同访问路径下该文件必须可以访问。所有spark基于文件的input方法,包括textFie,支持在目录上运行,压缩文件和通配符,例如 textFile("/my/directory/*.txt")
RDD 操作
RDDs Support两种类型的操作:transformations(转换),它会在一个已经存在的dataset上创建一个新的dataset,和actions,将在dataset上运行的计算后返回到driver程序。
spark中素有的transformations都是lazy的,因此它不会立刻计算出结果。只有当需要返回结果给驱动程序时,transformations才开始计算。
默认情况下,每次你在RDD运行一个action时,每个transfrmed RDD 都会被重新计算。但是,您也可以用persist方法将RDD persist(持久化)到内存中;在这种情况下,Spark为了下次查询时可以更快地访问,会把数据保存在集群上。此外,还支持持续持久化RDDs到磁盘,或复制到多个结点。
RDD 基础介绍
val lines = sc.textFile("data.txt")
val lineLengths = lines.map(s => s.length)
val totalLength = lineLengths.reduce((a, b) => a + b)
说明:第一行从外部文件定义了一个基本的RDD,但这个数据集并未加载到内存中或即将被行动,line仅仅是一个类似指针的东西,指向该文件。
第二行定义了lineLengths作为map transformation的结果,由于laziness延迟加载lineLength不会被立即计算。
最后,运行reduce,这是一个action。此时,Spark分发计算任务到不同的机器上运行,每台机器都运行在map的一部分并本地运行reduce,仅仅返回它聚合后的结果给驱动程序。
传递Functions给Spark
。。。
执行作业时,Spark会分解RDD操作到每个executor中的task里。在执行之前,Spark计算任务的closure(闭包)。闭包是指executor要在RDD上进行计算时必须对执行节点可见的那些变量和方法(在这里是foreach())。闭包被 序列化并发送到每个executor。
闭包的变量副本发给每个executor,当counter被foreach函数引用的时候,它已经不再是driver node的counter了 。。。
如何打印所有元素?
单机语法:rdd.foreach(println) 或 rdd.map(println)
集群模式:要打因driver程序所有元素,可以使用collect()。方法是先把RDD放到driver程序节点上 rdd.collect().foreach(println)。
这样可能会导致driver程序耗尽内存,因为collect()获取整个rdd到一台机器;如果只打印rdd的几个元素,可以使用take(): rdd.take(100).foreach(println)。
什么是shuffle???
spark里的某些操作会触发shuffle。
Shuffle是spark重新分配数据的一种机制,使得这些数据可以跨不同的区域进行分组。这通常涉及子executors和机器之间拷贝数据,使得shuffle成为复杂的,代价高的操作。
共享变量
通常情况下,一个传递给spark操作(例如map或reduce)的函数func是在远程的集群节点上执行的。该函数func在多个节点执行过程中使用的变量,是同一个变量的多个副本。这些变量以副本的方式拷贝到每个机器上,并且各个远程机器上变量的更新并不会传播回driver program(驱动程序)。通用且支持read-write(读-写)的共享变量在任务间是不能胜任的。所以,spark提供了两种类型的共享变量:broadcast variables(广播变量)
和 accumulators(累加器)
广播变量
广播变量允许程序员将一个read-only的