spark整理笔记

运行示例和shell

可以通过一个改进版的scala shell来运行交互式的spark。这是一个来学习该框架比较好的方式。

./bin/spark-shell --master local[2]

该--master选项可以指定为针对分布式集群的master URL，或者以local模式使用1个线程在本地运行，local[N] 会使用N个线程在本地运行。你应该先使用local模式进行测试。可以通过-help指令来获取spark-sell的所以配置项。Spark同样支持Python API。

MapReduce

MapReduce 是一种分布式计算模型，是google提出的，主要用于搜索领域，解决海量计算问题。

MR有两个阶段组成：Map和Redue，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。

spark运行模式

* local: 主要用于开发调试Spark应用程序

*standlone: 利用spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用Xookeeper实现高可靠。

* apache mesos：运行在著名的Mesos资源管理框架基础之上，该集群运行模式将资源管理交给Mesos，Spark只负责运行任务调度和计算

* Hadoop YARN：集群运行在yarn资源管理器上，资源管理交给yarn，Spark只负责进行任务调度和计算。

每个spark应用都由一个驱动器程序来发起集群上的各种并行操作。

集群模式-- 组件

spark应用在集群上作为独立的进程组来运行，在您的main程序中通过SparkConext来协调（称之为driver程序）。

具体的说，为了运行在集群上，SparkContext可以连接至几种类型的Cluster Manager(既可以用Spark自己的Standlone Cluster Manager，或者Mesos，也可以使用YARN), 它们会分配应用的资源。一旦连接上，Spark获得集群中节点上的Executer，这些进程可以运行计算并且为您的应用存储数据。

注意点：

每个应用获取到它自己的Executor进程，它们会保持在整个应用的生命周期中并且在多个线程中运行Task。这样做的优点是把应用互相隔离，在调度方面和Executor方面。然而，这也意味着若是不把数据写到外部的存储系统中的话，数据就不能够被不同的Spark应用之间共享。

Spark是不知道底层的Cluser Manager到底是什么类型的。只要它能够获得Executor进程，并且它们可以和彼此之间通信，那么即使是在一个也支持其他应用的Cluster Manager上来运行也是简单的。？？

？？？

每一个Spark应用程序由一个在集群上运行着用户的main函数和执行各种并行操作的driver program(驱动程序)组成。Spark提供的主要抽象是一个弹性分布式数据集（RDD）,它是可以执行并行操作且跨集群节点的元素集合。RDD可以从一个Hadoop文件系统，或者一个在driver program中已经存在的Scala集合，以及通过transforming来创建一个RDD。

在Spark中的第二个抽象是能够用于并行操作的shared variables(共享变量), 默认情况下，当spark的一个函数作为一组不同节点上的任务运行时，它将每一个变量的副本应用到每一个任务的函数中去。

初始化Spark

Spark程序必须做的第一件事情是创建一个SparkContext对象，它会告诉Spark如何访问集群。要创建一个SparkContext，首先需要构建一个包含应用程序的信息的SparkConf对象。

每一个JVM可能只能激活一个SparkContext对象。????????

在创建一个新的对象之前，必须调用stop() 该方法停止活跃的SparkContext。

val conf = new SparkConf().setAppName(appName).setMaster(master)

new SparkContext(conf)

这个appName参数是一个在集群UI上展示应用程序的名称。master是一个Spark Mesos或YARN 的cluster URL，或者指定为在local mode中运行"local"字符串。（Master URL 意义： local[K,F] 使用k个线程跑spark，并允许失败F次。）

外部数据集

Spark可以从Hadoop所支持的任何存储源中创建distributed dataset（分布式数据集），包括本地文件系统，HDFS,Cssandra，HBase等等

可以使用SparkContext的textFile方法来创建文本文件的RDD.

scala> val distFile = sc.textFile("data.txt")

使用Spark读取文件时需注意：如果使用本地文件系统的路径，所工作节点的相同访问路径下该文件必须可以访问。所有spark基于文件的input方法，包括textFie，支持在目录上运行，压缩文件和通配符，例如 textFile（"/my/directory/*.txt")

RDD 操作

RDDs Support两种类型的操作：transformations（转换），它会在一个已经存在的dataset上创建一个新的dataset，和actions，将在dataset上运行的计算后返回到driver程序。

spark中素有的transformations都是lazy的，因此它不会立刻计算出结果。只有当需要返回结果给驱动程序时，transformations才开始计算。

默认情况下，每次你在RDD运行一个action时，每个transfrmed RDD 都会被重新计算。但是，您也可以用persist方法将RDD persist（持久化）到内存中；在这种情况下，Spark为了下次查询时可以更快地访问，会把数据保存在集群上。此外，还支持持续持久化RDDs到磁盘，或复制到多个结点。

RDD 基础介绍

val lines = sc.textFile("data.txt")

val lineLengths = lines.map(s => s.length)

val totalLength = lineLengths.reduce((a, b) => a + b)

说明：第一行从外部文件定义了一个基本的RDD，但这个数据集并未加载到内存中或即将被行动，line仅仅是一个类似指针的东西，指向该文件。

第二行定义了lineLengths作为map transformation的结果，由于laziness延迟加载lineLength不会被立即计算。

最后，运行reduce，这是一个action。此时，Spark分发计算任务到不同的机器上运行，每台机器都运行在map的一部分并本地运行reduce，仅仅返回它聚合后的结果给驱动程序。

传递Functions给Spark

。。。

执行作业时，Spark会分解RDD操作到每个executor中的task里。在执行之前，Spark计算任务的closure（闭包）。闭包是指executor要在RDD上进行计算时必须对执行节点可见的那些变量和方法（在这里是foreach()）。闭包被序列化并发送到每个executor。

闭包的变量副本发给每个executor，当counter被foreach函数引用的时候，它已经不再是driver node的counter了。。。

如何打印所有元素？

单机语法：rdd.foreach(println) 或 rdd.map(println)

集群模式：要打因driver程序所有元素，可以使用collect()。方法是先把RDD放到driver程序节点上 rdd.collect().foreach(println)。

这样可能会导致driver程序耗尽内存，因为collect()获取整个rdd到一台机器；如果只打印rdd的几个元素，可以使用take(): rdd.take(100).foreach(println)。

什么是shuffle？？？

　　ｓｐａｒｋ里的某些操作会触发ｓｈｕｆｆｌｅ。

　　Ｓｈｕｆｆｌｅ是ｓｐａｒｋ重新分配数据的一种机制，使得这些数据可以跨不同的区域进行分组。这通常涉及子ｅｘｅｃｕｔｏｒｓ和机器之间拷贝数据，使得ｓｈｕｆｆｌｅ成为复杂的，代价高的操作。

共享变量

　　通常情况下，一个传递给ｓｐａｒｋ操作（例如ｍａｐ或ｒｅｄｕｃｅ）的函数ｆｕｎｃ是在远程的集群节点上执行的。该函数ｆｕｎｃ在多个节点执行过程中使用的变量，是同一个变量的多个副本。这些变量以副本的方式拷贝到每个机器上，并且各个远程机器上变量的更新并不会传播回ｄｒｉｖｅｒ　ｐｒｏｇｒａｍ（驱动程序）。通用且支持ｒｅａｄ－ｗｒｉｔｅ（读－写）的共享变量在任务间是不能胜任的。所以，ｓｐａｒｋ提供了两种类型的共享变量：ｂｒｏａｄｃａｓｔ　ｖａｒｉａｂｌｅｓ（广播变量）

　　　　　　　和　ａｃｃｕｍｕｌａｔｏｒｓ（累加器）

广播变量

　　广播变量允许程序员将一个ｒｅａｄ－ｏｎｌｙ的

spark整理笔记

你可能感兴趣的:(spark整理笔记)