Spark 累加器和广播变量

累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱 动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本, 更新这些副本的值也不会影响驱动器中的对应变量。 如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。

累加器的用法如下所示:

通过在驱动器中调用SparkContext.accumulator(initialValue)方法,创建出存有初始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象,其中 T 是初始值 initialValue 的类型。Spark闭包里的执行器代码可以使用累加器的 += 方法(在Java中是 add)增加累加器的值。 驱动器程序可以调用累加器的value属性(在Java中使用value()或setValue())来访问累加器的值。

注意:工作节点上的任务不能访问累加器的值。从这些任务的角度来看,累加器是一个只写变量。

对于要在行动操作中使用的累加器,Spark只会把每个任务对各累加器的修改应用一次。因此,如果想要一个无论在失败还是重复计算时都绝对可靠的累加器,我们必须把它放在 foreach() 这样的行动操作中。转化操作中累加器可 能会发生不止一次更新

Spark 中的累加器有两种:

1.系统提供的累加器
2.自定义累加器
调用系统提供的累加器:sc.accumulator(0)
获取累加器的值:param.value
自定义累加器:继承自org.apache.spark.util.AccumulatorV2,重写其中的方法
为了保证累加器有意义,需要在action算子里面进行操作累加器。
Executor端访问不了累加器的值,只能对累加器值进行修改。

自定义累加器

自定义累加器类型的功能在1.X版本中就已经提供了,但是使用起来比较麻烦,在2.0版本后,累加器的易用性有了较大的改进,而且官方还提供了一个新的抽象类:AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。实现自定义类型累加器需要继承AccumulatorV2并至少覆写下例中出现的方法,下面这个累加器可以用于在程序运行过程中收集一些文本类信息,最终以Set[String]的形式返回。

import java.util
import org.apache.spark.util.AccumulatorV2
/**
  * 用户在自定义累加器,泛型[in,out]
  */
class CustomAccumulator extends AccumulatorV2[String, java.util.Set[String]] {

  private val hstr = new util.HashSet[String]()

  /**
    * 判断累加器变量是否为空
    *
    * @return
    */
  override def isZero: Boolean = {
    hstr.isEmpty
  }

  /**
    * 复制操作数据从Executor端复制到Driver端
    *
    * @return
    */
  override def copy(): AccumulatorV2[String, java.util.Set[String]] = {
    val accumulator = new CustomAccumulator()
    accumulator.hstr.addAll(hstr)
    accumulator
  }
  /**
    *
    */
  override def reset(): Unit = hstr.clear()
  /**
    *
    * @param v
    */
  override def add(v: String): Unit = hstr.add(v)
  /**
    *
    * @param other
    */
  override def merge(other: AccumulatorV2[String, java.util.Set[String]]): Unit = {
    hstr.addAll(other.value)
  }
  /**
    *
    * @return
    */
  override def value: java.util.Set[String] = {
    java.util.Collections.unmodifiableSet(hstr)
  }
}

广播变量

广播变量用来高效分发较大的对象。向所有工作节点发送一个 较大的只读值,以供一个或多个 Spark 操作使用。比如,如果你的应用需要向所有节点发 送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起 来都很顺手。

传统方式下,Spark 会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便,但也很低效。原因有二:首先,默认的任务发射机制是专门为小任务进行优化的;其次,事实上你可能会在多个并行操作中使用同一个变量,但是 Spark会为每个任务分别发送。

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(35)

scala> broadcastVar.value
res33: Array[Int] = Array(1, 2, 3)

使用广播变量的过程如下:

  • (1) 通过对一个类型 T 的对象调用 SparkContext.broadcast 创建出一个
    Broadcast[T]对象。任何可序列化的类型都可以这么实现。
  • (2) 通过 value 属性访问该对象的值(在 Java 中为 value() 方法)。
  • (3) 变量只会被发到各个节点一次,应作为只读值处理(修改这个值不会影响到别的节点)。

你可能感兴趣的:(hadoop)