【大数据进击】Spark中的广播变量Broadcast Variable

官方介绍

A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner. Spark also attempts to distribute broadcast variables using efficient broadcast algorithms to reduce communication cost.

使用背景

在Spark的计算任务中,map, flatmap, reduce等算子操作时往往需要使用到变量;
默认情况下,Driver会将变量传输给每一个task

实际生产环境时,条件往往是这样的:

  1. task的数量是往往是很多的
  2. 大数据任务下使用的变量十分大
    这就进而造成:
    Driver传输到Task将会占用大量网络带宽,进而影响任务整体速度

简介

Spark作为一个优秀的大数据计算框架,自然也对这种情况做出了优化。那就是广播变量Broadcast variable,使用广播变量,有以下几个特点:

  1. 将广播变量传输一份副本到每个Worker
  2. 只读性
    如此以来,在每个Worker(节点机器)中,都有一份该变量,计算时task直接从本地获取即可,无需再耗费网络资源,但考虑到高并行时的并发写问题,广播变量只可读,不可写(累加器可写)。

具体使用(Scala版)

  1. 创建广播变量
val v2 =  sparkContext.broadcast(v1)
  1. 获取广播变量
val v3 = v2.value

你可能感兴趣的:(【大数据进击】Spark中的广播变量Broadcast Variable)