spark 广播变量

什么是spark 广播变量?

广播变量是分布式的共享变量。


广播变量的好处:

广播变量允许将一个只读的变量缓存在每台机器上。而不用在任务之间传递变量,

数据变成了 每个executor存储一份数据,而不是每个task存储一份数据。

广播变量被用于有效地给每个节点一个输入数据集的副本。



创建广播变量的方式:

val bc=sparkContext.broadCast() 里面是传入一个变量。

val vb=bc.value() //获取广播变量的值的方式

广播变量需要注意的地方:

1:广播变量之中的值 是需要能够被串行化的。

2:广播变量只能够进行读取,但是不能够进行修改。

如果数据量不是很大的话,建议将数据做成广播变量,

数据量的限制大概是再 2G 左右。

数据量超过2G 就建议做成是广播变量了。

你可能感兴趣的:(spark 广播变量)