spark-广播变量

当本地数据极大的时候,可以使用广播变量,使得减少内存。

本地集合对象和分布式集合对象(RDD)进行关联的时候,需要将本地集合对象广播变量。

本地的数据传输到集群上,会发到每一个线程,每一个分区。

每一个进程executor,有多个线程分区,进程内的线程数据共享

因此,给每一个线程发送数据会导致数据占用,浪费资源。

所有,出现了广播变量,使得只发送给进程

代码使用:

broadcast=sc.broadcast(stu_info_list)
#广播变量类型的本地数据

value=broadcast.value
#就是一个破容器,你在里面镀金一遍,就可以了

你可能感兴趣的:(+spark,hdfs,hadoop,大数据,spark)