pyspark 学习

spark:分布式计算引擎,用多台计算机完成计算任务

计算机角色:master与slave(物理层级),driver与exector(应用层级)

driver是资源管理和调度器,拥有spark context,可以申请资源和进行资源管理,executor负责任务的具体执行,由于spark主要是靠内存计算,对于excutor,内存都应用执行不同的操作

driver与executor都运行于jvm上,一个十分优秀的图:


pyspark 学习_第1张图片
spark.jpg

你可能感兴趣的:(pyspark 学习)