spark阶段和任务小结

spark一般有以下几种执行模式,standalone执行模式,通过资源管理器管理分片资源的执行模式(常用的有spark集群管理器,mesco,yarn资源管理器),当执行一个spark的作业时一般都会把任务分成几个shuffle阶段,每个阶段分成几个任务的形式。
stage阶段的划分一般是宽转换(shuffle)操作,例如group by等操作,任务阶段一般是窄变换操作,例如map,filter等操作,这种窄转换操作spark一般会在一个内存操作中直接完成多个转换来提高性能.

yarn资源管理器在执行flink作业和spark作业时,原理是类似的:
1.对于flink来说: yarn的rm会分片一个application master节点总览job的各项工作,包括分配任务和汇总作业进度,分片作业之后application master会向rm申请资源来启动slave进程执行具体的任务.
2.对于spark来说:yarn的rm会分片一个驱动器节点进程总览job的各项工作,包括分配任务和汇总作业进度,分片作业之后驱动器进程会像rm申请资源来启动executor执行器进程执行具体的任务

你可能感兴趣的:(大数据,spark)