Spark-核心常见面试题集锦(RDD、shuffle类型、数据倾斜优化、小文件问题、性能调优、streaming流程、checkpoint机制)
1Spark的任务执行流程第一种standalone模式整体:driver中有sparkcontext,RDDDAG和DAGScheduler和taskscheduler,master是资源管理,worker中executor,executor中有多个task构建一个application环境,driver创建sparkcontextsparkcontext中的taskcheduler连接到集群管