Spark常见面试题

Spark常见面试题

Spark on Yarn 两种方式的区别以及工作流程
Spark 内存管理 官网优化这块查看
Spark作业资源的设置情况 excutor 个数 memory core driver
Shuffle 机制
DataFrame/DataSet 和 RDD的区别以及编程
数据倾斜
RDD的五大特性
Spark作业的执行流程:Count后续干了什么事情
Spark中的饮食转换的作用,结合Scala
Spark和MR的区别
Spark集群规模
Spark OOM如何解决
ThriftServer如何实现HA
Kafka整合Spark的时候OFFSET的管理
Spark Storm Flink 的区别
Spark使用中遇到过哪些问题,怎么解决,亮点在哪里
合理的算子选择
Catalyst的流程

你可能感兴趣的:(spark面试)