Spark 面试题

总结

问题 答案
spark stage 化分 宽依赖 ,如reducebykey groupbykey
groupbykey和reducebykey的区别 reducebykey提前做一次合并
spark streaming 消费数据不丢 https://www.cnblogs.com/evakang/p/11043543.html
spark OOM 1.driver 端 collect算子 2.exector 内存不够
spark 数据倾斜问题 https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA
Spark Shuffle调优
Spark Shuffle 迭代版本
RDD 分区,不可变,并行操作
RDD 五大特性
cache,persist 都是缓存RDD,两个 区别在于persist可以设置缓存级别
rdd,partition,executor,core,task关系 rdd对应多个partition,一个partition 对应一个task,一个executor,要以对应多个core,一个core同时只能处理一个任务
spark与hadoop的区别 1.hadoop数据要落盘,spark优先放内存 2.
spark streaming与flink比较
spark的lazy体现 action算子才会生成任务
spark的调度机制 https://mp.weixin.qq.com/s/B44ekh53tTkF4UfFXJ-jBQ
Spark为什么适合迭代处理 rdd 可以被cache多次处理
Broadcast的作用 executor使用到了driver的变量 ,如果不使用,每个task都会有一份副本,使用了,一个executor一份副本
RDD和Dframe的区别 dframe有schema ,dframe中间会经过逻辑优化,可以进行谓词下推
Spark容错 1.如果有rdd数据丢失,可以通过关系图重算这个数据 2.spark streaming 可以通过checkpoint来保证
spark动态资源调度模型 通过参数设置,没有使用的executor可以被回收,需要 的时候再申请

你可能感兴趣的:(spark)