大数据面试通关手册|Spark面试题(一)

⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339
⭐⭐欢迎点赞  收藏 ⭐留言  ,欢迎留言交流!
⭐⭐本文由【王知无】原创,首发于 CSDN博客!
⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!

Spark

  1. 通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?
  2. hadoop和spark使用场景?
  3. spark如何保证宕机迅速恢复?
  4. hadoop和spark的相同点和不同点?
  5. RDD持久化原理?
  6. checkpoint检查点机制?
  7. checkpoint和持久化机制的区别?
  8. RDD机制理解吗?
  9. Spark streaming以及基本工作原理?
  10. DStream以及基本工作原理?
  11. spark有哪些组件?
  12. spark工作机制?
  13. 说下宽依赖和窄依赖
  14. Spark主备切换机制原理知道吗?
  15. spark解决了hadoop的哪些问题?
  16. 数据倾斜的产生和解决办法?
  17. 你用sparksql处理的时候, 处理过程中用的dataframe还是直接写的sql?为什么?
  18. 现场写一个笔试题
  19. RDD中reduceBykey与groupByKey哪个性能好,为什么
  20. Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么

你可能感兴趣的:(大数据面试通关手册,大数据)