Spark

spark

  • 请说一下spark的RDD?
  • spark与RM的本质区别?
  • spark的任务调度过程?
  • 自己实现一个RDD,需要实现那些函数或者部分
  • Spark中划分stage为什么以宽依赖为基准?
  • Spark中的DAGScheduler和TaskScheduler的区别及任务调度过程?
  • Spark中的stage必须要等所有父stage执行结束吗?
  • 当上有stage关闭时,将数据存储在那里?
  • Spark的shuffle中的map输出结果的处理结构是什么?
  • 说一下spark中的基本工作流程?
  • 说一下spark的运行模式?
  • RDD是如何容错的?
  • reduce如何获取map任务的输出?
  • spark map端计算结果缓存处理并简介appendOnlyMap?
  • spark任务调度模块?
  • spark的存储管理?
  • spark的存储管理中的shuffle持久化?
  • 说一下spark中的shuffle过程?
  • 说一下spark中shuffle streaming?
  • 说一下spark streaming?
  • 说一下spark streaming如何处理反压?
  • 说一下spark streaming支持的输入源有哪些?
  • spark streaming与spark作业的关系?
  • spark stream优化?
  • spark streaming 优点缺点?
  • spark hashPartitioner与rangePartitioner的实现?
  • spark RDD的内部数据结构以及不足?
  • spark join的几种形式?
  • spark streaming的容错处理?
  • spark stream 与 storm的区别?
  • spark中reparation与coalesce的区别?
  • 用scala访问控制权限?(携程)
  • 用scala实现worldcount?
  • spark中persist与cache的区别?
  • 讲一下完整ETL的过程?
  • flume如何采集数据?
  • Tachyon?

你可能感兴趣的:(Spark)