【大数据面经系列】大数据开发(实时计算方向)面试题(一)

得物

一面

  1. 自我介绍
  2. 实时数仓相关项目介绍
  3. flink集群规模与版本
  4. 多流join有哪些?
  5. connect原理与实现
  6. flink状态后端有哪些?
  7. FSMemory和RocksDBstate有什么区别?
  8. flink反压机制如何检测和解决?
  9. 多个算子的单一算子链如何检测反压?
  10. kafka ack机制 kafka rebalance

二面

  1. 自我介绍
  2. 实时模型特征值工程介绍?重点项目介绍
  3. 频繁查询维表如何处理?
  4. 频繁update 外存如何处理?
  5. 端到端的一致性保证
  6. sink到kafka中的一致性保证?kafka二阶段提交机制?
  7. sink到hdfs如何保证一致性?
  8. checkpoint机制与过程
  9. 实际中遇到的问题 flink kafka connector kafka什么情况下会丢失数据
  10. java 垃圾回收
  11. javatransient、 volatile关键字,java多线程?
  12. checkpoint恢复过程?修改并行度后如何恢复?

欢乐互娱

一面

  1. 自我介绍
  2. 如何实现漏斗分析模型(clickhouse)
  3. clickhouse视图
  4. cdh相关 presto+clickhouse

soul

一面

  1. 自我介绍
  2. 实时数仓项目相关
  3. 特征值与指标计算相关

二面

  1. 自我介绍
  2. 数据量峰值,性能 最复杂场景的特征值计算
  3. 场景:统计用户最近1天、最近7天、最近30天内的登录设备与ip数(需去重)
  4. 大数据量场景下遇到什么问题(举例:个别用户短信数量过大,导致按用户keyby后某些state过大,解决办法:根据userid+某个其他随机key组合进行keyby)
  5. 任务一直处于checkpoint中怎么处理?
  6. 多流join时某个流无数据该如何处理?
  7. 窗口机制与工作原理?
  8. state ttl设置?
  9. rocksdb为何可以实现增量checkpoint 出现反压时, 如何从network buffer
    input/output等来分析定位反压源? flinksql savepoint

永辉

一面

  1. 自我介绍
  2. 项目相关
  3. flink checkpoint机制
  4. flink端到端一致性如何保证

二面

  1. 自我介绍
  2. 项目相关
  3. 实时场景如何处理
  4. 实时数仓建设相关

数禾

一面

  1. 自我介绍
  2. flink 场景 select count(distinct(*))
  3. 项目相关

二面

  1. flink端到端一致性保证
  2. flink任务重启时state如何重新分布
  3. 特征变量开发相关场景

三面

  1. 自我介绍
  2. 工作中的角色
  3. 工作中遇到的困难

你可能感兴趣的:(flink,java,big,data,java,hadoop)