大数据常见面试题

 1. hive优化
 2. 数据倾斜
 3. 小文件问题
 4. 项目中用到的重点指标(至少3个),要非常熟悉,能说出怎么建的表,怎么算的
 5. MySQL事务底层原理,MVCC
 6. 拉链表,累积型事务事实表
 7. 数据治理项目,离线数仓,实时数仓
 8. 拉链表9999分区丢失怎么办?用ODS层重新算一遍
 9. JVM调优,组成,堆的大小,新生代和老年代大小,比例,GC回收器选择,垃圾标记算法,垃圾回收算法
 

1.自我介绍
2.你为什么要用kafka
3.简单介绍一下kafka  优缺点
4.你为什么不用其他的组件,技术选型,对比
5.kafka怎么部署的,几台
6.kafka有一台挂了怎么办
7.leader怎么选的
8.kafka监控
9.深入,架构,工作流程
10.常见问题: 数据丢失,数据重复,吞吐量
11.kafka怎么调优,遇到过什么问题,怎么解决的,
12.场景题
13.如果其他技术,流程如上

公共问题:
1.一致性,幂等性
2.数据丢失,数据重复

你可能感兴趣的:(大数据面试题,大数据)