大数据面试题

1.说一下最近做的项目
(1)我把实时简单说了一下,说的一般
2.说一说为什么要数仓分层
(1)把维度建模随便说了下,又扯了一下分层
3.说一下数据倾斜
(1)没回答好,hive只说了groupby   flink说了一下keyby的三种情况
4.说一下hive小文件问题
1.介绍了一下最近的项目,说的实时架构,又说了一下建模
2.问hive优化
3.问小文件问题
4.问combinehiveinputformat是逻辑优化还是物理优化
1.说最近项目,实时·
2.问具体flink中做了哪些工作(指标,优化)
3.介绍Checkpoint
4.介绍clickhouse
5.问java会不会写微服务,让别人去ck拿数据那种,但又不能直接访问数据库?
6.flink的job提交流程?
7.你们的容错怎么做的?
8.数据转换数据交换怎么做的,提升它的效率
9.kafka三种消息投递语义
10.kafka哪些情况下有数据丢失的问题?
11.hive分区分桶的区别
12.窗口函数列举一些
13.UDF、UDAF、UDTF区别
14.spark数据倾斜怎么定位,怎么解决?
1.mr和hive on sprak的区别
2.有没有遇到过数据丢失,或者重复的问题 ,怎么解决
3.平时数据量多少
4.ES和CK的区别
5.hive中有没有遇到过数据倾斜,怎么处理的
6.数仓建模方面聊聊
7.平时负责比较多的工作
1.你们数仓架构选型
2.你们数仓的是怎么建模的
3.会Python嘛
4.目前来说你们公司日活多少
5.公司一天数据多少
6.公司现在每天订单量有多少,
7.公司现在的日志有过亿嘛
8.Hive的优化
1.自我介绍
(1)我说了一下大概经历,强调了一下主要做数仓建模和采集以及一部分指标的分析
2.讲一下flink的批流一体以及容错性
3.讲一下hadoop读写流程
4.讲一下数仓建模
5.说一下离线中做了哪些指标
6.让具体说了一下留存率是怎么做的
7.有没有用过拉链表,讲讲
8.说说自己的优势
(1)我说数仓建模,flink
9.又问我建模完成后怎么检验整个数仓建模的质量
10.共享屏幕写了一道留存率sql
1.HDFS读写流程
2.HDFS小文件
3.Hive SQL翻译成执行任务步骤
4.Hive数据倾斜
5.Hive分区和分桶什么时候用
6.Flink和Spark Streaming的区别
7.Flink分区
1、hive小文件
2、Java线程、集合 介绍一下
3、Kafka精准一次
4、Sql题 七连三
5、Hive基本数据类型
6、如果源关系数据库频繁做数据变更,hive计算的比较慢,hive怎么保证跟源头数据一致
7、hbase有个别超大表,其他都是小表,怎么办
8、Hql编译过程
9、Hdfs读写流程
10、建模,聊聊,关系型建模和维度建模优缺点
11、冒泡排序
12、Hbase怎么保证数据不丢
13、Hive里timestamp怎么转date
 

你可能感兴趣的:(大数据,hadoop,java)