面试过程中的一些面试题

1、求用户最大连续登陆的天数
2、写个sql(简单两表jion)问spark在处理过程中产生多少stage,用mr处理过程中产生多少job,并且mr底层是怎么处理这个sql的(map端和reduce端)
3、数仓命名规则
4、项目过程中遇到了哪些复杂的问题
5、第二个项目,日志数据为什么先写入redis中,再持久化到磁盘
6、是否对hive进行调优,简单说下
7、hive中的存储格式
8、怎么保证数据仓库中数据的质量
9、求过最复杂的指标是什么
10、数据仓库中dws(宽表)的设计原则
11、kafka原理简单介绍
12、hbase简单介绍,及项目中hbase的表设计原则
13、gc垃圾回收机制,cms垃圾回收过程。
14、在项目中spark-submit提交作业指定的指定的资源

你可能感兴趣的:(面试题)