大数据面试题

第一阶段：
1.scala闭包
2.jdk版本
3.mysql版本
4.垃圾回收器 CMS G1 HBASE
笔试部分：

1.给定一个字符串，求最大的回文长度？？？？
2.给定两个有序的数组，合并一个有序的数组
3.一个有序的数组构建成平衡的二叉树

第二阶段：

1.压缩有哪几种？ 区别 什么场景用
2.文件格式有哪几种？ 区别 什么场景用
3.HDFS读写流程 output和input对象，谁是读，谁是写
4.HDFS的namenode内存生产上如何规划？
5.小文件（20M以下） 过多了 什么危害？如何规避 合并，降低namenode内存的压力

6.yarn的工作流程
7.yarn调度器哪几种？区别是什么 
8.yarn的生产上调优参数 调优规划 让你的内存 最大化利用 vcore
9.Hive内部表和外部表的区别

10.Hive外部表有静态，动态 区别是什么
11.Hive的UDF函数，如何永久生效？
12.Hive的sort by, order by,cluster by, distributed by各代表什么意思

13.sqoop如何增量抽取到Hive， 对应的hive表如何设计
14.hbase的rowkey如何设计，请举例？
15.hbase的读写流程经过master吗？假如不经过，那么什么流程经过呢？
16.hbase的hbck命令有了解吗？哪些故障？哪些命令？

17.flume如何抽取数据？记录pos点？ 能支持递归吗？
18.flume源代码有没有做过二次开发？

19.kafka的ack有哪几种？ 生产选择哪个？
20.kafka offset有绝对和相对的说法吗？请解释一下
21.kafka offset如何寻找数据 请复述流程
22.kafka 生产者和消费者生产上如何做监控？看数据的是否及时消费呢？
23.spark数据倾斜的解决方案
24.spark代码有没有阅读过
25.

大数据面试题

你可能感兴趣的:(spark,大数据,面试)