大数据面试遇到的问题

1.yarn调度有哪几种方式,优缺点是什么?

a) Fifo schedular 默认的调度器  先进先出

b) Capacity schedular  计算能力调度器    选择占用内存小  优先级高的

c) Fair schedular 调度器    公平调度器   所有job 占用相同资源


2.大数据集群数据丢失了如何恢复?

3.你平时遇到过那些故障并且如何解决?

4.namenode如何优化?

5.Namenode启动流程是什么?

6.flume 有几种模式,你们常用那些模式?

7.hadoop如何调优?

8.kafka运行流程图?

9.画图,说说spark shuffle的过程,以及如何在编程的时候注意什么

10.如何把hue集合到ambari中统一管理

11.说明ranger原理

12.有35台服务器(24核48G)有一个SQL查询大表(几十亿),小表(1亿),需要在一分钟运行20次SQL查询,用spark如何实现,SQL是固定死的,SQL本身不能优化。

13.hive内部表和外部表区别

1)在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而表则不一样;
2)在删除内部表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!
那么,应该如何选择使用哪种表呢?在大多数情况没有太多的区别,因此选择只是个人喜好的问题。但是作为一个经验,如果所有处理都需要由Hive完成,那么你应该创建表,否则使用外部表!

你可能感兴趣的:(面试题)