大数据分析面试题(13)


--------------------------------------------
简洁扼要的简历
简历整体感觉好,用简明扼要的语言描述自己的技术特点,项目描述准确
项目经验编写要切合实际,做到熟练于心
面试礼仪
最基本的面试礼仪,穿着落落大方,言行举止得当。
面试题分享
1、Java基础(笔试较多),为多线程,集合操作,以及最基础的Java知识。考察SQL功底,多表关联查询问题
2、根据公司业务简述简历上写的框架的功能,使用场景
3、hadoop,少部分公司为笔试题。主要问hbase、hive、mr,hdfs其他较少涉及。
1)hbase使用场景,优化。
2)hive外部表,内部表区别,数据倾斜优化
3)hdfs原理,各个模块功能
4)mr运行流程简述,(天龙八部)
4、把公司业务讲清楚,这些框架如何使用的,也就是把项目架构描述清楚,以及工作职责,擅长的技术。

------------------------------------------------
笔试:
1、 java基础类: 
2、 linux基础:
3、 数据库类:oracle查询语句
面试: 
1、讲项目经验:问的很细,给纸,笔,让画公司hadoop的项目架构,最后还让自己说几条业务数据,然后经过平台后,出来成什么样子; 
2、java方面:io输入输出流里有哪些常用的类,还有webService,线程相关的知识; 
3、linux:问到jps命令,kill命令,问awk,sed是干什么用的、还有hadoop的一些常用命令; 
4、hadoop:讲hadoop1中map,shuffle,reduce的过程,其中问到了map端和reduce端溢写的细节(幸好我之前有研究过); 也问了一些,外部表,还有就是hive的物理模型跟传统数据库的不同。


--------------------------------------------------------------------------

 

 

 

 

--------------------------------------------------------------------------

 

1.如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?

2.问的java多线程

3.hive hbase区别

4.hbase rowkey设计


1 datanode 在什么情况下不会备份

2 combine出现在那个过程

3 hdfs得体系结构

4 flush的过程

5 什么是队列

6 List与Set的区别

7 数据库的三大范式

8 三个datanode 当有一个datanode出现错误 会怎样

9 sqoop在导入数据到mysql中,如何让数据不重复导入?如果存在数据问题sqoop如何处理?


1、 在hadoop中定义的主要公用InputFormat中,哪个是默认值?
2、 两个类TextInputFormat和KeyValueInputFormat的区别是什么?
3、 在一个运行的hadoop任务中,什么是InputSplit?
4、 Hadoop框架中文件拆分是怎么调用的?
5、 参考下列M/R系统的场景:hdfs块大小为64MB,输入类为FileInputFormat,有3个文件的大小分别为64KB, 65MB, 127MB
Hadoop框架会把这些文件拆分为多少块?
6、 hadoop中RecordReader的作用是什么?
7、 Map阶段结束后,Hadoop框架会处理:Partitioning, Shuffle和Sort,在这个阶段都发生了什么?
8、 如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
9、 什么是combiner?
10、分别举例什么情况要使用 combiner,什么情况不使用?
11、Hadoop中job和tasks之间的区别是什么?
12、hadoop中通过拆分任务到多个节点运行来实现并行计算,但某些节点运行较慢会拖慢整个任务的运行,hadoop采用全程机制应对这个情况?
13、流API中的什么特性带来可以使map/reduce任务可以以不同语言(如perl, ruby, awk等)实现的灵活性?
14、有可能使hadoop任务输出到多个目录中吗?如果可以,怎么做?
15、如何为一个hadoop任务设置mappers的数量?
16、如何为一个hadoop任务设置要创建reduder的数量?

你可能感兴趣的:(大数据面试题)