大数据开发的一次面试题及延伸

华润集团的大数据开发笔试题20道选择题,包括单选和多选题

一、单选题

1.关于SecondaryNameNode,哪一选项是正确的? (my:C)

A、它是NameNode的热备

B、它对内存没有要求

C、他的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。

D、SecondaryNameNode应与NameNode部署到同一节点上。

2.Client端上传文件的时候下列哪项是正确的?(my:B)

A、数据经过NameNode传递给DataNode

B、Client端将文件切分为Block,依次上传

C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作

3.下面与HDFS类似的框架是?(my:C)

A、NTFS

B、FAT32

C、GFS

D、EXT3

4.以下描述错误的是?(my:D)

A、输入分片inputsplit其实是对数据的引用

B、MultipleInputs可以设置多个数据源以及它们对应的输入格式

C、可以通过重载isSplittable()方法来避免文件分片

D、ReduceTask需要等到所有的map输出都复制完才进行merge

5、以下哪种不是Hadoop对于小文件的处理方式 (my:D)

A、SequenceFile

B、ConbinedInputFormat

C、Archive

D、ByteBuffer

6、默认的Namenode web管理端口是?(my:A)

A、50070

B、8020

C、50030

D、22

7、关系型数据库与HDFS之间相互数据迁移的工具?(my:D)

A、distop

B、fsck

C、fastcopy

D、sqoop

8、hadoop2.x采用什么技术构建源代码?(my:C)

A、ant

B、ivy

C、maven

D、makefile

9、以下属于oozie作用的是?(my:C)
A、作业监控

B、日志收集

C、工作流调度

D、集群管理

10、下面那个类的声明是正确的?(my:D)

A、abstract final class A{}

B、abstract private B(){}

C、protected private C

D、public abstract class D{}

11、默认的mapreduce输入格式是?(my:A)

A、TextInputFormat

B、keyValue TextInputFormat

C、NlinearInputFormat

D、SequenceFileInputFormat

12、以下哪个组件可以指定对key进行reduce分发的策略?(my:C)

A、RecordReader

B、Combiner

C、Partitioner

D、FileInputFormat

13、以下哪些是是RDD的特点?(my: ABD)

A、可分区

B、可序列化

C、可修改

D、可持久化

14、关于spark累加器,下面哪些是正确的?(my:ABC)

A、支持加法

B、支持数值类型

C、可并行

D、不支持自定义类型

15、Spark支持的分布式部署方式中哪些是正确的?(my:ABC)

A、standalone

B、spark on mesos

C、spark on YARN

D、Spark on local

16、下列哪些是RDD的缓存方法?(my:AB)

A、persist

B、cache

C、memory

17.下面哪些对Hbase的描述是正确的?(my:BCD)
A、不是开源的

B、是面向列的

C、是分布式的

D、是一种NoSQL数据库

18、下面哪些概念是HBase框架中使用到的?(my:AC)

A、HDFS

B、GridFS

C、Zookeeper

D、ExT3

19.哪些组件的元数据存储在zookeeper中?(my:BC)

A、hbase

B、storm

C、kafka

D、spark

20.hadoop生态圈汇总的类sql查询引擎包括?(my:BD)

A、impala

B、prestodb

C、drill

D、hive

以上是我个人的答案,不知道正确与否,仅仅是作为一次面试的记录,有感兴趣的朋友,可以自己私下做一下相应的答案。

另附上一些相关材料:

hadoop生态圈各个组件简介

Hbase总结(六)hbase37个笔试题

Spark支持三种分布式部署方式

spark的广播变量和累加器的用法

Spark RDD概念学习系列之RDD的五大特征

RDD的5大特点

面试题--精选Hadoop选择题 important

MapReduce类型与格式(输入与输出)

hadoop最新自测题及答案

Hadoop关于处理大量小文件的问题和解决方法

关于hadoop处理大量小文件情况的解决方法

secondary namenode和namenode的区别

 

 

 

你可能感兴趣的:(spark*hadoop学习)