Hadoop期末考试题

1目前,Hadoop的最高版本是哪个?

(2.0分)2.0 分
A、Hadoop3.x

B、Hadoop2.x

C、Hadoop4.x

D、Hadoop1.x

正确答案: A

2大数据的4V特征是指?(2.0分)
A、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)
B、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)
C、
数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)
D、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)
正确答案: B

3HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?

(2.0分)0.0 分
A、一个map读取64MB,另外一个map读取11MB

B、128MB

C、64MB

D、75MB

正确答案: D
4HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?

(2.0分)2.0 分
A、一个map读取64MB,另外一个map读取11MB

B、64MB

C、75MB

D、128MB

正确答案: A
5关于SecondaryNameNode哪项是正确的?(2.0分)
A、
它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
B、它对内存没有要求
C、它是NameNode的热备
D、SecondaryNameNode应与NameNode部署到一个节点
正确答案: A

6把本地文件放到集群里,可以使用下面哪个hadoop shell的命令?(2.0分)
A、hadoop fs -put
B、hadoop fs –push /
C、hadoop fs –put /
D、hadoop -push /
正确答案: C

7如果想要修改集群的备份数量,可以修改下面哪个配置文件?(2.0分)
A、mapred-site.xml
B、core-site.xml
C、hdfs-site.xml
D、hadoop-env.sh
正确答案: C

8在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令?(2.0分)2.0 分
A、reboot
B、hostname
C、pwd
D、tail
正确答案: B

9Hadoop-2.x集群中的HDFS的默认的副本块的个数是?(2.0分)2.0 分
A、3
B、2
C、1
D、4
正确答案: A

10以下哪个不是HDFS的守护进程(2.0分)2.0 分
A、SecondaryNameNode
B、NameNode
C、MrappMaster/YarnChild
D、DataNode
正确答案: C

11大数据至少为以下哪种存储量级?(2.0分)2.0 分
A、EB
B、PB
C、TB
D、ZB
正确答案: B

12关于HDFS集群中的DataNode的描述不正确的是?(2.0分)
A、一个DataNode上存储的所有数据块可以有相同的
B、存储客户端上传的数据的数据块
C、DataNode之间可以互相通信
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
正确答案: A

13
MapReduce的Shuffle过程以下中哪个操作是最后做的?

(2.0分)2.0 分
A、排序

B、合并

C、分区

D、溢写

正确答案: B
14Hadoop起始于以下哪个阶段?

(2.0分)2.0 分
A、2004年,Nutch的开发者开发了NDFS。

B、2004年,Google发表了关于MapReduce的论文。

C、2003年,Google发布了GFS论文。

D、2002年,Apach项目的Nutch。

正确答案: D
下列哪项可以作为集群的管理工具?

(2.0分)2.0 分
A、Cludera Manager

B、都可以

C、Pdsh

D、Rsync+ssh+scp

正确答案: B

16配置机架感知的下面哪项正确?

A、MapReduce会根据机架获取离自己比较近的网络数据

B、写入数据的时候会写到不同机架的DataNode

C、都正确

D、如果一个机架出问题,不会影响数据读写

正确答案: C
17下列关于HDFS的描述正确的是?(2.0分)
A、NameNode磁盘元数据不保存Block的位置信息
B、DataNode通过长连接与NameNode保持通信
C、HDFS集群支持数据的随机读写
D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作
正确答案: A

18一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?

(2.0分)2.0 分
A、3

B、2

C、4

D、1

正确答案: B
19按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是?(2.0分)2.0 分
A、混合处理系统
B、分布式键值系统
C、批处理系统
D、流处理系统
正确答案: B

20关于大数据的价值密度描述正确的是以下哪个?(2.0分)2.0 分
A、大数据由于其数据量大,所以其价值密度低。
B、大数据由于其数据量大,所以其价值也大。
C、大数据的价值密度是指其数据类型多且复杂。
D、大数据由于其数据量大,所以其价值密度高。
正确答案: A

二、多选题 (题数:20,共 40.0 分)
1下面哪个组件可以在Hadoop集群中代替MR做一些计算?(2.0分)2.0 分
A、Spark
B、Sqoop
C、Hive
D、Avro
正确答案: AC

2大数据的计算模式主要有哪些?(2.0分)2.0 分
A、图计算模式
B、流计算模式
C、查询分析计算模式
D、批处理计算模式
正确答案: ABCD

3
Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这5个编程组件中。

(2.0分)2.0 分
A、Partitioner和Combiner

B、Split和Sort

C、InputFormat和OutputFormat

D、Mapper和Reducer

正确答案: AB
4
YARN主要包含的模块有以下哪些?

(2.0分)2.0 分
A、ApplicationMaster

B、ResourceManager

C、NodeManager

D、QuorumJournalManager

正确答案: ABC
5下面哪些是Hadoop 2.x的组件?(2.0分)0.0 分
A、Spark
B、Hive
C、HBase
D、GFS
正确答案: ABC

6Hadoop的三种安装模式包括以下哪种?

(2.0分)2.0 分
A、两分布式模式

B、完全分布式模式

C、伪分布模式

D、单机模式

正确答案: BCD
7VMware提供了哪几种工作模式?

(2.0分)0.0 分
A、host-only仅主机模式

B、NAT模式

C、自定义除以上3种其他模式

D、桥接(bridged)模式

正确答案: ABD
8Hadoop集群具有以下哪个优点?

(2.0分)2.0 分
A、高容错性

B、高成本性

C、高可靠性

D、高扩展性

正确答案: ACD
9关于数据副本的存放策略正确的有些?(2.0分)

A、第三个副本:与第一个副本相同机架的其他节点上;

B、更多副本:随机节点。

C、第一个副本,放置在上传文件的数据节点;

D、第二个副本,放置在与第一个副本不同的机架的节点上;
正确答案: ABCD

10以下关于SSH免密码配置的描述正确的选项有哪个?

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。

C、SSH是建立 在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。

正确答案: ABCD

11大数据采集中面临的主要问题有以下哪些?(2.0分)2.0 分

A、如何避免重复数据

B、数据源多种多样,数据量大、变化快

C、如何保证数据的质量

D、如何保证数据采集的可靠性
正确答案: ABCD

12以下关于文件块的说法正确的是?(2.0分)2.0 分

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配置的。

D、HDFS将文件存储成块序列。
正确答案: ABCD

13
MapRecue的优点有哪些?

A、可扩展性强

B、计算机性能高

C、容错性强

D、开发简单

正确答案: ACD

14以下关于HDFS体系结构的描述正确的有哪几项?

A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。

B、DataNode作为从结点,用来管理存储的数据。

C、HDFS采用主从结构模型。

D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。

正确答案: ABCD

15HDFS中常用命令有下面哪些?(2.0分)0.0 分

A、hadoop fs –rm

B、hadoop fs –ls

C、hadoop fs –mv

D、hadoop fs –put

正确答案: ABCD

16在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?

A、容易造成TaskTracker端内存溢出

B、JobTrack单点故障问题

C、JobTrack任务过重

D、容易造成资源浪费

正确答案: ABCD

17常用的HDFS API有哪些?(2.0分)2.0 分

A、rename()

B、copyFromLocalFile()

C、mkdirs()

D、delete()
正确答案: ABCD

18以下关于序列化Writable的说法正确的是?

(2.0分)2.0 分
A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。

B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。

C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。

D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。

正确答案: ABCD

19大数据关键技术包括哪些?(2.0分)2.0 分

A、大数据存储

B、大数据预处理

C、大数据采集

D、大数据分析挖掘
正确答案: ABCD

20大数据中常见的类型有哪些?(2.0分)2.0 分

A、视频

B、图片

C、音频

D、日志
正确答案: ABCD

三、判断题 (题数:10,共 20.0 分)
1Hadoop实现了一个分布式文件系统,简称HDFS。(2.0分)2.0 分
正确答案: √

2在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。(2.0分)2.0 分
正确答案: √

3HDFS既适合超大数据集存储,也适合小数据集的存储。(2.0分)2.0 分
正确答案: ×

4Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。(2.0分)2.0 分
正确答案: √

5我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。(2.0分)2.0 分
正确答案: √

6HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。(2.0分)2.0 分
正确答案: √
7Hadoop的框架最核心的设计就是:HDFS和MapReduce。(2.0分)2.0 分
正确答案: √

8HDFS以流的形式访问文件系统中的数据。(2.0分)2.0 分
正确答案: √

9HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。(2.0分)2.0 分
正确答案: √
10MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。(2.0分)2.0 分
正确答案: √

你可能感兴趣的:(hadoop,hadoop)