Hadoop期末试题复习题

文章目录

    • 单选
    • 多选题
    • 判断题
    • 部分知识点
    • 来源

预判老师的预判,考试了,复习用

单选

目前,Hadoop的最高版本是哪个?
A、Hadoop3.x

B、Hadoop2.x

C、Hadoop4.x

D、Hadoop1.x

正确答案: A

大数据的4V特征是指?
A、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)
B、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)
C、
数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)
D、
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)
正确答案: B

Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是
A. Hadoop
B. Nutch
C. Lucene
D. Solr
答案:D

配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
A. hadoop-default.xml
B. hadoop-env.sh
C. hadoop-site.xml
D. configuration.xsl
答案:B
知识点:hadoop配置

Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括
A. conf-site.xml
B. mapred-site.xml
C. core-site.xml
D. hdfs-site.xml
答案:A
知识点:hadoop配置

HDFS默认的当前工作目录是/user/$USER,fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. 以上均不是
答案:B
知识点:hadoop配置

关于Hadoop单机模式和伪分布式模式的说法,正确的是
A. 两者都起守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
答案:D
知识点:hadoop配置

下列关于Hadoop API的说法错误的是
A. Hadoop的文件API不是通用的,只用于HDFS文件系统
B. Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的
C. FileStatus对象存储文件和目录的元数据
D. FSDataInputStream是java.io.DataInputStream的子类
答案:A

把本地文件放到集群里,可以使用下面哪个hadoop shell的命令?
A、hadoop fs -put
B、hadoop fs –push /
C、hadoop fs –put /
D、hadoop -push /
正确答案: C

如果想要修改集群的备份数量,可以修改下面哪个配置文件?
A、mapred-site.xml
B、core-site.xml
C、hdfs-site.xml
D、hadoop-env.sh
正确答案: C

在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令?
A、reboot
B、hostname
C、pwd
D、tail
正确答案: B

Hadoop-2.x集群中的HDFS的默认的副本块的个数是?
A、3
B、2
C、1
D、4
正确答案: A

关于HDFS集群中的DataNode的描述不正确的是?
A、一个DataNode上存储的所有数据块可以有相同的
B、存储客户端上传的数据的数据块
C、DataNode之间可以互相通信
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
正确答案: A

MapReduce的Shuffle过程以下中哪个操作是最后做的?
A、排序
B、合并
C、分区
D、溢写
正确答案: B

Hadoop起始于以下哪个阶段?
A、2004年,Nutch的开发者开发了NDFS。
B、2004年,Google发表了关于MapReduce的论文。
C、2003年,Google发布了GFS论文。
D、2002年,Apach项目的Nutch。
正确答案: D

下列哪项可以作为集群的管理工具?
A、Cludera Manager
B、都可以
C、Pdsh
D、Rsync+ssh+scp

正确答案: B

配置机架感知的下面哪项正确?

A、MapReduce会根据机架获取离自己比较近的网络数据
B、写入数据的时候会写到不同机架的DataNode
C、都正确
D、如果一个机架出问题,不会影响数据读写

正确答案: C
下列关于HDFS的描述正确的是?
A、NameNode磁盘元数据不保存Block的位置信息
B、DataNode通过长连接与NameNode保持通信
C、HDFS集群支持数据的随机读写
D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作
正确答案: A

一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?
A、3
B、2
C、4
D、1
正确答案: B

按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是?
A、混合处理系统
B、分布式键值系统
C、批处理系统
D、流处理系统
正确答案: B

为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?
A. JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass
B. HADOOP_MAP_DATATYPES环境变量
C. 随作业一起提交的mapper-specification.xml文件
D. InputFormat格式类
标准答案:D

NameNode在启动时自动进入安全模式,在安全模式阶段,说法错误的是
A. 安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B. 根据策略对数据块进行必要的复制或删除
C. 当数据块最小百分比数满足最小副本数条件时,会自动退出安全模式
D. 文件系统允许有修改
标准答案:D

关于HDFS的文件写入,正确的是
A. 支持多用户对同一个文件的写操作
B. 用户可以在文件的任意位置进行修改
C. 默认将文件复制成三份存放
D. 复制的文件默认都存在同一机架上
标准答案:C

HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A. 利用SequenceFile、MapFile、Har等方式归档小文件
B. 多Master设计
C. Block大小适当调小
D. 调大namenode内存或将文件系统元数据存到硬盘里
标准答案:D
试题解析:

HDFS是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高扩展性、高吞吐率等特征,适合的读写任务是
A. 一次写入,少次读写
B. 多次写入,少次读写
C. 一次写入,多次读写
D. 多次写入,多次读写
标准答案:C

Clinet在HDFS上进行文件写入时,namenode根据文大小和配置情况,返回部分DataNode信息,谁负责将文件划分为多个block,根据DataNode的地址信息按顺序写入到每一个DataNode块
A. Clinte
B. NameNode
C. DataNode
D. Secondary namenode
标准答案:A
试题解析:

出现在datanode的VERSION文件格式中但不出现在nomenode的VERSION文件格式中的是
A. namenodeID
B. storageID
C. storageType
D. layoutVersion
标准答案:B
试题解析:

Client端上传文件到HDFS上的时候下列正确的是()
A. 数据经过NameNode传递给DataNode
B. 数据副本将以管道的方式依次传递
C. Client将数据写到一台DataNode上,并由Client负责完成Block复制工作
D. 当某个DataNode失败,客户端不会继续传给其它的DataNode
标准答案:B
试题解析:

下列关于Hadoop API 说法错误的是()
A. hadoop的文件API不是通用的,只用于HDFS文件系统
B. Configuration 类的默认实例化方法是以HDFS系统的资源配置为基础
C. FileStatus对象存储文件和目录的元数据
D. FSDataInputStream是java.io.DataInputStream的子类
标准答案:A

关于Hadoop单机模式和伪分布式的说法正确的是()
A. 两者都启动守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
标准答案:D

配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
A. hadoop-default.xml
B. hadoop-env.sh
C. hadoop-site.xml
D. Configuration.xsl
标准答案:B

关于 SecondaryNameNode 哪项是正确的?
A. 它是 NameNode 的热备
B. 它对内存没有要求
C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D. SecondaryNameNode 应与 NameNode 部署到一个节点
标准答案:C

下列哪项通常是集群的最主要瓶颈
A. CPU
B. 网络
C. 磁盘IO
D. 内存
标准答案:C

如果一个Hadoop集群中HDFS的默认大小是128MB,本地磁盘有个HDFS上的目录包含100个纯文本文件,每个文件200MB。如果使用TextInputFormat作为输入格式类,将该目录作为作业输入,将会启动()个Map。
A. 64
B. 100
C. 200
D. 640
标准答案:C

一个文件大小156MB,在Hadoop2.0中默认情况下请问其占用几个Block()?
A. 1
B. 2
C. 3
D. 4
标准答案:B
156-128=28,128 两个

Hadoop2.0中HDFS 默认 Block Size
A. 32MB
B. 64MB
C. 128MB
D. 256MB
标准答案:C
Hadoop-2.X中HDFS文件块大小默认为128M

HDFS默认的当前工作目录是/user/$USER, fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. 以上均不是
标准答案:B

下面哪个负责 HDFS 数据存储()。
A. NameNode
B. ResourceManager
C. DataNode
D. NodeManager
标准答案:C

HDfS 中的 block 默认保存几份?
A. 3份
B. 2份
C. 1份
D. 不确定
标准答案:A

下面与HDFS类似的框架是?
A. NTFS
B. FAT32
C. GFS
D. EXT3
标准答案:C

由于Hive只支持等值连接,为了提高性能,建议把最大的表格放在连接的***__***端。
A. 最左
B. 中间
C. 最右
D. 任意
标准答案:C

下面哪个选项中的Daemon总是运行在同一台主机上?
A. Name Node & Job Tracker
B. Secondary Name Node & Job Tracker
C. Name Node & Secondary Name Node
D. Data Node & Task Tracker
标准答案:D

HDFS默认的当前工作目录是/user/$USER,fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. config-site.xml
标准答案:B

在一个Hadoop集群中有多少个JobTracker daemon?
A. 一个
B. 两个
C. 每个slave节点一个
D. 每个slave节点两个
标准答案:A

在Hadoop MapReduce框架中,任何值类型***__***。
A. 需要实现Writable接口
B. 需要实现Comparable 接口
C. 需要实现WritableComparable接口
D. 不需要实现任何接口
标准答案:A

在海量数据中,Dynamo的存储是按照什么策略来进行的?
A. 消息代理
B. 传统的存储放置策略
C. 一致性哈希算法
D. 异步复制
标准答案:C

下列选项中,不是CouchDB的复制中的特点是:
A. 使用优先列表
B. 复制过程是逐步进行
C. 允许分区复制
D. 支持智能文档模式
标准答案:A

Hive查询语言中的算术操作符的返回结果是***__***类型的。
A. Bigint
B. String
C. Number
D. Int
标准答案:C

在配置中,哪个属性定义了jobtracker服务主机?
A. mapred.job.tracker
B. map.red.jobtracker
C. map.red.job.tracker
D. mapred.jobtracker
标准答案:A

HDfS中的block默认保存几份?
A. 3份
B. 2份
C. 1份
D. 不确定
标准答案:A

关于大数据的价值密度描述正确的是以下哪个?
A、大数据由于其数据量大,所以其价值密度低。
B、大数据由于其数据量大,所以其价值也大。
C、大数据的价值密度是指其数据类型多且复杂。
D、大数据由于其数据量大,所以其价值密度高。
正确答案: A

以下哪个不是HDFS的守护进程
A、SecondaryNameNode
B、NameNode
C、MrappMaster/YarnChild
D、DataNode
正确答案: C

大数据至少为以下哪种存储量级?
A、EB
B、PB
C、TB
D、ZB
正确答案: B

下面哪个程序负责 HDFS 数据存储。答案C

a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode

HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
A、一个map读取64MB,另外一个map读取11MB

B、128MB

C、64MB

D、75MB

正确答案: D
HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
A、一个map读取64MB,另外一个map读取11MB

B、64MB

C、75MB

D、128MB

正确答案: A
关于SecondaryNameNode哪项是正确的?
A、
它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
B、它对内存没有要求
C、它是NameNode的热备
D、SecondaryNameNode应与NameNode部署到一个节点
正确答案: A

HDfS 中的 block 默认保存几份? 答案A

a)3 份
b)2 份
c)1 份
d)不确定

下列哪个程序通常与 NameNode 在一个节点启动?答案D

a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

此题分析:

hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。

JobTracker和TaskTracker

JobTracker 对应于 NameNode

TaskTracker 对应于 DataNode

DataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上。

下列哪项通常是集群的最主要瓶颈:答案:C磁盘

a)CPU
b)网络
c)磁盘IO
d)内存

> 该题解析:

首先集群的目的是为了节省成本,用廉价的pc机,取代小型机及大型机。小型机和大型机有什么特点?

1.cpu处理能力强

2.内存够大

所以集群的瓶颈不可能是a和d

3.网络是一种稀缺资源,但是并不是瓶颈。

4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,所以IO就会打折扣。

关于 SecondaryNameNode 哪项是正确的?答案C

a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点。

HDFS的NameNode负责管理文件系统的命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件:
A.日志
B.命名空间镜像
C.两者都是
答案:C
知识点:

HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。
A.正确
B.错误
答案:B
知识点:在系统启动的时候从数据节点收集而成的

Secondary namenode就是namenode出现问题时的备用节点
A.正确
B.错误
答案:B
知识点:它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。合并过后的命名空间镜像文件也在Secondary namenode保存了一份,以防namenode失败的时候,可以恢复。

出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是
A. namespaceID
B. storageID
C. storageType
D. layoutVersion
答案:B
知识点:其他三项是公有的。layoutVersion是一个负整数,保存了HDFS的持续化在硬盘上的数据结构的格式版本号;namespaceID是文件系统的唯一标识符,是在文件系统初次格式化时生成的;storageType表示此文件夹中保存的是数据节点的类型

Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块
A. Client
B. Namenode
C. Datanode
D. Secondary namenode
答案:A
知识点:HDFS文件写入

HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是
A.一次写入,少次读写
B.多次写入,少次读写
C.一次写入,多次读写
D.多次写入,多次读写
答案:C
知识点:HDFS特性

HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A. 利用SequenceFile、MapFile、Har等方式归档小文件
B. 多Master设计
C. Block大小适当调小
D. 调大namenode内存或将文件系统元数据存到硬盘里
答案:D
知识点:HDFS特性

关于HDFS的文件写入,正确的是
A. 支持多用户对同一文件的写操作
B. 用户可以在文件任意位置进行修改
C. 默认将文件块复制成三份存放
D. 复制的文件块默认都存在同一机架上
答案:C
知识点:在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。默认三份文件块两块在同一机架上,另一份存放在其他机架上。

Hadoop fs中的-get和-put命令操作对象是
A. 文件
B. 目录
C. 两者都是
答案:C
知识点:HDFS命令

Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是
A. 安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B. 根据策略对数据块进行必要的复制或删除
C. 当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D. 文件系统允许有修改
答案:D
知识点:HDFS安全模式

为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?
A. JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass
B. HADOOP_MAP_DATATYPES环境变量
C. 随作业一起提交的mapper-specification.xml文件
D. InputFormat格式类
标准答案:D

NameNode在启动时自动进入安全模式,在安全模式阶段,说法错误的是
A. 安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B. 根据策略对数据块进行必要的复制或删除
C. 当数据块最小百分比数满足最小副本数条件时,会自动退出安全模式
D. 文件系统允许有修改
标准答案:D

关于HDFS的文件写入,正确的是
A. 支持多用户对同一个文件的写操作
B. 用户可以在文件的任意位置进行修改
C. 默认将文件复制成三份存放
D. 复制的文件默认都存在同一机架上
标准答案:C

HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A. 利用SequenceFile、MapFile、Har等方式归档小文件
B. 多Master设计
C. Block大小适当调小
D. 调大namenode内存或将文件系统元数据存到硬盘里
标准答案:D
试题解析:

HDFS是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高扩展性、高吞吐率等特征,适合的读写任务是
A. 一次写入,少次读写
B. 多次写入,少次读写
C. 一次写入,多次读写
D. 多次写入,多次读写
标准答案:C

Clinet在HDFS上进行文件写入时,namenode根据文大小和配置情况,返回部分DataNode信息,谁负责将文件划分为多个block,根据DataNode的地址信息按顺序写入到每一个DataNode块
A. Clinte
B. NameNode
C. DataNode
D. Secondary namenode
标准答案:A
试题解析:

出现在datanode的VERSION文件格式中但不出现在nomenode的VERSION文件格式中的是
A. namenodeID
B. storageID
C. storageType
D. layoutVersion
标准答案:B
试题解析:

Client端上传文件到HDFS上的时候下列正确的是()
A. 数据经过NameNode传递给DataNode
B. 数据副本将以管道的方式依次传递
C. Client将数据写到一台DataNode上,并由Client负责完成Block复制工作
D. 当某个DataNode失败,客户端不会继续传给其它的DataNode
标准答案:B
试题解析:

下列关于Hadoop API 说法错误的是()
A. hadoop的文件API不是通用的,只用于HDFS文件系统
B. Configuration 类的默认实例化方法是以HDFS系统的资源配置为基础
C. FileStatus对象存储文件和目录的元数据
D. FSDataInputStream是java.io.DataInputStream的子类
标准答案:A

关于Hadoop单机模式和伪分布式的说法正确的是()
A. 两者都启动守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
标准答案:D

配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
A. hadoop-default.xml
B. hadoop-env.sh
C. hadoop-site.xml
D. Configuration.xsl
标准答案:B

关于 SecondaryNameNode 哪项是正确的?
A. 它是 NameNode 的热备
B. 它对内存没有要求
C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D. SecondaryNameNode 应与 NameNode 部署到一个节点
标准答案:C

下列哪项通常是集群的最主要瓶颈
A. CPU
B. 网络
C. 磁盘IO
D. 内存
标准答案:C

如果一个Hadoop集群中HDFS的默认大小是128MB,本地磁盘有个HDFS上的目录包含100个纯文本文件,每个文件200MB。如果使用TextInputFormat作为输入格式类,将该目录作为作业输入,将会启动()个Map。
A. 64
B. 100
C. 200
D. 640
标准答案:C

一个文件大小156MB,在Hadoop2.0中默认情况下请问其占用几个Block()?
A. 1
B. 2
C. 3
D. 4
标准答案:B
156-128=28,128 两个

Hadoop2.0中HDFS 默认 Block Size
A. 32MB
B. 64MB
C. 128MB
D. 256MB
标准答案:C
Hadoop-2.X中HDFS文件块大小默认为128M

HDFS默认的当前工作目录是/user/$USER, fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. 以上均不是
标准答案:B

下面哪个负责 HDFS 数据存储()。
A. NameNode
B. ResourceManager
C. DataNode
D. NodeManager
标准答案:C

HDfS 中的 block 默认保存几份?
A. 3份
B. 2份
C. 1份
D. 不确定
标准答案:A

下面与HDFS类似的框架是?
A. NTFS
B. FAT32
C. GFS
D. EXT3
标准答案:C

由于Hive只支持等值连接,为了提高性能,建议把最大的表格放在连接的***__***端。
A. 最左
B. 中间
C. 最右
D. 任意
标准答案:C

下面哪个选项中的Daemon总是运行在同一台主机上?
A. Name Node & Job Tracker
B. Secondary Name Node & Job Tracker
C. Name Node & Secondary Name Node
D. Data Node & Task Tracker
标准答案:D

HDFS默认的当前工作目录是/user/$USER,fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. config-site.xml
标准答案:B

在一个Hadoop集群中有多少个JobTracker daemon?
A. 一个
B. 两个
C. 每个slave节点一个
D. 每个slave节点两个
标准答案:A

在Hadoop MapReduce框架中,任何值类型***__***。
A. 需要实现Writable接口
B. 需要实现Comparable 接口
C. 需要实现WritableComparable接口
D. 不需要实现任何接口
标准答案:A

在海量数据中,Dynamo的存储是按照什么策略来进行的?
A. 消息代理
B. 传统的存储放置策略
C. 一致性哈希算法
D. 异步复制
标准答案:C

下列选项中,不是CouchDB的复制中的特点是:
A. 使用优先列表
B. 复制过程是逐步进行
C. 允许分区复制
D. 支持智能文档模式
标准答案:A

Hive查询语言中的算术操作符的返回结果是***__***类型的。
A. Bigint
B. String
C. Number
D. Int
标准答案:C

在配置中,哪个属性定义了jobtracker服务主机?
A. mapred.job.tracker
B. map.red.jobtracker
C. map.red.job.tracker
D. mapred.jobtracker
标准答案:A

HDfS中的block默认保存几份?

A. 3份

B. 2份

C. 1份

D. 不确定

标准答案:A

MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是
A. 实现Writable接口的类是值
B. 实现WritableComparable接口的类可以是值或键
C. Hadoop的基本类型Text并不实现WritableComparable接口
D. 键和值的数据类型可以超出Hadoop自身支持的基本类型
答案:C

以下四个Hadoop预定义的Mapper实现类的描述错误的是
A. IdentityMapper实现Mapper,将输入直接映射到输出
B. InverseMapper实现Mapper,反转键/值对
C. RegexMapper实现Mapper,为每个常规表达式的匹配项生成一个(match, 1)对
D. TokenCountMapper实现Mapper,当输入的值为分词时,生成(taken, 1)对
答案:B
知识点:InverseMapper实现Mapper

下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
A. FSDataInputStream扩展了DataInputStream以支持随机读
B. 为实现细粒度并行,输入分片(Input Split)应该越小越好
C. 一台机器可能被指派从输入文件的任意位置开始处理一个分片
D. 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
答案:B
知识点:每个分片不能太小,否则启动与停止各个分片处理所需的开销将占很大一部分执行时间

针对每行数据内容为”Timestamp Url”的数据文件,在用JobConf对象conf设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时,WhichInputFormat应该为以下的
A. TextInputFormat
B. KeyValueTextInputFormat
C. SequenceFileInputFormat
D. NLineInputFormat
答案:B
知识点:四项主要的InputFormat类。KeyValueTextInputFormat以每行第一个分隔符为界,分隔符前为key,之后为value,默认制表符为\t

有关MapReduce的输入输出,说法错误的是
A. 链接多个MapReduce作业时,序列文件是首选格式
B. FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义
C. 想完全禁止输出,可以使用NullOutputFormat
D. 每个reduce需将它的输出写入自己的文件中,输出无需分片
答案:B
知识点:分片数目在numSplits中限定,分片大小必须大于mapred.min.size个字节,但小于文件系统的块

Hadoop Streaming支持脚本语言编写简单MapReduce程序,以下是一个例子:
bin/hadoop jar contrib/streaming/hadoop-0.20-streaming.jar
—input input/filename
—output output
—mapper ‘dosth.py 5’
—file dosth.py
—D mapred.reduce.tasks=1
以下说法不正确的是
A. Hadoop Streaming使用Unix中的流与程序交互
B. Hadoop Streaming允许我们使用任何可执行脚本语言处理数据流
C. 采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUT
D. Reduce没有设定,上述命令运行会出现问题
答案:D
知识点:没有设定特殊的reducer,默认使用IdentityReducer

在高阶数据处理中,往往无法把整个流程写在单个MapReduce作业中,下列关于链接MapReduce作业的说法,不正确的是
A.Job和JobControl类可以管理非线性作业之间的依赖
B.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成
C.使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象
D.ChainReducer.addMapper()方法中,一般对键/值对发送设置成值传递,性能好且安全性高
答案:D
知识点:ChainReducer.addMapper()方法中,值传递安全性高,引用传递性能高

\1. 下面哪个程序负责HDFS数据存储。
  a) NameNode
  b) Jobtracker
  c) Datanode √(完成数据存储)
  d) secondaryNameNode
  e) tasktracker

2. HDfS中的block默认保存几份?
  a) 3份√(hdfs-site.xml设置dfs.replication)
  b) 2份
  c) 1份
  d) 不确定

3. 下列哪个程序通常与NameNode在一个节点启动?
  a) SecondaryNameNode
  b) DataNode
  c) TaskTracker
  d) Jobtracker√

4. Hadoop作者
  a) Martin Fowler
  b) Kent Beck
  c) Doug cutting√

5. HDFS默认Block Size
  a) 32MB
  b) 64MB√
  c) 128MB

有hdfs-site.xml,设置

dfs.block.size 67108864 The default block size for new files.   6. 下列哪项通常是集群的最主要的性能瓶颈   a) CPU   b) 网络(次之,数据传输)   c) 磁盘√(IO读写)   d) 内存

7. 关于SecondaryNameNode哪项是正确的?
  a) 它是NameNode的热备
  b) 它对内存没有要求
  c) 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间√
  d) SecondaryNameNode应与NameNode部署到一个节点

8. 一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?
  a) 1
  b) 2√(hadoop上传的文件超过block设置,都会分开存储,只是在处理时会作为一个split处理,是由压缩方式决定的,不支持并行处理(分割))
  c) 3
  d) 4

9. HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
  a) 64MB
  b) 75MB√(同上)
  c) 一个map读取64MB,另外一个map读取11MB

10. HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?
  a) 64MB
  b) 75MB
  c) 一个map读取64MB,另外一个map读取11MB√(LZO支持分割。)
附:LZO压缩

* 解压简单,速度非常快。

* 解压不需要内存。

* 压缩相当地快。

* 压缩需要 64 kB 的内存。

* 允许在压缩部分以损失压缩速度为代价提高压缩率,解压速度不会降低。

* 包括生成预先压缩数据的压缩级别,这样可以得到相当有竞争力的压缩比。

* 另外还有一个只需要 8 kB 内存的压缩级别。

* 算法是线程安全的。

* 算法是无损的。

LZO 支持重复压缩以及原地解压。

LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。

多选题

下列哪项可以作为集群的管理?答案:ABD

a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper

配置机架感知的下面哪项正确:答案ABC

a)如果一个机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的 DataNode 中
c)MapReduce 会根据机架获取离自己比较近的网络数据

Client 端上传文件的时候下列哪项正确?答案B

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block,依次上传

c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

该题分析:
Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

下列哪个是 Hadoop 运行的模式:答案ABC

a)单机版
b)伪分布式
c)分布式

Cloudera 提供哪几种安装 CDH 的方法?答案:ABCD

a)Cloudera manager
b)Tarball
c)Yum
d)Rpm

下面哪个组件可以在Hadoop集群中代替MR做一些计算(2.0分)2.0 分
A、Spark
B、Sqoop
C、Hive
D、Avro
正确答案: AC

大数据的计算模式主要有哪些?
A、图计算模式
B、流计算模式
C、查询分析计算模式
D、批处理计算模式
正确答案: ABCD

Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这5个编程组件中。
A、Partitioner和Combiner

B、Split和Sort

C、InputFormat和OutputFormat

D、Mapper和Reducer

正确答案: AB
YARN主要包含的模块有以下哪些?
A、ApplicationMaster

B、ResourceManager

C、NodeManager

D、QuorumJournalManager

正确答案: ABC
下面哪些是Hadoop 2.x的组件?
A、Spark
B、Hive
C、HBase
D、GFS
正确答案: ABC

Hadoop的三种安装模式包括以下哪种?
A、两分布式模式

B、完全分布式模式

C、伪分布模式

D、单机模式

正确答案: BCD
VMware提供了哪几种工作模式?
A、host-only仅主机模式

B、NAT模式

C、自定义除以上3种其他模式

D、桥接(bridged)模式

正确答案: ABD
Hadoop集群具有以下哪个优点?
A、高容错性

B、高成本性

C、高可靠性

D、高扩展性

正确答案: ACD
关于数据副本的存放策略正确的有些?

A、第三个副本:与第一个副本相同机架的其他节点上;

B、更多副本:随机节点。

C、第一个副本,放置在上传文件的数据节点;

D、第二个副本,放置在与第一个副本不同的机架的节点上;
正确答案: ABCD

以下关于SSH免密码配置的描述正确的选项有哪个?

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。

C、SSH是建立 在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。

正确答案: ABCD

大数据采集中面临的主要问题有以下哪些?

A、如何避免重复数据

B、数据源多种多样,数据量大、变化快

C、如何保证数据的质量

D、如何保证数据采集的可靠性
正确答案: ABCD

以下关于文件块的说法正确的是?

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配置的。

D、HDFS将文件存储成块序列。
正确答案: ABCD

MapRecue的优点有哪些?

A、可扩展性强

B、计算机性能高

C、容错性强

D、开发简单

正确答案: ACD

以下关于HDFS体系结构的描述正确的有哪几项?

A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。

B、DataNode作为从结点,用来管理存储的数据。

C、HDFS采用主从结构模型。

D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。

正确答案: ABCD

HDFS中常用命令有下面哪些?

A、hadoop fs –rm

B、hadoop fs –ls

C、hadoop fs –mv

D、hadoop fs –put

正确答案: ABCD

在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?

A、容易造成TaskTracker端内存溢出

B、JobTrack单点故障问题

C、JobTrack任务过重

D、容易造成资源浪费

正确答案: ABCD

常用的HDFS API有哪些?

A、rename()

B、copyFromLocalFile()

C、mkdirs()

D、delete()
正确答案: ABCD

以下关于序列化Writable的说法正确的是?A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。

B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。

C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。

D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。

正确答案: ABCD

大数据关键技术包括哪些?

A、大数据存储

B、大数据预处理

C、大数据采集

D、大数据分析挖掘
正确答案: ABCD

数据中常见的类型有哪些?

A、视频

B、图片

C、音频

D、日志
正确答案: ABCD

下列哪项可以作为集群的管理工具
a) Puppet√ http://baike.baidu.com/view/1794764.htm?fr=aladdin
b) Pdsh√ http://scmbob.org/parallel-distributed-shell.html
c) Cloudera Manager√ http://caozs.blog.51cto.com/707029/1223346
d) Rsync + ssh + scp√ http://baike.baidu.com/view/1183189.htm?fr=aladdin

配置机架感知的下面哪项正确
a) 如果一个机架出问题,不会影响数据读写√
b) 写入数据的时候会写到不同机架的DataNode中√
c) MapReduce会根据机架获取离自己比较近的网络数据√

Client端上传文件的时候下列哪项正确
a) 数据经过NameNode传递给DataNode
b) Client端将文件以Block为单位,管道方式依次传到DataNode√
c) Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
d) 当某个DataNode失败,客户端会继续传给其它DataNode √

下列哪个是Hadoop运行的模式
a) 单机版√
b) 伪分布式√
c) 分布式√

Cloudera提供哪几种安装CDH的方法 http://www.infoq.com/cn/articles/hadoop-ten-best-practice
a) Cloudera manager√
b) Tar ball√
c) Yum√
d) Rpm√

判断题

Ganglia 不仅可以进行监控,也可以进行告警。( 正确)

分析:此题的目的是考Ganglia的了解。严格意义上来讲是正确。ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有了部分这方面的功能。但是更擅长做警告的还有Nagios。Nagios,就是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起来,把Ganglia采集的数据作为Nagios的数据源,然后利用Nagios来发送预警通知,可以完美的实现一整套监控管理的系统。

Block Size 是不可以修改的。(错误 )

分析:它是可以被修改的Hadoop的基础配置文件是hadoop-default.xml,默认建立一个Job的时候会建立Job的Config,Config首先读入hadoop-default.xml的配置,然后再读入hadoop-site.xml的配置(这个文件初始的时候配置为空),hadoop-site.xml中主要配置需要覆盖的hadoop-default.xml的系统级配置。

Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。(错误 )

分析:Nagios是集群监控工具,而且是云计算三大利器之一

如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。(错误 )

分析:SecondaryNameNode是帮助恢复,而不是替代,如何恢复,可以查看

Cloudera CDH 是需要付费使用的。(错误 )

分析:第一套付费产品是Cloudera Enterpris,Cloudera Enterprise在美国加州举行的 Hadoop 大会 (Hadoop Summit) 上公开,以若干私有管理、监控、运作工具加强 Hadoop 的功能。收费采取合约订购方式,价格随用的 Hadoop 叢集大小变动。

Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。(错误 )

分析:rhadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想,可以使用其他语言开发。

Hadoop 支持数据的随机读写。(错 )

分析:lucene是支持随机读写的,而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写,来解决Hadoop不能处理的问题。HBase自底层设计开始即聚焦于各种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;水平分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的直接反映,使系统有可能提高高效的数据结构的序列化、存储和检索。
NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错误)

此题分析:NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次 namenode 启动的时候才会读取。
1)文件写入
Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

Hadoop实现了一个分布式文件系统,简称HDFS。
正确答案: √

在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。
正确答案: √

HDFS既适合超大数据集存储,也适合小数据集的存储。
正确答案: ×

Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。(2.0分)2.0 分
正确答案: √

我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。
正确答案: √

HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。
正确答案: √
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
正确答案: √

HDFS以流的形式访问文件系统中的数据。
正确答案: √

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。
正确答案: √
MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。
正确答案: √
(以下全部错)
Ganglia不仅可以进行监控,也可以进行告警(不会)http://duanple.blog.163.com/blog/static/70971767201183092413177/
Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。( )http://baike.baidu.com/view/1111497.htm?fr=aladdin
如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。( 不会)
Cloudera CDH是需要付费使用的。( )免费使用,服务收费
Hadoop是Java开发的,所以MapReduce只支持Java语言编写。( 不是)
Hadoop支持数据的随机写。( 不支持)
NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。( 内存)
NameNode本地磁盘保存了Block的位置信息。( 仅保留元信息,由datanode上报)
Slave节点要存储数据,所以它的磁盘越大越好。( )
Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。( )
集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。( no)
因为HDFS有多个副本,所以NameNode是不存在单点问题的。( )
每个map槽就是一个线程。( no,)
Mapreduce的input split就是一个block。( no)
Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200MB。( )

Hadoop为各个守护进程分配的内存大小”,默认为1000MB,当然实际的肯定需要你根据集群实际情况来设定!分配过大的话,可能会影响整个集群对数据处理的效率,分配过小,可能会导致守护进程异常,进而影响到整个集群的正常运行。

DataNode首次加入cluster的时候,如果log中报告不兼容文件版本,那需要NameNode执行“hadoop namenode -format”操作格式化磁盘。( )
Hadoop1.0和2.0都具备完善的HDFS HA策略。()
GZIP压缩算法比LZO更快。()
PIG是脚本语言,它与mapreduce无关。()

部分知识点


Hadoop 采用 MapReduce 来整合分布式文件系统上的数据,以保证分析和处理数据的高效。

Datanode 程序负责HDFS数据存储 。

HDFS默认Block Size的是 128MB

磁盘通常是集群的最主要的性能瓶颈

Spark不包含在Hadoop生态系统中。

在默认情况下,HDFS块的大小为128MB

在大多数情况下,副本系数为3,HDFS的存放策略将第二个副本放在同一机架的不同节点

假设设置的副本数是3,现在系统中有5个副本,那么系统会删除2个副本

在配置文件hdfs-default.xml中定义副本率为1时,HDFS 将永远处于安全模式。

汇报Block信息不属于NameNode的功能。

在HDFS文件系统读取文件的过程中,客户端通过对输入流调用read()方法开始读取数据,写入文件的过程中,客
户端通过对输出流调用write()方法开始写入数据

HDFS全部文件的全部元数据是存储在NameNode节点的内存,为了解决这个瓶颈,HDFS产生了Federation机制

HDFS命令行接口中查看文件列表中第五列是文件大小

HDFS中,文件的访问权限不包含读写权限

每个文件和目录都有所属用户、所属组别及模式,这个模式的组成不包含所属组的权限

FileStatus类封装了文件系统中文件和目录的元数据,其中不包括文件大小

Hadoop目前支持很多压缩格式,,bzip2 支持切分

考虑到性能最好使用本地库来压缩和解压,但并非所有格式都有本地实现和Java实现, Gzip、 DEFLATE 压缩格
式既有本地实现又有Java实现,

易操作 不是RPC对于序列化的要求

对于WritableComparable的接口声明, 是正确的

publicinterfaceWritableComparableextendsWritable,Comparable{}

InitWritable 不是Writable集合类

MapReduce程序由Map和Reduce两个阶段组成,用户只需要编写 Map 和 Reduce 两个函数即可完成分布式程序的设计。而在这两个函数中是以 key/value 作为输入输出的

在YARN/MRv2计算框架中提出了全新的资源管理框架 YARN ,它将JobTracker中的资源管理和作业控制功能分开,分别由 ResourceManager 和 ApplicationMaster 两个不同进程实现。

Mapper类和Reducer类具有 setup、map、cleanup、run 四个方法,在我们编写的过程中只需要编写 map 方法即可。

查看新版MapReduce的Web页面默认的端口号是18088

在map和reduce函数的输入和输出类型中,必须一致的是map的输出和reduce的输入

如何减少输入分片的数量 增大分片大小来减少分片的数量

默认的InputFormat是 TextInputFormat 。每条记录是一行输入,键是 LongWritable 类型,存储该行在整个文件中的字节偏移量。值是这行的内容,不包括任何行终止符,它被打包成一个 Text 对象

分片大小的计算公式为 max(minimumSize,min( maximumSize,blockSize)) 。默认情况下,minimumSize、blockSize、maximumSize的大小关系为minimumSize< blockSize

来源

天涯
博客园

你可能感兴趣的:(hadoop,hdfs,big,data)