基础练习题

1.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?
A. JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass
B. HADOOP_MAP_DATATYPES环境变量
C. 随作业一起提交的mapper-specification.xml文件
D. InputFormat格式类
标准答案:D
2.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
NameNode在启动时自动进入安全模式,在安全模式阶段,说法错误的是
A. 安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B. 根据策略对数据块进行必要的复制或删除
C. 当数据块最小百分比数满足最小副本数条件时,会自动退出安全模式
D. 文件系统允许有修改
标准答案:D
3.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
关于HDFS的文件写入,正确的是
A. 支持多用户对同一个文件的写操作
B. 用户可以在文件的任意位置进行修改
C. 默认将文件复制成三份存放
D. 复制的文件默认都存在同一机架上
标准答案:C
4.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A. 利用SequenceFile、MapFile、Har等方式归档小文件
B. 多Master设计
C. Block大小适当调小
D. 调大namenode内存或将文件系统元数据存到硬盘里
标准答案:D
试题解析:
5.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
HDFS是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高扩展性、高吞吐率等特征,适合的读写任务是
A. 一次写入,少次读写
B. 多次写入,少次读写
C. 一次写入,多次读写
D. 多次写入,多次读写
标准答案:C
6.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
Clinet在HDFS上进行文件写入时,namenode根据文大小和配置情况,返回部分DataNode信息,谁负责将文件划分为多个block,根据DataNode的地址信息按顺序写入到每一个DataNode块
A. Clinte
B. NameNode
C. DataNode
D. Secondary namenode
标准答案:A
试题解析:
7.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
出现在datanode的VERSION文件格式中但不出现在nomenode的VERSION文件格式中的是
A. namenodeID
B. storageID
C. storageType
D. layoutVersion
标准答案:B
试题解析:
8.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
Client端上传文件到HDFS上的时候下列正确的是()
A. 数据经过NameNode传递给DataNode
B. 数据副本将以管道的方式依次传递
C. Client将数据写到一台DataNode上,并由Client负责完成Block复制工作
D. 当某个DataNode失败,客户端不会继续传给其它的DataNode
标准答案:B
试题解析:
9.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
下列关于Hadoop API 说法错误的是()
A. hadoop的文件API不是通用的,只用于HDFS文件系统
B. Configuration 类的默认实例化方法是以HDFS系统的资源配置为基础
C. FileStatus对象存储文件和目录的元数据
D. FSDataInputStream是java.io.DataInputStream的子类
标准答案:A
10.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
关于Hadoop单机模式和伪分布式的说法正确的是()
A. 两者都启动守护进程,且守护进程运行在一台机器上
B. 单机模式不使用HDFS,但加载守护进程
C. 两者都不与守护进程交互,避免复杂性
D. 后者比前者增加了HDFS输入输出以及可检查内存使用情况
标准答案:D
11.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
A. hadoop-default.xml
B. hadoop-env.sh
C. hadoop-site.xml
D. Configuration.xsl
标准答案:B
12.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
关于 SecondaryNameNode 哪项是正确的?
A. 它是 NameNode 的热备
B. 它对内存没有要求
C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D. SecondaryNameNode 应与 NameNode 部署到一个节点
标准答案:C
13.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
下列哪项通常是集群的最主要瓶颈
A. CPU
B. 网络
C. 磁盘IO
D. 内存
标准答案:C
14.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
如果一个Hadoop集群中HDFS的默认大小是128MB,本地磁盘有个HDFS上的目录包含100个纯文本文件,每个文件200MB。如果使用TextInputFormat作为输入格式类,将该目录作为作业输入,将会启动()个Map。
A. 64
B. 100
C. 200
D. 640
标准答案:C
15.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
一个文件大小156MB,在Hadoop2.0中默认情况下请问其占用几个Block()?
A. 1
B. 2
C. 3
D. 4
标准答案:B
16.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
Hadoop2.0中HDFS 默认 Block Size
A. 32MB
B. 64MB
C. 128MB
D. 256MB
标准答案:C
17.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
HDFS默认的当前工作目录是/user/KaTeX parse error: Expected group after '_' at position 469: …能,建议把最大的表格放在连接的_̲_______端。 A. 最左…USER,fs.default.name的值需要在哪个配置文件内说明
A. mapred-site.xml
B. core-site.xml
C. hdfs-site.xml
D. config-site.xml
标准答案:B
24.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
在一个Hadoop集群中有多少个JobTracker daemon?
A. 一个
B. 两个
C. 每个slave节点一个
D. 每个slave节点两个
标准答案:A
25.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
在Hadoop MapReduce框架中,任何值类型________。
A. 需要实现Writable接口
B. 需要实现Comparable 接口
C. 需要实现WritableComparable接口
D. 不需要实现任何接口
标准答案:A
26.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
在海量数据中,Dynamo的存储是按照什么策略来进行的?
A. 消息代理
B. 传统的存储放置策略
C. 一致性哈希算法
D. 异步复制
标准答案:C
27.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
下列选项中,不是CouchDB的复制中的特点是:
A. 使用优先列表
B. 复制过程是逐步进行
C. 允许分区复制
D. 支持智能文档模式
标准答案:A
28.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
Hive查询语言中的算术操作符的返回结果是________类型的。
A. Bigint
B. String
C. Number
D. Int
标准答案:C
29.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
在配置中,哪个属性定义了jobtracker服务主机?
A. mapred.job.tracker
B. map.red.jobtracker
C. map.red.job.tracker
D. mapred.jobtracker
标准答案:A
30.【单选题】知识点:运行体验JDK自带的DEMO程序
题目:
HDfS中的block默认保存几份?
A. 3份
B. 2份
C. 1份
D. 不确定
标准答案:A

1、Hadoop 采用 MapReduce 来整合分布式文件系统上的数据,以保证分析和处理数据的高效。
2、Datanode 程序负责HDFS数据存储 。
3、HDFS默认Block Size的是 128MB
4、磁盘通常是集群的最主要的性能瓶颈
5、 Spark不包含在Hadoop生态系统中。
6、在大多数情况下,副本系数为3,HDFS的存放策略将第二个副本放在同一机架的不同节点
7、在配置文件hdfs-default.xml中定义副本率为1时,HDFS 将永远处于安全模式。
8、在HDFS文件系统读取文件的过程中,客户端通过对输入流调用read()方法开始读取数据,写入文件的过程中,客户端通过对输出流调用write()方法开始写入数据
9、HDFS全部文件的全部元数据是存储在NameNode节点的
内存
,为了解决这个瓶颈,HDFS产生了Federation机制
10、HDFS命令行接口中查看文件列表中第五列是文件大小
11、HDFS中,文件的访问权限不包含读写权限
12、每个文件和目录都有所属用户、所属组别及模式,这个模式的组成不包含所属组的权限
13、FileStatus类封装了文件系统中文件和目录的元数据,其中不包括文件大小
14、Hadoop目前支持很多压缩格式,bzip2 支持切分
15、考虑到性能最好使用本地库来压缩和解压,但并非所有格式都有本地实现和Java实现, Gzip、 DEFLATE 压缩格式既有本地实现又有Java实现,
16、MapReduce程序由Map和Reduce两个阶段组成,用户只需要编写 Map 和 Reduce 两个函数即可完成分布式程序的设计。而在这两个函数中是以 key/value 作为输入输出的
17、在YARN/MRv2计算框架中提出了全新的资源管理框架 YARN ,它将JobTracker中的资源管理和作业控制功能分开,分别由 ResourceManager 、ApplicationMaster 两个不同进程实现。
18、Mapper类和Reducer类具有 setup、map、cleanup、run 四个方法,在我们编写的过程中只需要编写 map 方法即可。
19、查看新版MapReduce的Web页面默认的端口号是18088
20、在map和reduce函数的输入和输出类型中,必须一致的是map的输出和reduce的输入
21、如何减少输入分片的数量 增大分片大小来减少分片的数量
22、默认的InputFormat是 TextInputFormat 。每条记录是一行输入,键是 LongWritable 类型,存储该行在整个文件中的字节偏移量。值是这行的内容,不包括任何行终止符,它被打包成一个 Text 对象
23、分片大小的计算公式为 max(minimumSize,min( maximumSize,blockSize)) 。默认情况下,minimumSize、blockSize、maximumSize的大小关系为minimumSize< blockSize
24、每个map任务都有一个环形内存缓冲区用于存储任务的输出。默认情况下,缓冲区的大小为 100MB
25、 内核调度器 不属于MapReduce的调度器
26、NodeManager的职责不包括 与调度器协商资源

你可能感兴趣的:(大数据,文章)