大数据面试选择题hadoop

1.1. 下面哪个程序负责 HDFS 数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案 C datanode

1.2. HDfS 中的 block 默认保存几份?
a)3 份
b)2 份
c)1 份
d)不确定
答案 A 默认 3 份

1.3. 下列哪个程序通常与NameNode在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
答案 D

1.4. HDFS 默认 Block Size
a)32MB
b)64MB
c)128MB
答案:B
1.X的时候是64M 2.X的时候是128m

1.5. 下列哪项通常是集群的最主要瓶颈
a)CPU
b)网络
c)磁盘 IO
d)内存
答案:C 磁盘

1.6. 关于 SecondaryNameNode 哪项是正确的?
a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点
答案 C。

1.7. 下列哪项可以作为集群的管理?
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
答案 ABD
具体可查看什么是 Zookeeper,Zookeeper 的作用是什么,在 Hadoop 及 hbase 中具体作用是什么。

1.8. Client 端上传文件的时候下列哪项正确
a)数据经过 NameNode 传递给 DataNode
b)Client 端将文件切分为 Block,依次上传
c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

答案 B
分析:Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个DataNode 块中。具体查看HDFS 体系结构简介及优缺点。

1.9. 下列哪个是 Hadoop 运行的模式
a)单机版
b)伪分布式
c)分布式
答案 ABC 单机版,伪分布式只是学习用的。

首先集群的目的是为了节省成本,用廉价的 pc 机,取代小型机及大型机。小型机和大型机有什么特点?
1.cpu 处理能力强
2.内存够大,所以集群的瓶颈不可能是 a 和 d
3.如果是互联网有瓶颈,可以让集群搭建内网。每次写入数据都要通过网络(集群是内网),然后还要写入 3 份数据,所以 IO 就会打折扣。

你可能感兴趣的:(大数据面试选择题hadoop)