1.下面哪个程序负责 HDFS数据存储:( C )
A. NameNode
B. Jobtracker
C. Datanode
D. secondaryNameNode
2.HDfS 中的 block 默认保存几份:(A)
A.3份
B.2 份
C.1 份
D.不确定
3.下面哪个程序负责HDFS数据存储:( C )
A.NameNode
B.Jobtracker
C.Datanode
D.secondaryNameNode
4.HBase来源于哪篇博文:( C )
A.The Google File System
B.MapReduce
C.BigTable
D.Chubby
5.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
6.什么是热点问题以下正确的是:(A)
A当有一点时间业务数据爆炸增长时,这个阶段的数据将存储在少数的节点上。
B.数据过多导致电脑运行时变的过热
C.当有多点时间业务数据爆炸增长时,多个阶段的数据将存储在多个节点上
D.很热的点
7.split机制 HFile默认到达多少时候就会进行切分:(A)
A.8G
B.128M
C.10G
D.68M
8.HBase在读写时 客户端去哪寻找meta表:( C )
A.hadoop
B.hdfs
C.zookeeper
D.hbase
9.以下对于Hbase详细架构中的master说法错误的是:(B)
A.为Region server分配region
B.处理region的IO请求
C.Hmaster短时间下线,hbase集群依然可用,长时间不行
D.负责region server的负载均衡
10.下列选项中不是解决热点问题的是:( C )
A.哈希(随机数):将哈希值放在高位
B.反转:反转固定长度或者数字格式的数据
C.降温:使用冰块 放在热量较高的位置上进行降温
D.加盐:本质时是加随机数,并且放在高位。
11.下面不是Hive支持的数据格式:( C )
A.SequenceFile、
B.RCFile、
C.OCR
D.ParquetFile
12.hive声明参数优先级是什么:( C )
A.参数声明 < 命令行参数 < 配置文件参数
B.参数声明 > 配置文件参数 > 命令行参数
C.参数声明 > 命令行参数 > 配置文件参数
D.参数声明 < 配置文件参数 < 命令行参数
13.对于严格模式下不能执行的命令错误的是:(D)
A.不允许扫描所有分区
B.使用了order by语句查询,要求必须使用limit语句
C.限制笛卡尔积的查询
D.允许扫描所有分区
14.对于MR本地模式理解正确的是:(B)
A.任务随机在一个节点上“本地”执行,任务随机分配到集群
B.任务在提交SQL语句的节点上“本地”执行,任务不会分配到集群
C.任务在提交SQL语句的节点上“本地”执行,任务偶尔会分配到集群
D.任务多个节点上“本地”执行,任务会分配到集群
15.以下对 hbase物理存储理解错误的是:( C )
A.一个regionserver内部可以有多个region,这多个region可能来自多个表或一个表。
B.一个region只能属于一个 regionserver.
C.一个regionserver有多个HLog
D.一个store里面只有一个memstore
16.compact机制默认到达多少个小的storeFile文件就合并成大的Storefile文件:( C )
A.1
B.2
C.3
D.随机
17.HBase依靠什么存储底层数据:(A)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
18.下面的命令中哪个是用来停止系统中的进程的命令:( C )
A.stop
B.down
C.kill
D.以上都不是
19.关于zookeeper在hbase中的作用,下列说法正确的是:(A)
A.集群监控、分配集群任务
B.公有数据的存储
C.管理worker进程
D.提交集群任务
20.下列关于hive说法错误的是:(B)
A.hive可以用于海量数据的离线数据分析
B.hive中所有的数据都存储在HDFS中
C.hive的元素据可以存储在内置版的数据库derby中
D.hive的元数据可以存储在MySQL中
21.下面哪个程序负责 HDFS 数据存储:( C )
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode
22.Hive支持以下哪个数据格式:(B)
A.SequenceFiles
B.RCFILE
C.ParquetFiles
D.ORD
23:关于SecondaryNameNode哪项正确:( C )
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并编辑日志,减少NameNode的启动时间
D.SecondaryNameNode应与NameNode部署到一个点
24.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块:(A)
A.Client
B.Namenode
C.Datanode
D.Secondary namenode
25.编译后的CDH版本hadoop支持的压缩算法中性能最好的是:(B)
A.LZO
B.Snappy
C.gzip
D.bzip
26.在MapReduce中,哪个阶段是用户不指定也不会有默认的:(B)
A.OutputFormat
B.Combiner
C.Partitioner
D.InputFormat
27.Hadoop启动jobhistory服务后,浏览器查看启动页面jobhistory访问地址端口是是:(A)
A.19888
B.8088
C.8080
D.50070
28.在客户端读取hdfs文件的过程中,当读完列表的 block 后,若文件读取还没有结束的情况下,保证读取 DataNode 时无错误的情况下,客户端在整个读取hdfs数据的过程中最少向NameNode请求几次是:(B)
A.1
B.2
C.3
D.4
29.HDFS集群中的DataNode的主要职责是:( C )
A.维护 HDFS 集群的目录树结构
B.维护 HDFS 集群的所有数据块的分布副本数和负载匀衡
C.负责保存客户端上传的数据
D.晌应客户端的所有读写数据请求
30.以下不属于Hive的特点的是:(D)
A.可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
B.延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
C.良好的容错性:节点出现问题SQL仍可完成执行。
D. 精确查询:可支持低延迟少量数据精确查询
31.Hive中从命令行执行指定Sql的参数是:(B)
A.hive -i
B.hive -e
C.hive -f
D. hive –v
32.下列不属于自定义函数的类型是:(D)
A.UDF
B.UDAF
C.UDTF
D.UDCF
33.hive主流文件存储格式压缩对比正确的是:(A)
A.ORC > Parquet > textFile
B.ORC > textFile > Parquet
C.textFile > Parquet > ORC
D.textFile > ORC > Parquet
34.以下不属于Hive中的复合数据类型的是:( C )
A.Array
B.Map
C.Set
D.Struct
35.下列不是NameNode的作用是:(D)
A.维护 管理文件系统的名字空间(元数据信息)
B.负责确定指定的文件块到具体的Datanode结点的映射关系
C.维护管理 DataNode上报的心跳信息
D.执行数据的读写
36.下列不是DataNode的作用是:(A)
A.维护 管理文件系统的名字空间
B.执行数据的读写
C.周期性向NameNode做汇报(数据块的信息、校验和)
D.执行流水线的复制
37.以下哪个不是HDFS的守护进程:( C )
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
38.以下哪种不是Hive支持的数据类型:(D)
A.Struct
B.Int
C.Map
D.Long
39.下面关于使用hive的描述中不正确的是:(D)
A.hive中的join查询只支持等值链接,不支持非等值连接
B.hive的表一共有两种类型,内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改
40.MapReduce的Shuffle过程中哪个操作是最后做的:(D)
A.溢写
B.分区
C.排序
D.合并
1、Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。
2、HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
3、在HDFS中为了容错,文件的所有block都会有副本。
4、HDFS中的文件在物理上是分块存储(block)的,块的大小可以通过配置参数来规定,默认大小在hadoop2.x版本中是128M。
5、HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。
6、MapReduce的思想核心是“分而治之”。
7、数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策 。
8、Reducetask数量的决定是可以直接手动设置。
9、YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager、NodeManager、ApplicationMaster。
10、维度建模三种模式:星形模式,雪花模式,星座模式。
11、使用yum安装mlocate服务的命令是 yum -y install mlocate
12、网络通信三要素,IP 地址,端口号,传输协议。