1、下列哪些业务场景中,可以使用Reducer充当Combiner使用?(多选)( abc )
A、sum求和 B、max求最大值 C、count求计数 D、avg求平均
2、下列关于配置机架感知的相关描述是正确的?(多选)( acd )
A、如果一个机架出问题,不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点
3、Client端上传文件的时候下列描述哪些是错误的?(多选)( acd )
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功
4、Flume agent由哪些组件构成(多选)( abc )
A、Source B、Channel C、Sink D、Spool
5、Spark 支持的分布式部署方式有哪些(多选) ( abc )
A、standalone B、spark on mesos C、spark on YARN D、Spark on local
6、下列哪些是 RDD 的缓存方法(多选) ( ab )
A、persist() B、Cache() C、Memory() D、Map()
7、Rowkey设计的原则,下列哪些选项的描述是正确的?(多选)( abc )
A、尽量保证越短越好
B、可以使用汉字
C、可以使用字符串
D、本身是无序的
8、HBase性能优化包含下面的哪些选项?(多选)(abcd )
A、读优化 B、写优化 C、配置优化 D、JVM优化
9、下列哪个属性是hdfs-site.xml中的配置?a
A、dfs.replication
B、fs.defaultFS
C、mapreduce.framework.name
D、yarn.resourcemanager.address
10、以下哪种不是Hive支持的数据类型?d
A、Struct B、Int C、Map D、Long
11、以下哪个不是HDFS的守护进程?c
A、secondarynamenode B、datanode C、mrappmaster/yarnchild D、namenode
12、如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?d
A、200 B、40000 C、400 D、1200
13、Hadoop-2.6.5集群中的HDFS的默认的副本块的个数是?c
A、1 B、2 C、3 D、4
14、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?c
A、32M B、64M C、128M D、256M
15、下面关于使用hive的描述中不正确的是?d
A、hive中的join查询只支持等值链接,不支持非等值连接
B、hive的表一共有两种类型,内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改
16、下面关于使用hive的描述中不正确的是?d
A、hive中的join查询只支持等值链接,不支持非等值连接
B、hive的表一共有两种类型,内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改
17、HDFS集群中的namenode职责不包括?c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求
18、关于HDFS集群中的DataNode的描述不正确的是?ac
A、DataNode之间都是独立的,相互之间不会有通信
B、存储客户端上传的数据的数据块
C、一个DataNode上存储的所有数据块可以有相同的
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
19、HDFS集群中的DataNode的主要职责是?c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求
20、MapReduce的Shuffle过程中哪个操作是最后做的? d
A、 溢写 B、分区 C、排序 D、合并
21、下面关于MapReduce的描述中正确的是?d
A、MapReduce程序必须包含Mapper和Reducer
B、MapReduce程序的MapTask可以任意指定
C、MapReduce程序的ReduceTask可以任意指定
D、MapReduce程序的默认数据读取组件是TextInputFormat
22、MapReduce编程模型中以下组件哪个是最后执行的? c
A、Mapper B、Partitioner C、Reducer D、RecordReader
23、在MapReduce中,哪个组件是用户不指定也不会有默认的? a
A、Combiner B、OutputFormat C、Partitioner D、InputFormat
24、下列哪种类型的文件不是HDFS集群的元数据存储格式?d
A、fsimage B、edits C、edits_inprogress D、blk_000003425
25、YARN的调度算法不包括以下哪种?d
A、FIFO Scheduler B、Fair Scheduler C、Capacity Scheduler D、Stack Scheduler
26、关于SecondaryNameNode哪项是正确的?c
A、它是NameNode的热备
B、它对内存没有要求
C、它对目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
D、SecondaryNameNode应与NameNode部署到一个节点
27、下列关于使用MapReduce编程模型实现SQL中的join操作错误的是?c
A、ReduceJoin可以实现内链接,也能实现各种外连接
B、ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的
C、MapJoin也适合各种join场景,也能实现内连接和各种外链接
D、MapJoin不会产生数据倾斜
28、下列哪种业务场景中,不能直接使用Reducer充当Combiner使用?d
A、sum求和B、max求最大值C、count求计数D、avg求平均
29、下列关于配置机架感知的相关描述哪项不正确?b
A、如果一个机架出问题,不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点
30、Client端上传文件的时候下列哪项正确? b
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功
31、下列关于HDFS的描述正确的是?c
A、如果 NameNode 宕机,SecondaryNameNode 会接替它使集群继续工作
B、HDFS集群支持数据的随机读写
C、NameNode磁盘元数据不保存Block的位置信息
D、DataNode通过长连接与NameNode保持通信
32、一个MapReduce程序中的MapTask的个数由什么决定?c
A、输入的总文件数
B、客户端程序设置的mapTask的个数
C、FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
D、输入的总文件大小/数据块大小
33、以下描述错误的是?d
A、SequenceFile可以用来作为小文件的合并存储容器
B、TextInputFormat的key是LongWritable类型的
C、CombineFileInputFormat是抽象类
D、TextInputFormat的key是指该记录在文件中的行号
34、以下关于新旧 MapReduce API 的描述错误的是?b
A、新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中
B、新API倾向于使用接口方式,而旧API倾向于使用抽象类
C、新API使用Configuration,而旧API使用JobConf来传递配置信息
D、新API可以使用Job对象来提交作业
35、以下描述错误的是?d
A、输入分片InputSplit其实是对数据的引用
B、MultipleInputs可以设置多个数据源以及它们对应的输入格式
C、可以通过重载isSplitable()方法来避免文件分片
D、ReduceTask需要等到所有的map输出都复制完才进行Merge
36、以下哪个组件可以指定对key进行Reduce分发的策略?c
A、RecordReader B、Combiner C、Partitioner D、FileInputFormat
37、执行一个job,如果这个job的输出路径已经存在,那么程序会?c
A、覆盖这个输出路径
B、抛出警告,但是能够继续执行
C、抛出一个异常,然后退出
D、创建一个新的输出路径
38、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?c
A、一次写入,少次读写
B、多次写入,少次读写
C、一次写入,多次读写
D、多次写入,多次读写
39、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是?d
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D、文件系统允许有修改
40、关于HDFS的文件写入,正确的是?c
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份分别存放
D、复制的文件块默认都存在同一机架的多个不同节点上
41、HBase来源于哪篇博文? c
A 、The Google File System B、MapReduce C、BigTableD、 Chubby
41、下面对HBase的描述哪些是正确的?(多选) bcd
A、 不是开源的
B、 是面向列的
C 、是分布式的
D 、是一种NoSQL数据库
42、HBase依靠()存储底层数据 a
A、 HDFS B、Hadoop C、Memory D、MapReduce
43、HBase依赖()提供消息通信机制 a
A 、Zookeeper B、 Chubby C、 RPC D、 Socket
44、HBase依赖()提供强大的计算能力 d
A 、Zookeeper B 、Chubby C 、RPC D 、MapReduce
45、MapReduce与HBase的关系,哪些描述是正确的?(多选) bc
A、 两者不可或缺,MapReduce是HBase可以正常运行的保证
B 、两者不是强关联关系,没有MapReduce,HBase可以正常运行
C 、MapReduce可以直接访问HBase
D 、它们之间没有任何关系
46、下面哪些选项正确描述了HBase的特性?(多选) abcd
A 高可靠性B 高性能C 面向列D可伸缩
47、Spark 的四大组件下面哪个不是 d
A、Spark Streaming B.、Mlib C、 Graphx D、Spark R
48、下面哪个端口不是 spark 自带服务的端口 b
A、8080 B、4040 C、8090 D、18080
49、spark 1.4 版本的最大变化 b
A 、spark sql Release 版本 B 、引入 Spark R C 、DataFrame D、支持动态资源分配
50、Spark Job 默认的调度模式 a
A、 FIFO B、 FAIR C、 无 D 运行时指定
51、哪个不是本地模式运行的个条件 d
A 、spark.localExecution.enabled=true B、 显式指定本地运行 C 、finalStage 无父 Stage D、partition默认值
52、下面哪个不是 RDD 的特点 c
A.、可分区 B、可序列化 C、 可修改 D、 可持久化
53、关于广播变量,下面哪个是错误的 d
A、 任何函数调用 B、 是只读的 C、 存储在各个节点 D、 存储在磁盘或 HDFS
54、关于累加器,下面哪个是错误的 d
A、 支持加法 B、支持数值类型 C、 可并行 D、 不支持自定义类型
55、Spark 支持的分布式部署方式中哪个是错误的 d
A 、standalone B、spark on mesos C、spark on YARN D、Spark on local
56、Stage 的 Task 的数量由什么决定 a
A、Partition B、Job C、Stage D、TaskScheduler
57、下面哪个操作是窄依赖 b
A 、join B、 filter C、group D、sort
58、下面哪个操作肯定是宽依赖 c
A、map B、 flatMap C、 reduceByKey D、 sample