大数据基础--习题整理(2)

习题二

1、下列哪些业务场景中,可以使用Reducer充当Combiner使用?(多选)( abc )
A、sum求和     B、max求最大值    C、count求计数     D、avg求平均


2、下列关于配置机架感知的相关描述是正确的?(多选)( acd )
A、如果一个机架出问题,不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点


3、Client端上传文件的时候下列描述哪些是错误的?(多选)( acd )
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功


4、Flume agent由哪些组件构成(多选)( abc )
A、Source     B、Channel     C、Sink     D、Spool


5、Spark 支持的分布式部署方式有哪些(多选) ( abc )
A、standalone     B、spark on mesos     C、spark on YARN     D、Spark on local


6、下列哪些是 RDD 的缓存方法(多选) ( ab )
A、persist()    B、Cache()     C、Memory()     D、Map()


7、Rowkey设计的原则,下列哪些选项的描述是正确的?(多选)( abc )
A、尽量保证越短越好
B、可以使用汉字
C、可以使用字符串
D、本身是无序的


8、HBase性能优化包含下面的哪些选项?(多选)(abcd )
A、读优化     B、写优化    C、配置优化      D、JVM优化


9、下列哪个属性是hdfs-site.xml中的配置?a
A、dfs.replication
B、fs.defaultFS
C、mapreduce.framework.name
D、yarn.resourcemanager.address


10、以下哪种不是Hive支持的数据类型?d
A、Struct     B、Int    C、Map     D、Long


11、以下哪个不是HDFS的守护进程?c
A、secondarynamenode     B、datanode    C、mrappmaster/yarnchild     D、namenode


12、如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?d
A、200     B、40000    C、400     D、1200


13、Hadoop-2.6.5集群中的HDFS的默认的副本块的个数是?c
A、1    B、2    C、3    D、4


14、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?c
A、32M     B、64M    C、128M     D、256M


15、下面关于使用hive的描述中不正确的是?d
A、hive中的join查询只支持等值链接,不支持非等值连接
B、hive的表一共有两种类型,内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改


16、下面关于使用hive的描述中不正确的是?d
A、hive中的join查询只支持等值链接,不支持非等值连接
B、hive的表一共有两种类型,内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改


17、HDFS集群中的namenode职责不包括?c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求


18、关于HDFS集群中的DataNode的描述不正确的是?ac
A、DataNode之间都是独立的,相互之间不会有通信
B、存储客户端上传的数据的数据块
C、一个DataNode上存储的所有数据块可以有相同的
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑


19、HDFS集群中的DataNode的主要职责是?c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求


20、MapReduce的Shuffle过程中哪个操作是最后做的? d
A、 溢写    B、分区    C、排序     D、合并


21、下面关于MapReduce的描述中正确的是?d
A、MapReduce程序必须包含Mapper和Reducer
B、MapReduce程序的MapTask可以任意指定
C、MapReduce程序的ReduceTask可以任意指定
D、MapReduce程序的默认数据读取组件是TextInputFormat


22、MapReduce编程模型中以下组件哪个是最后执行的? c
A、Mapper    B、Partitioner    C、Reducer    D、RecordReader


23、在MapReduce中,哪个组件是用户不指定也不会有默认的? a
A、Combiner    B、OutputFormat     C、Partitioner     D、InputFormat


24、下列哪种类型的文件不是HDFS集群的元数据存储格式?d
A、fsimage    B、edits    C、edits_inprogress     D、blk_000003425


25、YARN的调度算法不包括以下哪种?d
A、FIFO Scheduler    B、Fair Scheduler    C、Capacity Scheduler    D、Stack Scheduler


26、关于SecondaryNameNode哪项是正确的?c
A、它是NameNode的热备
B、它对内存没有要求
C、它对目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
D、SecondaryNameNode应与NameNode部署到一个节点


27、下列关于使用MapReduce编程模型实现SQL中的join操作错误的是?c
A、ReduceJoin可以实现内链接,也能实现各种外连接
B、ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的
C、MapJoin也适合各种join场景,也能实现内连接和各种外链接
D、MapJoin不会产生数据倾斜


28、下列哪种业务场景中,不能直接使用Reducer充当Combiner使用?d
A、sum求和B、max求最大值C、count求计数D、avg求平均


29、下列关于配置机架感知的相关描述哪项不正确?b
A、如果一个机架出问题,不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点


30、Client端上传文件的时候下列哪项正确? b
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功


31、下列关于HDFS的描述正确的是?c
A、如果 NameNode 宕机,SecondaryNameNode 会接替它使集群继续工作
B、HDFS集群支持数据的随机读写
C、NameNode磁盘元数据不保存Block的位置信息
D、DataNode通过长连接与NameNode保持通信


32、一个MapReduce程序中的MapTask的个数由什么决定?c
A、输入的总文件数
B、客户端程序设置的mapTask的个数
C、FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
D、输入的总文件大小/数据块大小


33、以下描述错误的是?d
A、SequenceFile可以用来作为小文件的合并存储容器
B、TextInputFormat的key是LongWritable类型的
C、CombineFileInputFormat是抽象类
D、TextInputFormat的key是指该记录在文件中的行号


34、以下关于新旧 MapReduce API 的描述错误的是?b
A、新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中
B、新API倾向于使用接口方式,而旧API倾向于使用抽象类
C、新API使用Configuration,而旧API使用JobConf来传递配置信息
D、新API可以使用Job对象来提交作业


35、以下描述错误的是?d
A、输入分片InputSplit其实是对数据的引用
B、MultipleInputs可以设置多个数据源以及它们对应的输入格式
C、可以通过重载isSplitable()方法来避免文件分片
D、ReduceTask需要等到所有的map输出都复制完才进行Merge


36、以下哪个组件可以指定对key进行Reduce分发的策略?c
A、RecordReader B、Combiner C、Partitioner D、FileInputFormat


37、执行一个job,如果这个job的输出路径已经存在,那么程序会?c
A、覆盖这个输出路径
B、抛出警告,但是能够继续执行
C、抛出一个异常,然后退出
D、创建一个新的输出路径


38、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?c
A、一次写入,少次读写
B、多次写入,少次读写
C、一次写入,多次读写
D、多次写入,多次读写


39、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是?d
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D、文件系统允许有修改


40、关于HDFS的文件写入,正确的是?c
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份分别存放
D、复制的文件块默认都存在同一机架的多个不同节点上
41、HBase来源于哪篇博文? c
A 、The Google File System    B、MapReduce    C、BigTableD、 Chubby


41、下面对HBase的描述哪些是正确的?(多选) bcd
A、 不是开源的
B、 是面向列的
C 、是分布式的
D 、是一种NoSQL数据库


42、HBase依靠()存储底层数据 a
A、 HDFS    B、Hadoop    C、Memory    D、MapReduce


43、HBase依赖()提供消息通信机制 a
A 、Zookeeper    B、 Chubby    C、 RPC    D、 Socket


44、HBase依赖()提供强大的计算能力 d
A 、Zookeeper    B 、Chubby    C 、RPC    D 、MapReduce


45、MapReduce与HBase的关系,哪些描述是正确的?(多选) bc
A、 两者不可或缺,MapReduce是HBase可以正常运行的保证
B 、两者不是强关联关系,没有MapReduce,HBase可以正常运行
C 、MapReduce可以直接访问HBase
D 、它们之间没有任何关系


46、下面哪些选项正确描述了HBase的特性?(多选) abcd
A 高可靠性B 高性能C 面向列D可伸缩
47、Spark 的四大组件下面哪个不是 d
A、Spark Streaming     B.、Mlib     C、 Graphx    D、Spark R


48、下面哪个端口不是 spark 自带服务的端口 b
A、8080     B、4040     C、8090     D、18080


49、spark 1.4 版本的最大变化 b
A 、spark sql Release 版本     B 、引入 Spark R     C 、DataFrame     D、支持动态资源分配


50、Spark Job 默认的调度模式 a
A、 FIFO     B、 FAIR     C、 无     D 运行时指定


51、哪个不是本地模式运行的个条件 d
A 、spark.localExecution.enabled=true     B、 显式指定本地运行    C 、finalStage 无父 Stage    D、partition默认值


52、下面哪个不是 RDD 的特点 c
A.、可分区     B、可序列化     C、 可修改     D、 可持久化


53、关于广播变量,下面哪个是错误的 d
A、 任何函数调用     B、 是只读的      C、 存储在各个节点      D、 存储在磁盘或 HDFS


54、关于累加器,下面哪个是错误的 d
A、 支持加法     B、支持数值类型     C、 可并行     D、 不支持自定义类型


55、Spark 支持的分布式部署方式中哪个是错误的 d
A 、standalone     B、spark on mesos     C、spark on YARN     D、Spark on local


56、Stage 的 Task 的数量由什么决定 a
A、Partition     B、Job     C、Stage     D、TaskScheduler


57、下面哪个操作是窄依赖 b
A 、join     B、 filter     C、group     D、sort


58、下面哪个操作肯定是宽依赖 c
A、map     B、 flatMap     C、 reduceByKey     D、 sample

你可能感兴趣的:(spark,hdfs,hadoop,hive)