1.大数据发展趋势与鲲鹏大数据
1、(单选)以下哪个不是大数据时代新兴的技术:
A.HBase
B.Hadoop
C.MySQL
D.Spark
正确答案:C
2、(单选)第三次信息化浪潮的标志是:
A.云计算、大数据、物联网技术的普及
B.个人电脑的普及
C.互联网的普及
D.虚拟现实技术的普及
正确答案:A
3、(多选)大数据的4V特性包括:
A.数据量大
B.数据类型繁多
C.处理速度快
D.价值密度低
正确答案:ABCD
4、(多选)下列对Hadoop各组件的理解正确的是:
A.Pig:处理大规模数据的脚本语言
B.Kafka:分布式发布订阅消息系统
C.Oozie:工作流和协作服务引擎
D.Tez:支持DAG作业的计算框架
正确答案:ABCD
5、(判断) “大”是大数据的关键,大数据中一定包含有用价值!
正确答案:错误
2.HDFS分布式文件系统和ZooKeeper
1、(单选)HDFS的命名空间不包含:
A.块
B.字节
C.文件
D.目录
正确答案:B
2、(单选)采用多副本冗余存储的优势不包含:
A.容易检查数据错误
B.保证数据可靠性
C.节约存储空间
D.加快数据传输速度
正确答案:C
3、(多选)HDFS只设置唯一一个名称节点带来的局限性包括:
A.命名空间的限制
B.集群的可用性
C.性能的瓶颈
D.隔离问题
正确答案:ABCD
4、(多选)Zookeeper集群主要有以下角色:
A.Leader
B.Follower
C.Observer
D.Master
正确答案:ABC
5、(判断)Zookeeper的子节点Znode会继承父节点的ACL。
正确答案:错误
3.Hive分布式数据仓库
1、(单选)下列关于Hive基本操作命令的解释错误的是:
A. create database userdb;//创建数据库userdb
B. create table if not exists usr(id bigint,name string,age int); //如果usr表不存在,创建表usr,含三个属性id,name,age
C. load data local inpath '/usr/local/data’ overwrite into table usr;//把目录'usr/local/data'下的数据文件中的数据以追加的方式装载进usr表
D. insert overwrite table student select * from user where age>10;//向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
正确答案:C
2、(多选)下列说法正确的是:
A.Hive和HDFS、HBase、Spark、Flink等工具可以统一部署在一个Hadoop平台上
B.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
C.HiveQL语法与传统的SQL语法很相似
D.数据仓库Hive不需要借助于HDFS就可以完成数据的存储
正确答案:ABC
3、(多选)以下属于Hive的基本数据类型是:
A.TINYINT
B.BINARY
C.FLOAT
D.STRING
正确答案:ABCD
4、(判断)Hive是为了降低程序员使用MapReduce的难度而产生的。
正确答案:正确
4.HBase技术原理
1、(单选)HBase是一种()数据库。
A.行式数据库
B.关系数据库
C.列式数据库
D.文档数据库
正确答案:C
2、(单选)HBase三层结构的顺序是:
A.Zookeeper文件,-ROOT-表,.MEATA.表
B.Zookeeper文件,.MEATA.表,-ROOT-表
C..MEATA.表,Zookeeper文件,-ROOT-表
D.-ROOT-表,Zookeeper文件,.MEATA.表
正确答案:A
3、(单选)客户端是通过()级寻址来定位Region。
A.三
B.四
C.二
D.一
正确答案:A
4、(多选)HBase和传统关系型数据库的区别在于哪些方面:
A.数据维护
B.存储模式
C.数据模型
D.数据索引
正确答案:ABCD
5、(多选)访问HBase表中的行,有哪些方式?
A.通过单个行健访问
B.通过一个行健的区间来访问
C.全表扫描
D.通过某列的值区间
正确答案:ABC
5.MapReduce和Yarn技术原理
1、(单选)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>
B.<"hello",1,1>、<"hadoop",1>和<"world",1>
C.<"hello",2>、<"hadoop",1>和<"world",1>
D.<"hello",<1,1>>、<"hadoop",1>和<"world",1>
正确答案:B
2、(单选)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:
A.<"hello",1><"hello",1><"hadoop",1><"world",1>
B.<"hello",1,1><"hadoop",1><"world",1>
C.<"hello",<1,1>><"hadoop",1><"world",1>
D.<"hello",2><"hadoop",1><"world",1>
正确答案:D
3、(多选) MapReduce V1体系结构主要由以下哪几个部分组成:
A.JobTracker
B.Client
C.Task
D.TaskTracker
正确答案:ABCD
4、(判断) MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为, 移动数据需要大量的网络传输开销。
正确答案:正确
5、(判断)两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>。
正确答案:错误
6.Spark基于内存的分布式计算
1、(单选) Spark SQL目前暂时不支持下列哪种语言:
A.Matlab
B.Java
C.Python
D.Scala
正确答案:A
2、(单选) RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:
A.filter
B.count
C.groupBy
D.map
正确答案:B
3、(单选) 下列大数据类型与其对应的软件框架不适应的是:
A.复杂的批量数据处理: MapReduce
B.基于实时数据流的数据处理: Flink
C.基于历史数据的交互式查询: Impala
D.图结构数据的计算:Hive
正确答案:D
4、(多选) Spark的主要特点包括:
A.通用性好
B.运行模式多样
C.运行速度快
D.容易使用
正确答案:ABCD
5、(多选) Spark的运行架构包括:
A.运行作业任务的工作节点Worker Node
B.集群资源管理器Cluster Manager
C.每个应用的任务控制节点Driver
D.每个工作节点上负责具体任务的执行进程Executor
正确答案:ABCD
7.Flink流批一体分布式实时处理引擎
1、(单选)以下不属于事件的时间的种类的是:
A.event time
B.create time
C.ingestion time
D.processing time
正确答案:B
2、(单选)会话窗口的特点是:
A.时间对齐,窗口长度固定,没有重叠
B.时间对齐,窗口长度固定,有重叠
C.时间对齐,窗口长度不固定,有重叠
D.时间无对齐
正确答案:D
3、(多选)Flink提供了内置的状态管理,可以把这些状态存储在Flink内部,而不需要把它存储在外部系统。这样做的好处有:
A.增大了内存的消耗
B.降低了计算引擎对外部系统的依赖
C.对性能带来了极大的提升
D.使得部署、运维更加简单
正确答案:BCD
4、(判断)Flink采用的是基于流计算来模拟批处理。
正确答案:正确
5、(判断)Watermark是建立在事件时间上的一个概念,用来刻画数据流的完整性。
正确答案:正确
8.Flume海量日志聚合
1、(单选)关于source说法不正确的是:
A.驱动型source是外部主动发送数据给Flueme,驱动Flume接受数据。
B.轮询source是Flume周期性主动去获取数据。
C. source可以不和任何channel关联。
D.source负责接受ecents或者通过特殊机制产生events。
正确答案:C
2、(单选)关于Flume处理日志流程说法不正确的是:
A.source接受数据量。
B.channel处理数据量
C.sink写入数据量
D.Manager图形化呈现监控指标。
正确答案:B
3、(多选)以下对Flume理解正确的是:
A.提供从固定目录下采集日志信息到目的地能力。
B.提供实时采集日志信息到目的地的能力。
C.支持级联,合并数据的能力。
D.支持按照用户定制采集数据的能力。
正确答案:ABCD
4、(判断)Flume多agent架构主要应用于收集MRS集群外的节点的日志,并经过多个Fllume节点最终汇集到集群内。
正确答案:正确
5、(判断)Flume架构中Sink Runner的作用主要是通过它来驱动Sink Processor,Sink Processor
驱动sink来从channel中取数据。
正确答案:正确
9.Loader数据转换
1、(单选)Loader中用于管理Loader Server进程主备状态的模块是:
A.Transform Engine
B.Metadata Repository
C.HA Manager
D.Job Manager
正确答案:C
2、(单选)Loader提供了丰富的作业转换规则,如果需要将空值替换成指定值可以选用哪种算子:
A.长整型时间转换
B.空值转换
C.随机值转换
D.剪切字符串
正确答案:B
3、(判断)与开源Sqoop相比,Loader具有图形化、高性能、高可靠、安全性的增强。
正确答案:正确
4、(判断)作业用来描述将数据从数据源经过抽取、转换和加载至目的端的过程。
正确答案:正确
10.Kafka分布式消息订阅系统
1、(单选)关于Kafka的特点,下列说法错误的是:
A.Kafka支持消息分区,及分布式消费,同时保证每个分区内消息顺序传输
B.Kafka同时支持离线数据处理和实时数据处理
C.Kafka具有高吞吐量、消息持久化、高可靠性、高扩展性等优点
D.Kafka采用硬盘持久化消息,所以性能比其他消息队列略低
正确答案:D
2、(单选)以下哪个不是Kafka中的角色:
A.leader
B.ResourceManager
C.follower
D.controller
正确答案:B
3、(多选)以下对Kafka中概念的描述正确的是:
A.Kafka集群包含一个或多个服务实例,这些服务实例被称为Broker
B.Consumer:消息消费者,从Kafka Broker读取消息的客户端
C.Producer:负责发布消息到Kafka Broker
D.Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应一个文件夹,该文件夹下存储这个Partition的所有消息
正确答案:ABCD
4、(判断) consumer group间数据是共享的,consumer group内数据是竞争的。
正确答案:正确
5、(判断)Kafka的日志清理方式有:delete和compact。
正确答案:正确
11.LDAP Kerberos
1、(单选)下面哪项单点登录技术被用在华为大数据平台中:
A.cookies技术
B.Broker-based技术
C.Gateway-based技术
D.Token-based技术
正确答案:B
2、(单选) Ldap客户端用于查询Ldap中的用户信息的命令是:
A.klist
B.ldapdelete
C.ldapadd
D.Idapsearch
正确答案:D
3、(多选)绝大多数厂商的统一认证管理系统都是由那几部分组成:
A.统一身份认证管理模块
B.统一身份认证服务器
C.身份信息存储服务器
D.统一身份授权模块
正确答案:ABC
4、(多选) KrbServer认证机制的核心要素包含哪些:
A.Kerberos Client
B.Kerberos KDC Server
C.AES(Advanced Encryption Standard)
D.KDC(Key Distribution Center)
正确答案:ABD
5、(判断)目录服务和传统关系型数据库一样,以树形结构进行数据的存储和遍历。
正确答案:错误
12.分布式全文检索服务ElasticSearch
1、(单选)下列说法不正确的是:
A.ElasticSearch可以作为NoSQL数据库使用
B.ElasticSearch不支持非结构化数据
C.ElasticSearch是基于Lucene的全文检索服务
D.ElasticSearch可用于日志搜索和分析、时空检索、时序检索等场景
正确答案:B
2、(单选) ElasticSearch缓存主要为:
A.Query Cache
B.Fielddata Cache
C.Request Cache
D.以上都是
正确答案:D
3、(单选) ElasticSearch减容场景不包括:
A.节点需要重新安装操作系统
B.单实例的索引数据太大
C.集群数据量减少
D.退服场景
正确答案:B
4、(判断) ElasticSearch扩容后会采用自动均衡策略。
正确答案:正确
5、(判断)对于安全集群,对ElasticSearch访问的支持加密鉴权。
正确答案:正确
13.Redis内存数据库
1、(单选) Redis的多数据库特性描述正确的是:
A.数据库名称可以自定义。
B.默认选择0号数据库。
C.select用于选择字段。
D.默认16个数据,不可以修改默认值。
正确答案:B
2、(多选)Redis的使用场景具备哪些特点:
A.高性能
B.低延迟
C.丰富的数据结构存取
D.支持持久化
正确答案:ABCD
3、(多选)Redis的string类型描述正确的是:
A.支持set设置key-value。
B.strlen可以返回字符串长度。
C.incr将key中存储的值减一。
D.append的key不存在时与set功能一致。
正确答案:ABD
4、(判断)Redis是一个基于网络的,高性能key-value嵌入式数据库。
正确答案:错误
5、(判断)Redis不能作为关系型数控的缓存,用于提高访问速度。
正确答案:错误
14.华为大数据解决方案
1、(单选)华为大数据解决方案中用于图分析与查询的引擎服务是:
A.GES
B.DWS
C.CSS
D.DLI
正确答案:A
2、(单选)在DAYU平台架构下提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据在湖内外、湖间的自由流动的功能模块是:
A.数据开发
B.数据集成
C.数据治理
D.资产管理
正确答案:B
3、(多选)企业数字化转型所面临的阻碍有:
A.烟囱式应用
B.数据孤岛
C.资源分散
D.数据不通
E.数据开放与隐私
F.数据可用性低,质量差
正确答案:ABCDEF
4、(多选)华为云智能数据湖DAYU平台提供了哪些功能:
A.数据集成
B.规范设计
C.数据开发
D.数据质量监控
E.数据资产管理
F.数据可视化
正确答案:ABCDEF
5、(判断)华为云MRS优势集中体现在高性能、高可靠、命令行客户端、弹性扩缩。
正确答案:错误