《大数据技术原理与应用(第3版)》
教材配套习题
(选择题)
(版本号:2022年1月版本)
单选题
多选题
(A)大数据成为一种新的决策方式
(B)大数据应用促进信息技术与各行业的深度融合
(C)大数据开发推动新技术和新应用的不断涌现
(D)大数据对社会发展没有产生积极影响
单选题
10、下面哪个不是Hadoop1.0的组件:(C)
多选题
单选题
多选题
单选题
多选题
单选题
多选题
单选题
多选题
单选题
多选题
单选题
多选题
单选题
1. 下列有关Hive和Impala的对比错误的是:(D)
A Hive与Impala使用相同的元数据
B Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
C Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
D Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
2. 下列关于Hive基本操作命令的解释错误的是:(C)
A create database userdb;//创建数据库userdb
B create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
3.下面哪个不可能是Hive的执行引擎:(C)
A.MapReduce
B.Tez
C.Storm
D.Spark
4.下面描述错误的是:(C)
A.Hive的功能十分强大,可以支持采用SQL方式查询Hadoop平台上的数据
B.在实际应用中,Hive也暴露出不稳定的问题,在极少数情况下,甚至会出现端口不响应或者进程丢失的问题
C.在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的
D.在Hive HA中,客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发
5.以下哪个不是数据仓库的特性:(C)
A.面向主题的
B.集成的
C.动态变化的
D.反映历史变化的
6.下面关于Hive的描述错误的是:(D)
A.Hive是一个构建在Hadoop之上的数据仓库工具
B.Hive是由Facebook公司开发的
C.Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据
D.Hive定义了简单的类似SQL的查询语言——HiveQL,它与大部分SQL语法无法兼容
7.下面关于Hive的描述错误的是:(D)
A.HBase与Hive的功能是互补的,它实现了Hive不能提供的功能
B.当采用MapReduce作为执行引擎时,用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
C.Hive一般用于处理静态数据,主要是BI报表数据
D.Hive主要是用于满足实时数据流的处理需求
8.关于Hive和传统关系数据库的对比分析,下面描述错误的是:(B)
A.Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统
B.传统的关系数据库可以针对多个列构建复杂的索引,Hive不支持索引
C.Hive和传统关系数据库都支持分区
D. 传统关系数据库很难实现横向扩展,Hive具有很好的水平扩展性
9. 以下哪个不是Hive的用户接口模块:(A)
A.PMI
B.HWI(Hive Web Interface)
C.JDBC/ODBC
D.Thrift Server
多选题
1. 下列说法正确的是:(BCD)
A 数据仓库Hive不需要借助于HDFS就可以完成数据的存储
B Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
C Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D HiveQL语法与传统的SQL语法很相似
2. Impala主要由哪几个部分组成:(ABC)
A Impalad
B State Store
C CLI
D Hive
3. 以下属于Hive的基本数据类型是:(ABCD)
A TINYINT
B FLOAT
C STRING
D BINARY
4.数据仓库Hive的执行引擎可以是:(ABD)
A.Tez
B.MapReduce
C.Pig
D.Spark
5.以下哪些是数据仓库的特性:(ABCD)
A.面向主题的(Subject Oriented)
B.集成的(Integrated)
C.相对稳定的(Non-Volatile)
D.反映历史变化
6.传统数据仓库面临哪些挑战:(ABD)
A.无法满足快速增长的海量数据存储需求
B.无法有效处理不同类型的数据
C.具有很强的扩展性
D. 计算和处理能力不足
7. Hadoop生态系统中Hive与其他部分的关系的描述正确的是:(ABCD)
A.HDFS作为高可靠的底层存储,用来存储Hive的海量数据
B. MapReduce对这些海量数据进行批处理,实现Hive的高性能计算
C.当采用MapRedue作为Hive的执行引擎时,用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
D.HBase与Hive的功能是互补的,它实现了Hive不能提供的功能
8.关于Hive与传统关系数据库的对比分析,下面描述正确的是:(ABD)
A.在数据存储方面,Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统
B.在索引方面,传统的关系数据库可以针对多个列构建复杂的索引,大幅度提升数据查询性能,而Hive不像传统的关系型数据库那样有键的概念,它只能提供有限的索引功能
C.在分区方面,传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性、可管理性,以及提高数据库效率;Hive不支持分区功能
D.在执行引擎方面,传统的关系数据库依赖自身的执行引擎,而Hive则依赖于MapReduce、Tez和Spark等执行引擎
9.Hive主要由哪三个模块组成:(ABD)
A.用户接口模块
B.用户查询模块
C.驱动模块
D.元数据存储模块
10.当采用MapReduce作为Hive的执行引擎时,下面描述正确的是:(ABC)
A.当用户向Hive输入一段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互工作来完成该操作
B.命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行
C.执行器通常的任务是启动一个或多个MapReduce任务,有时也不需要启动MapReduce任务
D. 执行器通常的任务一定会包含Map和Reduce操作
单选题
(A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
(B)Spark在2014年打破了Hadoop保持的基准排序纪录.
(C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
(D)Spark运行模式单一
2、下列关于Spark的描述,错误的是哪一项?C
(A)使用DAG执行引擎以支持循环数据流与内存计算析
(B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
(C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程
(D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
3、下列关于Scala特性的描述,错误的是哪一项?A
(A)Scala语法复杂,但是能提供优雅的API计算
(B)Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
(C)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(D)Scala是Spark的主要编程语言
(A)相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
(B)Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
(C)Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
(D)Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
5、在Spark生态系统组件的应用场景中,下列哪项说法是错误的?C
(A)Spark应用在复杂的批量数据处理
(B)Spark SQL是基于历史数据的交互式查询
(C)Spark Streaming是基于历史数据的数据挖掘
(D)GraphX是图结构数据的处理
6、下列说法错误的是?A
(A)RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
(B)Application是用户编写的Spark应用程序
(C)一个Job包含多个RDD及作用于相应RDD上的各种操作
(D)Directed Acyclic Graph反映RDD之间的依赖关系
7、下列关于RDD说法,描述有误的是?C
(A)一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
(B)每个RDD可分成多个分区,每个分区就是一个数据集片段
(C)RDD是可以直接修改的
(D)RDD提供了一种高度受限的共享内存模型
8、Spark生态系统组件Spark Streaming的应用场景是?D
(A)基于历史数据的数据挖掘
(B)图结构数据的处理
(C)基于历史数据的交互式查询
(D)基于实时数据流的数据处理
9、Spark生态系统组件MLlib的应用场景是?D
(A)图结构数据的处理
(B)基于历史数据的交互式查询
(C)复杂的批量数据处理
(D)基于历史数据的数据挖掘
多选题
(A)运行速度快
(B)容易使用
(C)通用性
(D)运行模式单一
2、Scala具有以下哪几个主要特点?ABCD
(A)Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率
(B)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(C)Scala具备强大的并发性,支持函数式编程
(D)Scala可以更好地支持分布式系统
3、下列哪些选项属于Hadoop的缺点?ABCD
(A)表达能力有限
(B)磁盘IO开销大
(C)延迟高
(D)在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务
(A)Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题
(B)Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作
(C)Hadoop MapReduce编程模型比Spark更灵活
(D)Hadoop MapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
5、在实际应用中,大数据处理主要包括以下哪三个类型?ABD
(A)复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
(B)基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间
(C)基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间
(D)基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间
6、在实际应用中,当采用多种计算架构来满足不同应用场景需求时,大数据处理难免会带来哪些问题?ABCD
(A)不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换
(B)不同的软件需要不同的开发和维护团队
(C)需要较高的使用成本
(D)比较难以对同一个集群中的各个系统进行统一的资源协调和分配
7、与Hadoop MapReduce计算框架相比,Spark所采用的Executor具有哪些优点?AB
(A)利用多线程来执行具体的任务,减少任务的启动开销
(B)Executor中有一个BlockManager存储模块,有效减少IO开销
(C)提供了一种高度受限的共享内存模型
(D)不同场景之间输入输出数据能做到无缝共享
8、Spark运行架构具有以下哪些特点?ABCD
(A)每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
(B)Executor进程以多线程的方式运行Task
(C)Spark运行过程与资源管理器无关,只要能够获取Executor进程并保持通信即可
(D)Task采用了数据本地性和推测执行等优化机制
9、Spark采用RDD以后能够实现高效计算的原因主要在于?ABC
(A)高效的容错性
(B)中间结果持久化到内存,数据在内存中的多个
(C)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
(D)采用数据复制实现容错
10、Spark支持哪三种不同类型的部署方式?ABC
(A)Standalone(类似于MapReduce1.0,slot为资源分配单位)
(B)Spark on Mesos(和Spark有血缘关系,更好支持Mesos)
(C)Spark on YARN
(D)Spark on HDFS
单选题
多选题
单选题
1.下面描述错误的是:(D)
A.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态
B.Spark Streaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力
C.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理
D.Spark Streaming可以实现毫秒级响应,而Flink只能实现秒级响应
2. 以下哪个不属于事件驱动型应用?D
A. 反欺诈
B.异常检测
C.基于规则的报警
D. 消费者技术中的实时数据即席分析
3.以下哪个不属于数据分析应用?A
A.基于规则的报警
B.移动应用中的产品更新及实验评估分析
C.消费者技术中的实时数据即席分析
D. 大规模图分析
4.以下哪个属于数据流水线应用?B
A.基于规则的报警
B.实时查询索引构建
C.移动应用中的产品更新及实验评估分析
D.费者技术中的实时数据即席分析
多选题
1. 企业数据架构的典型形式包括:(ABC)
A.传统数据处理架构
B.大数据Lambda架构
C.流处理架构
D.循环处理架构
2.Flink的优势包括:(ABCD)
A.同时支持高吞吐、低延迟、高性能
B.同时支持流处理和批处理
C.支持有状态计算
D.具有独立的内存管理
3. Flink常见的应用场景包括:(ABC)
A.事件驱动型应用
B.数据分析应用
C.数据流水线应用
D.正反馈应用
4. Flink核心组件栈包括:(ACD)
A.物理部署层
B.算法库层
C.Runtime核心层
D.API&Libraries层
5. Flink系统主要由两个组件组成:(AD)
A. JobManager
B.JobTrackder
C.TaskTracker
D. TaskManager
6.Flink编程模型包括哪几层:(ABCD)
A.SQL
B.Table API
C.DataStream API / DataSet API
D.有状态数据流处理
单选题
(A)许多非图结构的大数据,通常会被转换为关系模型后进行分析
(B)许多大数据都是以大规模图或网络的形式呈现
(C)图数据结构很好地表达了数据之间的关联性
(D)关联性计算是大数据计算的核心
(A)第一阶段:解析网页
(B)第二阶段:PageRank分配
(C)第三阶段:收敛阶段
(D)第一阶段:收集网页
(A)顶点的出度
(B)顶点
(C)边
(D)消息
(A)该顶点的当前值
(B)一个接收到的消息的迭代器
(C)一个出射边的迭代器
(D)一个入射边的迭代器
(A)全局计算
(B)局部计算
(C)通讯
(D)栅栏同步
多选题
一、单选题
1、 下列关于数据可视化的描述,哪个是错误的?(D)
A.数据可视化是指将大型数据集中的数据以图形图像形式表示
B.利用数据分析和开发工具发现其中未知信息的处理过程
C.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示
D.将数据的各个属性值以一维数据的形式表示
2、 下列哪个不属于可视化工具?(D)
A.Google Chart API
B.D3
C.Visual.ly
D.Spark
3、 下列说法错误的是?(B)
A.大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据
B.Tableau是桌面系统中最简单的商业智能工具软件,是一个用于网页作图、生成互动图形的JavaScript函数库
C.Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图
D.Modest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫星地图的API
4、下面关于Timetoast的描述,哪个是错误的?(D)
A.Timetoast是在线创作基于时间轴事件记载服务的网站
B.提供个性化的时间线服务
C.Timetoast基于 flash 平台,可以在类似flash时间轴上任意加入事件
D.Timetoast是一个提供复杂统计图表的工具
5、 下列关于可视化工具中高级分析工具的说法,错误的是?(B)
A.R是属于GNU系统的一个自由、免费、源代码开放的软件
B.Weka主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形
C.Gephi主要用于社交图谱数据可视化分析,可以生成非常酷炫的可视化图形
D.R通常用于大数据集的统计与分析
二、多选题
1、 在大数据时代,可视化技术可以支持实现哪些目标?(ABCD)
A.观测、跟踪数据
B.分析数据
C.辅助理解数据
D.增强数据吸引力
2、 信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确?(ABCD)
A.谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片
B.D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库
C. ECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上
D.大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据
3、 下列关于数据可视化的描述,正确的有?ABC
(A) 数据可视化是指将大型数据集中的数据以图形图像形式表示
(B) 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示
(C) 利用数据分析和开发工具发现其中未知信息的处理过程
(D) 将数据的各个属性值以一维数据的形式表示
4、下列说法中,哪些是正确的?ABCD
A.Modest Maps是一个小型、可扩展、交互式的免费库
B.Leaflet是一个小型化的地图框架,通过小型化和轻量化来满足移动网页的需要
C.Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图
D.大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据
单选题
多选题
附录1:课程教材介绍《大数据技术原理与应用——概念、存储、处理、分析与应用(第3版)》,由厦门大学计算机科学系教师林子雨博士编著,是国内高校第一本系统介绍大数据知识的专业教材,已经被超过300所高校采用。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为读者在大数据领域“深耕细作”奠定基础、指明方向。
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共17章,内容包含大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化以及大数据在互联网、生物医学领域和其他行业的应用。本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等重要章节安排了入门级的实践操作,以便读者更好地学习和掌握大数据关键技术。
《大数据基础编程、实验和案例教程(第2版)》(是第2版,不是第3版)是林子雨编著《大数据技术原理与应用(第3版)》教材的配套实验指导书。《大数据技术原理与应用(第3版)》侧重于大数据知识框架和理论介绍,而《大数据基础编程、实验和案例教程(第2版)》侧重于介绍大数据软件的安装、使用和基础编程方法,并提供了大量实验和案例。由于大数据软件都是开源软件,安装过程一般比较复杂,也很耗费时间。为了尽量减少读者搭建大数据实验环境时的障碍,笔者在《大数据基础编程、实验和案例教程(第2版)》中详细写出了各种大数据软件的详细安装过程,可以确保读者顺利完成大数据实验环境搭建。