大数据技术原理与应用(林子雨)MOOC作业与检验答案

第1章 大数据概述

1单选(2分)

第三次信息化浪潮的标志是:

A.个人电脑的普及

B.云计算、大数据、物联网技术的普及

C.虚拟现实技术的普及

D.互联网的普及

正确答案:B你选对了

2单选(2分)

就数据的量级而言,1PB数据是多少TB?

A.2048

B.1000

C.512

D.1024

正确答案:D你选对了

3单选(2分)

以下关于云计算、大数据和物联网之间的关系,论述错误的是:

A.云计算侧重于数据分析

B.物联网可以借助于云计算实现海量数据的存储

C.物联网可以借助于大数据实现海量数据的分析

D.云计算、大数据和物联网三者紧密相关,相辅相成

正确答案:A你选对了

4单选(2分)

以下哪个不是大数据时代新兴的技术:

A.Spark

B.Hadoop

C.HBase

D.MySQL

正确答案:D你选对了

5单选(2分)

每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:

A.MapReduce

B.Dremel

C.Storm

D.Pregel

正确答案:A你选对了

6单选(2分)

每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:

A.GraphX

B.S4

C.Impala

D.Hive

正确答案:B你选对了

7单选(2分)

每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:

A.Pregel

B.Storm

C.Cassandra

D.Flume

正确答案:A你选对了

8单选(2分)

每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:

A.HDFS

B.S4

C.Dremel

D.MapReduce

正确答案:C你选对了

9多选(3分)

数据产生方式大致经历了三个阶段,包括:

A.运营式系统阶段

B.感知式系统阶段

C.移动互联网数据阶段

D.用户原创内容阶段

正确答案:ABD你选对了

10多选(3分)

大数据发展的三个阶段是:

A.低谷期

B.成熟期

C.大规模应用期

D.萌芽期

正确答案:BCD你选对了

11多选(3分)

大数据的特性包括:

A.价值密度低

B.处理速度快

C.数据类型繁多

D.数据量大

正确答案:ABCD你选对了

12多选(3分)

图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:

A.计算科学

B.数据密集型科学

C.实验科学

D.理论科学

正确答案:ABCD你选对了

13多选(3分)

大数据带来思维方式的三个转变是:

A.效率而非精确

B.相关而非因果

C.精确而非全面

D.全样而非抽样

正确答案:ABD你选对了

14多选(3分)

大数据主要有哪几种计算模式:

A.流计算

B.图计算

C.查询分析计算

D.批处理计算

正确答案:ABCD你选对了

15多选(3分)

云计算的典型服务模式包括三种:

A.SaaS

B.IaaS

C.MaaS

D.PaaS

正确答案:ABD你选对了

第2章 大数据处理架构Hadoop

1单选(2分)

启动hadoop所有进程的命令是:

A.start-dfs.sh

B.start-all.sh

C.start-hadoop.sh

D.start-hdfs.sh

正确答案:B你选对了

2单选(2分)

以下对Hadoop的说法错误的是:

A.Hadoop是基于Java语言开发的,只支持Java语言编程

B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性

C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

D.Hadoop的核心是HDFS和MapReduce

正确答案:A你选对了

3单选(2分)

以下哪个不是Hadoop的特性:

A.成本高

B.支持多种编程语言

C.高容错性

D.高可靠性

正确答案:A你选对了

4单选(2分)

以下名词解释不正确的是:

A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现

C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

正确答案:B你选对了

5多选(3分)

以下哪些组件是Hadoop的生态系统的组件:

A.HBase

B.Oracle

C.HDFS

D.MapReduce

正确答案:ACD你选对了

6多选(3分)

以下哪个命令可以用来操作HDFS文件:

A.hadoop fs

B.hadoop dfs

C.hdfs fs

D.hdfs dfs

正确答案:ABD你选对了

第3章 分布式文件系统HDFS

1单选(2分)

HDFS的命名空间不包含:

A.字节

B.文件

C.块

D.目录

正确答案:A你选对了

2单选(2分)

对HDFS通信协议的理解错误的是:

A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的

B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

C.名称节点和数据节点之间则使用数据节点协议进行交互

D.HDFS通信协议都是构建在IoT协议基础之上的

正确答案:D你选对了

3单选(2分)

采用多副本冗余存储的优势不包含:

A.保证数据可靠性

B.容易检查数据错误

C.加快数据传输速度

D.节约存储空间

正确答案:D你选对了

4单选(2分)

假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:

A.start-dfs.sh,stop-hdfs.sh

B.start-hdfs.sh,stop-hdfs.sh

C.start-dfs.sh,stop-dfs.sh

D.start-hdfs.sh,stop-dfs.sh

正确答案:C你选对了

5单选(2分)

分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫 :

A.名称节点,主节点

B.从节点,主节点

C.名称节点,数据节点

D.数据节点,名称节点

正确答案:C你选对了

6单选(2分)

下面关于分布式文件系统HDFS的描述正确的是:

A.分布式文件系统HDFS是Google Bigtable的一种开源实现

B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现

C.分布式文件系统HDFS比较适合存储大量零碎的小文件

D.分布式文件系统HDFS是一种关系型数据库

正确答案:B你选对了

7多选(3分)

以下对名称节点理解正确的是:

A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问

B.名称节点用来负责具体用户数据的存储

C.名称节点通常用来保存元数据

D.名称节点的数据保存在内存中

正确答案:ACD你选对了

8多选(3分)

以下对数据节点理解正确的是:

A.数据节点通常只有一个

B.数据节点用来存储具体的文件内容

C.数据节点的数据保存在磁盘中

D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

正确答案:BCD你选对了

9多选(3分)

HDFS只设置唯一一个名称节点带来的局限性包括:

A.集群的可用性

B.性能的瓶颈

C.命名空间的限制

D.隔离问题

正确答案:ABCD你选对了

10多选(3分)

以下HDFS相关的shell命令不正确的是:

A.hadoop dfs mkdir :创建 指定的文件夹

B.hdfs dfs -rm :删除路径 指定的文件

C.hadoop fs -copyFromLocal :将路径指定的文件或文件夹复制到路径指定的文件夹中

D.hadoop fs -ls :显示 指定的文件的详细信息

正确答案:AC你选对了

第4章 分布式数据库HBase

1单选(2分)

HBase是一种 数据库

A.行式数据库

B.关系数据库

C.文档数据库

D.列式数据库

正确答案:D你选对了

2单选(2分)

下列对HBase数据模型的描述错误的是:

A.每个HBase表都由若干行组成,每个行由行键(row key)来标识

B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳

C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本

D.HBase列族支持动态扩展,可以很轻松地添加一个列族或列

正确答案:C你选对了

3单选(2分)

下列说法正确的是:

A.如果不启动Hadoop,则HBase完全无法使用

B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器

C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据

D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

正确答案:D你选对了

4单选(2分)

在HBase数据库中,每个Region的建议最佳大小是:

A.2GB-4GB

B.100MB-200MB

C.500MB-1000MB

D.1GB-2GB

正确答案:D你选对了

5单选(2分)

HBase三层结构的顺序是:

A.Zookeeper文件,.MEATA.表,-ROOT-表

B.-ROOT-表,Zookeeper文件,.MEATA.表

C.Zookeeper文件,-ROOT-表,.MEATA.表

D…MEATA.表,Zookeeper文件,-ROOT-表

正确答案:C你选对了

6单选(2分)

客户端是通过 级寻址来定位Region:

A.三

B.二

C.一

D.四

正确答案:A你选对了

7单选(2分)

关于HBase Shell命令解释错误的是:

A.create:创建表

B.put:向表、行、列指定的单元格添加数据

C.list:显示表的所有数据

D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

正确答案:C你选对了

8多选(3分)

下列对HBase的理解正确的是:

A.HBase是针对谷歌BigTable的开源实现

B.HBase是一种关系型数据库,现成功应用于互联网服务领域

C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件

D.HBase多用于存储非结构化和半结构化的松散数据

正确答案:AD你选对了

9多选(3分)

HBase和传统关系型数据库的区别在于哪些方面:

A.数据操作

B.数据索引

C.数据模型

D.存储模式

正确答案:ABCD你选对了

10多选(3分)

访问HBase表中的行,有哪些方式:

A.通过某列的值区间

B.全表扫描

C.通过一个行健的区间来访问

D.通过单个行健访问

正确答案:BCD你选对了

第5章 NoSQL数据库

1单选(2分)

下列关于NoSQL数据库和关系型数据库的比较,不正确的是:

A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性

B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

C.NoSQL数据库的可扩展性比传统的关系型数据库更好

D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性

正确答案:A你选对了

2单选(2分)

以下对各类数据库的理解错误的是:

A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等

B.文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中

C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

D.HBase数据库是列族数据库,可扩展性强,支持事务一致性

正确答案:D你选对了

3单选(2分)

下列数据库属于文档数据库的是:

A.MySQL

B.Redis

C.MongoDB

D.HBase

正确答案:C你选对了

4单选(2分)

NoSQL数据库的三大理论基石不包括:

A.最终一致性

B.BASE

C.ACID

D.CAP

正确答案:C你选对了

5多选(3分)

关于NoSQL数据库和关系数据库,下列说法正确的是:

A.NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力

B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

C.大多数NoSQL数据库很难实现数据完整性

D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础

正确答案:ACD你选对了

6多选(3分)

NoSQL数据库的类型包括:

A.键值数据库

B.列族数据库

C.文档数据库

D.图数据库

正确答案:ABCD你选对了

7多选(3分)

CAP是指:

A.一致性

B.可用性

C.持久性

D.分区容忍性

正确答案:ABD你选对了

8多选(3分)

NoSQL数据库的BASE特性是指:

A.软状态

B.持续性

C.最终一致性

D.基本可用

正确答案:ACD你选对了

第6章 云数据库

1单选(2分)

下列Amazon的云数据库属于关系数据库的是:

A.Amazon SimpleDB

B.Amazon DynamoDB

C.Amazon RDS

D.Amazon Redshift

正确答案:C你选对了

2单选(2分)

下列关于UMP系统的说法不正确的是:

A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能

B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例

C.UMP系统是低成本和高性能的MySQL云数据库方案

D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

正确答案:D你选对了

3多选(3分)

UMP依赖的开源组件包括

A.LVS

B.ZooKeeper

C.Mnesia

D.RabbitMQ

正确答案:ABCD你选对了

4多选(3分)

在UMP系统中,Zookeeper主要发挥的作用包括:

A.监控所有MySQL实例

B.负责集群负载均衡

C.提供分布式锁,选出一个集群的“总管”

D.作为全局的配置服务器

正确答案:ACD你选对了

5多选(3分)

UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志

B.数据访问IP白名单

C.SSL数据库连接

D.SQL拦截

正确答案:ABCD你选对了

第7章 MapReduce

1单选(2分)

下列说法错误的是:

A.Map函数将输入的元素转换成形式的键值对

B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写

C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave

D.不同的Map任务之间不能互相通信

正确答案:B你选对了

2单选(2分)

在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:

A.<“hello”,1,1>、<“hadoop”,1>和<“world”,1>

B.<“hello”,2>、<“hadoop”,1>和<“world”,1>

C.<“hello”,<1,1>>、<“hadoop”,1>和<“world”,1>

D.<“hello”,1>、<“hello”,1>、<“hadoop”,1>和<“world”,1>

正确答案:D你选对了

3单选(2分)

对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:

A.<“hello”,<1,1>><“hadoop”,1><“world”,1>

B.<“hello”,1><“hello”,1><“hadoop”,1><“world”,1>

C.<“hello”,1,1><“hadoop”,1><“world”,1>

D.<“hello”,2><“hadoop”,1><“world”,1>

正确答案:D你选对了

4多选(3分)

下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:

A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好

B.前者相比后者学习起来更难

C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好

D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

正确答案:ABCD你选对了

5多选(3分)

MapReduce1.0的体系结构主要由哪几个部分组成:

A.JobTracker

B.TaskTracker

C.Client

D.Task

正确答案:ABCD你选对了

第8章 Hadoop再探讨

1单选(2分)

下列说法正确的是:

A.HDFS HA可用性不好

B.第二名称节点是热备份

C.HDFS HA提供高可用性,可以实现可扩展性、系统性能和隔离性

D.第二名称节点无法解决单点故障问题

正确答案:D你选对了

2单选(2分)

HDFS Federation设计不能解决“单名称节点”存在的哪个问题:

A.单点故障问题

B.HDFS集群扩展性

C.性能更高效

D.良好的隔离性

正确答案:A你选对了

3多选(3分)

下列哪些是Hadoop1.0存在的问题:

A.抽象层次低

B.表达能力有限

C.开发者自己管理作业之间的依赖关系

D.执行迭代操作效率低

正确答案:ABCD你选对了

4多选(3分)

下列对Hadoop各组件的理解正确的是:

A.Oozie:工作流和协作服务引擎

B.Pig:处理大规模数据的脚本语言

C.Kafka:分布式发布订阅消息系统

D.Tez:支持DAG作业的计算框架

正确答案:ABCD你选对了

5多选(3分)

对新一代资源管理调度框架YARN的理解正确的是:

A.YARN既是资源管理调度框架,也是一个计算框架

B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务

C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架

D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster

正确答案:BCD你选对了

第9章 数据仓库Hive

1单选(2分)

下列有关Hive和Impala的对比错误的是:

A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

B.Hive与Impala使用相同的元数据

C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

正确答案:D你选对了

2单选(2分)

下列关于Hive基本操作命令的解释错误的是:

A.create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age

B.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

C.create database userdb;//创建数据库userdb

D.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

正确答案:B你选对了

3多选(3分)

下列说法正确的是:

A.Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上

B.数据仓库Hive不需要借助于HDFS就可以完成数据的存储

C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据

D.HiveQL语法与传统的SQL语法很相似

正确答案:ACD你选对了

4多选(3分)

Impala主要由哪几个部分组成:

A.Hive

B.Impalad

C.State Store

D.CLI

正确答案:BCD你选对了

5多选(3分)

以下属于Hive的基本数据类型是:

A.BINARY

B.STRING

C.FLOAT

D.TINYINT

正确答案:ABCD你选对了

第10章 Spark

1单选(2分)

Spark SQL目前暂时不支持下列哪种语言:

A.Python

B.Java

C.Scala

D.Lisp

正确答案:D你选对了

2单选(2分)

RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:

A.groupBy

B.filter

C.count

D.map

正确答案:C你选对了

3单选(2分)

下列说法错误的是:

A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm

B.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN

D.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换

正确答案:D你选对了

4单选(2分)

下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:

A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集

B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集

C.count():返回数据集中的元素个数

D.take(n):返回数据集中的第n个元素

正确答案:D你选对了

5单选(2分)

下列大数据处理类型与其对应的软件框架不匹配的是:

A.复杂的批量数据处理:MapReduce

B.基于历史数据的交互式查询:Impala

C.基于实时数据流的数据处理:Storm

D.图结构数据的计算:Hive

正确答案:D你选对了

6多选(3分)

Apache软件基金会最重要的三大分布式计算系统开源项目包括:

A.Oracle

B.Hadoop

C.Storm

D.Spark

正确答案:ABC你选对了

7多选(3分)

Spark的主要特点包括:

A.运行模式多样

B.运行速度快

C.通用性好

D.容易使用

正确答案:ABCD你选对了

8多选(3分)

下列关于Scala的说法正确的是:

A.Scala运行于Java平台,兼容现有的Java程序

B.Scala具备强大的并发性,支持函数式编程

C.Scala是一种多范式编程语言

D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

正确答案:ABCD你选对了

9多选(3分)

Spark的运行架构包括:

A.运行作业任务的工作节点 Worker Node

B.每个工作节点上负责具体任务的执行进程 Executor

C.每个应用的任务控制节点 Driver

D.集群资源管理器 Cluster Manager

正确答案:ABCD你选对了

你可能感兴趣的:(自动驾驶,pytorch,深度学习)