大数据技术原理与应用——练习题

第一章 大数据概述

1第三次信息化浪潮的标志是:

  • A.互联网的普及

  • B.云计算、大数据、物联网技术的普及

  • C.个人电脑的普及

  • D.虚拟现实技术的普及

2就数据的量级而言,1PB数据是多少TB?

  • A.1000

  • B2048

  • C.1024

  • D.512

3以下关于云计算、大数据和物联网之间的关系,论述错误的是:

  • A.物联网可以借助于云计算实现海量数据的存储

  • B.物联网可以借助于大数据实现海量数据的分析

  • C.云计算侧重于数据分析

  • D.云计算、大数据和物联网三者紧密相关,相辅相成

4以下哪个不是大数据时代新兴的技术:

  • A.HBase

  • B.Spark

  • C.MySQL

  • D.Hadoop

5每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:

  • A.Storm

  • B.MapReduce

  • C.Pregel

  • D.Dremel

6每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:

  • A.S4

  • B.Hive

  • C.GraphX

  • D.Impala

7每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:

  • A.Flume

  • B.Pregel

  • C.Storm

  • D.Cassandra

8每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:

  • A.S4

  • B.HDFS

  • C.Dremel

  • D.MapReduce

9数据产生方式大致经历了三个阶段,包括:

  • A.感知式系统阶段

  • B.移动互联网数据阶段

  • C.运营式系统阶段

  • D.用户原创内容阶段

10大数据发展的三个阶段是:

  • A.成熟期

  • B.低谷期

  • C.大规模应用期

  • D.萌芽期

11大数据的特性包括:

  • A.价值密度低

  • B.数据量大

  • C.处理速度快

  • D.数据类型繁多

12图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:

  • A.数据密集型科学

  • B.理论科学

  • C.计算科学

  • D.实验科学

13大数据带来思维方式的三个转变是:

  • A.精确而非全面

  • B.相关而非因果

  • C.全样而非抽样

  • D.效率而非精确

14大数据主要有哪几种计算模式:

  • A.查询分析计算

  • B.图计算

  • C.流计算

  • D.批处理计算

15云计算的典型服务模式包括三种:

  • A.SaaS

  • B.IaaS

  • C.MaaS

  • D.PaaS

第2章 大数据处理架构Hadoop

1启动hadoop所有进程的命令是:

  • A.start-all.sh

  • B.start-hdfs.sh

  • C.start-dfs.sh

  • D.start-hadoop.sh

2以下对Hadoop的说法错误的是:

  • A.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

  • B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性

  • C.Hadoop的核心是HDFS和MapReduce

  • D.Hadoop是基于Java语言开发的,只支持Java语言编程

3以下哪个不是Hadoop的特性:

  • A.支持多种编程语言

  • B.高容错性

  • C.成本高

  • D.高可靠性

4以下名词解释不正确的是:

  • A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

  • B.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

  • C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储

  • D.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现

5以下哪些组件是Hadoop的生态系统的组件:

  • A.MapReduce

  • B.HBase

  • C.Oracle

  • D.HDFS

6以下哪个命令可以用来操作HDFS文件:

  • A.hadoop fs

  • B.hdfs dfs

  • C.hadoop dfs

  • D.hdfs fs

第3章 分布式文件系统HDFS

1HDFS的命名空间不包含:

  • A.块

  • B.字节

  • C.文件

  • D.目录

2对HDFS通信协议的理解错误的是:

  • A.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

  • B.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的

  • C.HDFS通信协议都是构建在IoT协议基础之上的

  • D.名称节点和数据节点之间则使用数据节点协议进行交互

3采用多副本冗余存储的优势不包含:

  • A.节约存储空间

  • B.保证数据可靠性

  • C.加快数据传输速度

  • D.容易检查数据错误

4假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:

  • A.start-dfs.sh,stop-dfs.sh

  • B.start-hdfs.sh,stop-dfs.sh

  • C.start-hdfs.sh,stop-hdfs.sh

  • D.start-dfs.sh,stop-hdfs.sh

5分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫    ,另一类存储具体数据叫    :

  • A.名称节点,数据节点

  • B.名称节点,主节点

  • C.数据节点,名称节点

  • D.从节点,主节点

6下面关于分布式文件系统HDFS的描述正确的是:

  • A.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现

  • B.分布式文件系统HDFS比较适合存储大量零碎的小文件

  • C.分布式文件系统HDFS是Google Bigtable的一种开源实现

  • D.分布式文件系统HDFS是一种关系型数据库

7以下对名称节点理解正确的是:

  • A.名称节点通常用来保存元数据

  • B.名称节点的数据保存在内存中

  • C.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问

  • D.名称节点用来负责具体用户数据的存储

8以下对数据节点理解正确的是:

  • A.数据节点通常只有一个

  • B.数据节点用来存储具体的文件内容

  • C.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

  • D.数据节点的数据保存在磁盘中

9HDFS只设置唯一一个名称节点带来的局限性包括:

  • A.隔离问题

  • B.性能的瓶颈

  • C.集群的可用性

  • D.命名空间的限制

10以下HDFS相关的shell命令不正确的是:

  • A.hadoop fs -ls :显示指定的文件的详细信息

  • B.hadoop dfs mkdir :创建指定的文件夹

  • C.hadoop fs -copyFromLocal :将路径指定的文件或文件夹复制到路径指定的文件夹中

  • D.hdfs dfs -rm :删除路径指定的文件

第4章 分布式数据库HBase

1HBase是一种    数据库

  • A.关系数据库

  • B.文档数据库

  • C.行式数据库

  • D.列式数据库

2下列对HBase数据模型的描述错误的是:

  • A.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳

  • B.每个HBase表都由若干行组成,每个行由行键(row key)来标识

  • C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本

  • D.HBase列族支持动态扩展,可以很轻松地添加一个列族或列

3下列说法正确的是:

  • A.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

  • B.如果不启动Hadoop,则HBase完全无法使用

  • C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据

  • D.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器

4在HBase数据库中,每个Region的建议最佳大小是:

  • A.100MB-200MB

  • B.500MB-1000MB

  • C.2GB-4GB

  • D.1GB-2GB

5HBase三层结构的顺序是:

  • A..MEATA.表,Zookeeper文件,-ROOT-表

  • B.Zookeeper文件,-ROOT-表,.MEATA.表

  • C.-ROOT-表,Zookeeper文件,.MEATA.表

  • D.Zookeeper文件,.MEATA.表,-ROOT-表

6客户端是通过    级寻址来定位Region:

  • A.三

  • B.一

  • C.四

  • D.二

7关于HBase Shell命令解释错误的是:

  • A.put:向表、行、列指定的单元格添加数据

  • B.create:创建表

  • C.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

  • D.list:显示表的所有数据

8下列对HBase的理解正确的是:

  • A.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件

  • B.HBase多用于存储非结构化和半结构化的松散数据

  • C.HBase是针对谷歌BigTable的开源实现

  • D.HBase是一种关系型数据库,现成功应用于互联网服务领域

9HBase和传统关系型数据库的区别在于哪些方面:

  • A.数据操作

  • B.数据模型

  • C.存储模式

  • D.数据索引

10访问HBase表中的行,有哪些方式:

  • A.通过一个行健的区间来访问

  • B.通过单个行健访问

  • C.全表扫描

  • D.通过某列的值区间

 

 

第5章 NoSQL数据库 单元测验

1下列关于NoSQL数据库和关系型数据库的比较,不正确的是:

  • A.NoSQL数据库具有弱一致性,关系型数据库具有强一致性

  • B.NoSQL数据库的可扩展性比传统的关系型数据库更好

  • C.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性

  • D.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

2以下对各类数据库的理解错误的是:

  • A.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

  • B.文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中

  • C.HBase数据库是列族数据库,可扩展性强,支持事务一致性

  • D.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等

3下列数据库属于文档数据库的是:

  • A.MongoDB

  • B.HBase

  • C.Redis

  • D.MySQL

4NoSQL数据库的三大理论基石不包括:

  • A.CAP

  • B.ACID

  • C.最终一致性

  • D. BASE

5关于NoSQL数据库和关系数据库,下列说法正确的是:

  • A.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础

  • B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

  • C.大多数NoSQL数据库很难实现数据完整性

  • D.NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力

6NoSQL数据库的类型包括:

  • A.图数据库

  • B.列族数据库

  • C.键值数据库

  • D.文档数据库

7CAP是指:

  • A.分区容忍性

  • B.一致性

  • C.可用性

  • D.持久性

8NoSQL数据库的BASE特性是指:

  • A.持续性

  • B.基本可用

  • C.软状态

  • D.最终一致性

第6章 云数据库 

1下列Amazon的云数据库属于关系数据库的是:

  • A.Amazon DynamoDB

  • B.Amazon RDS

  • C.Amazon Redshift

  • D.Amazon SimpleDB

2下列关于UMP系统的说法不正确的是:

  • A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能

  • B.UMP系统是低成本和高性能的MySQL云数据库方案

  • C. Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例

  • D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

3UMP依赖的开源组件包括:

  • A.ZooKeeper

  • B.RabbitMQ

  • C.LVS

  • D.Mnesia

4在UMP系统中,Zookeeper主要发挥的作用包括:

  • A.负责集群负载均衡

  • B.作为全局的配置服务器

  • C.监控所有MySQL实例

  • D.提供分布式锁,选出一个集群的“总管”

5UMP系统设计了哪些机制来保证数据安全:

  • A.记录用户操作日志

  • B.SQL拦截

  • C.SSL数据库连接

  • D.数据访问IP白名单

第7章 MapReduce

1下列说法错误的是:

  • A.Map函数将输入的元素转换成形式的键值对

  • B.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave

  • C.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写

  • D.不同的Map任务之间不能互相通信

2在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:

  • A.<"hello",2>、<"hadoop",1>和<"world",1>

  • B.<"hello",<1,1>>、<"hadoop",1>和<"world",1>

  • C.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

  • D.<"hello",1,1>、<"hadoop",1>和<"world",1>

3对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:

  • A.<"hello",2><"hadoop",1><"world",1>

  • B.<"hello",1><"hello",1><"hadoop",1><"world",1>

  • C.<"hello",<1,1>><"hadoop",1><"world",1>

  • D.<"hello",1,1><"hadoop",1><"world",1>

4下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:

  • A.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好

  • B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好

  • C.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

  • D.前者相比后者学习起来更难

5MapReduce1.0的体系结构主要由哪几个部分组成:

  • A.TaskTracker

  • B.JobTracker

  • C.Client

  • D.Task

第8章 Hadoop再探讨

1下列说法正确的是:

  • A.第二名称节点是热备份

  • B.HDFS HA可用性不好

  • C.第二名称节点无法解决单点故障问题

  • D.HDFS HA提供高可用性,可以实现可扩展性、系统性能和隔离性

2HDFS Federation设计不能解决“单名称节点”存在的哪个问题:

  • A.HDFS集群扩展性

  • B.性能更高效

  • C.单点故障问题

  • D.良好的隔离性

3下列哪些是Hadoop1.0存在的问题:

  • A.表达能力有限

  • B.开发者自己管理作业之间的依赖关系

  • C.抽象层次低

  • D.执行迭代操作效率低

4下列对Hadoop各组件的理解正确的是:

  • A.Kafka:分布式发布订阅消息系统

  • B.Pig:处理大规模数据的脚本语言

  • C.Tez:支持DAG作业的计算框架

  • D.Oozie:工作流和协作服务引擎

5对新一代资源管理调度框架YARN的理解正确的是:

  • A.YARN既是资源管理调度框架,也是一个计算框架

  • B.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架

  • C.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务

  • D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster

第9章 数据仓库Hive

1下列有关Hive和Impala的对比错误的是:

  • A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

  • B.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

  • C.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

  • D.Hive与Impala使用相同的元数据

2下列关于Hive基本操作命令的解释错误的是:

  • A.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

  • B.create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age

  • C.create database userdb;//创建数据库userdb

  • D.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

3下列说法正确的是:

  • A.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据

  • B.Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上

  • C.HiveQL语法与传统的SQL语法很相似

  • D.数据仓库Hive不需要借助于HDFS就可以完成数据的存储

4Impala主要由哪几个部分组成:

  • A.Hive

  • B.State Store

  • C.Impalad

  • D.CLI

5以下属于Hive的基本数据类型是:

  • A.STRING

  • B.FLOAT

  • C.TINYINT

  • D.BINARY

第10章 Spark

1Spark SQL目前暂时不支持下列哪种语言:

  • A.Scala

  • B.Python

  • C.Lisp

  • D.Java

2RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:

  • A.filter

  • B.groupBy

  • C.count

  • D.map

3下列说法错误的是:

  • A.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN

  • B.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换

  • C.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

  • D.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm

4下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是

  • A. count():返回数据集中的元素个数

  • B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集

  • C.take(n):返回数据集中的第n个元素

  • D.filter(func):筛选出满足函数func的元素,并返回一个新的数据集

5下列大数据处理类型与其对应的软件框架不匹配的是:

  • A.基于实时数据流的数据处理:Storm

  • B.复杂的批量数据处理:MapReduce

  • C.基于历史数据的交互式查询:Impala

  • D.图结构数据的计算:Hive

6Apache软件基金会最重要的三大分布式计算系统开源项目包括:

  • A.Oracle

  • B.Storm

  • C.Spark

  • D.Hadoop

7Spark的主要特点包括:

  • A.运行模式多样

  • B.通用性好

  • C.容易使用

  • D.运行速度快

8下列关于Scala的说法正确的是:

  • A.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

  • B.Scala具备强大的并发性,支持函数式编程

  • C.Scala是一种多范式编程语言

  • D.Scala运行于Java平台,兼容现有的Java程序

9Spark的运行架构包括:

  • A.每个应用的任务控制节点 Driver

  • B.集群资源管理器 Cluster Manager

  • C.运行作业任务的工作节点 Worker Node

  • D.每个工作节点上负责具体任务的执行进程 Executor

第11章 流计算

1流计算秉承一个基本理念,即数据的价值随着时间的流逝而     ,如用户点击流:

  • A.升高

  • B.不变

  • C.降低

  • D.不确定

2Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做       

  • A.Topology

  • B.Bolt

  • C.Spout

  • D.Tuple

3对于一个流计算系统来说,它应达到如下哪些需求:

  • A.高性能

  • B.海量式

  • C.分布式

  • D.实时性

4数据采集系统的基本架构包括哪些部分:

  • A.Agent

  • B.Collector

  • C.Controller

  • D.Store

5以下哪些是开源的流计算框架:

  • A.Twitter Storm

  • B.Facebook Puma

  • C.Yahoo! S4

  • D.IBM InfoSphere Streams

6下面哪几个属于Storm中的Stream Groupings的分组方式:

  • A.广播发送

  • B.按照字段分组

  • C.全局分组

  • D.随机分组

第12章 Flink

1以下哪个不是Flink的优势:

  • A.同时支持流处理和批处理

  • B.同时支持高吞吐、低延迟、高性能

  • C.不支持增量迭代

  • D.支持有状态计算

2在Flink中哪个是基于批处理的图计算库:

  • A.SQL&Table库

  • B.Gelly

  • C.FlinkML

  • D.CEP

3下面关于Flink的说法正确的是:

  • A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的

  • B.Flink是Apache软件基金会的5个最大的大数据项目之一

  • C.Flink不是Apache软件基金会的项目

  • D.Flink可以同时支持实时计算和批量计算

4Flink的主要特性包括:

  • A.事件时间支持

  • B.精密的状态管理

  • C.精确一次的状态一致性保障

  • D.批流一体化

5下面论述正确的是:

  • A.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态

  • B.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理

  • C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求

  • D.Spark Streaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力

6Flink常见的应用场景包括:

  • A.数据流水线应用

  • B.事件驱动型应用

  • C.地图应用

  • D.数据分析应用

7Flink核心组件栈分为哪三层:

  • A.物理部署层

  • B.API&Libraries层

  • C.Core层

  • D.Runtime核心层

8Flink有哪几种部署模式:

  • A.Standalone集群模式

  • B.YARN集群模式

  • C.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上

  • D.Local模式

9Flink系统主要由两个组件组成,分别为:

  • A.TaskScheduler

  • B.JobManager

  • C.TaskManager

  • D.JobScheduler

10在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:

  • A.Table API

  • B.SQL

  • C.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)

  • D.状态化的数据流接口

第13章 图计算

1Pregel是一种基于      模型实现的并行图处理系统:

  • A.BSP

  • B.STP

  • C.SBP

  • D.TSP

2谷歌在后Hadoop时代的新“三驾马车”不包括:

  • A.Caffeine

  • B.Hama

  • C.Dremel

  • D.Pregel

3下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:

  • A.Neo4j

  • B.Hama

  • C.Pregel

  • D.Giraph

4以下关于Pregel图计算框架说法正确的是:

  • A.通常只对满足交换律和结合律的操作才会开启Combiner功能

  • B.Aggregator提供了一种全局通信、监控和数据查看的机制

  • C.对于全局拓扑改变,Pregel采用了惰性协调机制

  • D.Pregel采用检查点机制来实现容错

第14章 大数据在不同领域的应用

1下列说法错误的是:

  • A.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法

  • B.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品

  • C.UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化

  • D.UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品

2推荐方法包括哪些类型:

  • A.基于内容的推荐

  • B.专家推荐

  • C.协同过滤推荐

  • D.基于统计的推荐

期末考试

1数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:

  • A.用户原创内容阶段

  • B.数据流阶段

  • C.运营式系统阶段

  • D.感知式系统阶段

2第三次信息化浪潮的发生标志是以下哪种技术的普及:

  • A.互联网

  • B.个人计算机

  • C.CPU

  • D.物联网、云计算和大数据

3在Flink中哪个是基于批处理的图计算库:

  • A.CEP

  • B. FlinkML

  • C. Gelly

  • D.SQL&Table库

4Hadoop的两大核心是      和       

  • A.GFS; MapReduce

  • B.MapReduce; HBase

  • C. HDFS; HBase

  • D.HDFS; MapReduce

5HDFS默认的一个块大小是       

  • A. 32KB

  • B.64MB

  • C.16KB

  • D.8KB

6分布式文件系统HDFS中,         负责数据的存储和读取:

  • A.名称节点

  • B.数据节点

  • C.第二名称节点

  • D.主节点

7上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:

  • A.hdfs dfs -put file.txt /path

  • B.hdfs dfs -put  /path  file.txt

  • C.hadoop dfs -put /path file.txt

  • D.hdfs fs -put file.txt /path

8在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:

  • A.hadoop dfs -mkdir /test/dir

  • B.hdfs dfs *mkdir -p /test/dir

  • C.hadoop fs -mkdir -p /test/dir

  • D.hdfs fs -mkdir -p /test/dir

9下列有关HBase的说法正确的是:

  • A.HBase数据库表可以设置该表任意列作为索引

  • B.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库

  • C.HBase是一种NoSQL数据库

  • D.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库

10已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:

  • A.put 'student','2015001','88'

  • B.put 'student','2015001','math','88'

  • C.put 'student','2015001','score:math','88'

  • D.put 'student','score:math','88'

11NoSQL数据库的三大理论基石不包括:

  • A.ACID

  • B.CAP

  • C.最终一致性

  • D.BASE

12在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):

  • A.<"hello",2>、<"bigdata",1>和<"hadoop",1>

  • B.<"hello",1,1>、<"bigdata",1>和<"hadoop",1>

  • C.<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>

  • D.<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>

13假设已经配置好PATH环境变量,启动Hadoop的命令是:

  • A.start-hdfs.sh

  • B.start-fs.sh

  • C.start-hadoop.sh

  • D.start-dfs.sh

14下列说法错误的是:

  • A.第二名称节点是热备份,而HDFS HA不是热备份

  • B.第二名称节点无法解决单点故障问题

  • C.HDFS Federation使得HDFS的命名服务能够水平扩展

  • D.HDFS HA可以解决单点故障问题

15RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:

  • A.join

  • B.groupBy

  • C.map

  • D.collect

16下列关于Hive的说法正确的是:

  • A.Hive不支持索引

  • B.Hive支持频繁数据更新

  • C.Hive支持批量导入

  • D.Hive的可扩展性差

17大数据的特点包括:

  • A.数据种类繁多

  • B.处理速度快

  • C.价值密度低

  • D.数据量大

18下列适用于批处理计算的框架有哪些:

  • A.Storm

  • B.Spark

  • C.Pregel

  • D.MapReduce

19下列适用于流计算的框架有哪些:

  • A.Spark Streaming

  • B.Pregel

  • C.Dremel

  • D.Storm

20Flink核心组件栈分为哪三层:

  • A.Core层

  • B.API&Libraries层

  • C.Runtime核心层

  • D.物理部署层

21从技术架构上来看,物联网可以分为哪几层:

  • A.感知层

  • B.网络层

  • C.处理层

  • D.应用层

22HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:

  • A.时间戳

  • B.列限定符

  • C.行键

  • D.列族

23典型的NoSQL数据库的类型包括:

  • A.键值数据库

  • B.文档数据库

  • C.图数据库

  • D.列族数据库

24CAP是指:

  • A.可用性

  • B.持久性

  • C.一致性

  • D.分区容忍性

25云计算主要包括哪3种类型:

  • A.IaaS

  • B.CaaS

  • C.PaaS

  • D.SaaS

26以下属于流计算的应用有哪些:

  • A.根据过去一年购物记录判断用户的消费能力

  • B.数据仓库数据批处理分析

  • C.购物网站的广告推荐

  • D.实时交通路线推荐

27下列关于图计算产品Pregel的说法正确的是:

  • A.Pregel是一种基于BSP模型实现的并行图处理系统

  • B.当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突

  • C.在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变

  • D.传统的图计算框架通常表现出比较好的内存访问局部性

28下列哪些是图计算框架Pregel的应用:

  • A.PageRank

  • B.单源最短路径

  • C.流数据处理

  • D.二分匹配

29关于Spark的特性说法正确的是:

  • A. Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活

  • B.Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

  • C.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

  • D.Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制

30BASE的基本含义是:

  • A.持续性

  • B.基本可用

  • C.软状态

  • D.最终一致性

31Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

  • A.错

  • B.对

32HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

  • A.对

  • B.错

33在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

  • A.对

  • B.错

34HDFS可以高效存储大量的小文件。

  • A.对

  • B.错

35FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

  • A.对

  • B.错

36第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

  • A.错

  • B.对

37HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

  • A.错

  • B.对

38NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

  • A.错

  • B.对

39传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

  • A.对

  • B.错

40MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

  • A.错

  • B.对

41Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据.

  • A.错

  • B.对

42协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

  • A.错

  • B.对

43Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。

  • A.错

  • B.对

你可能感兴趣的:(Mooc学习,大数据)