大数据与云计算学习(4)

十、流计算
一.单选题
1、流计算秉承一个基本理念,即数据的价值随着时间的流逝而 ,如用户点击流。
A、升高
B、降低
C、不确定
D、不变
正确答案: B
2、Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做 。
A、Tuple
B、Topology
C、Spout
D、Bolt
正确答案: B
二.多选题
1.对于一个流计算系统来说,它应达到如下哪些需求
A、分布式
B、实时性
C、可靠性
D、海量式
正确答案: ABCD
2.数据采集系统的基本架构包括哪些部分
A、Collector
B、Store
C、Agent
D、Controller
正确答案: ABC
3.以下哪些是开源的流计算框架
A、Twitter Storm
B、IBM InfoSphere Streams
C、Yahoo! S4
D、Facebook Puma
正确答案: AC
答案解析:
商业级:IBM InfoSphere Streams和IBM StreamBase;公司为支持自身业务开发的流计算框架Facebook Puma
4.Storm中的Stream Groupings有哪几种方式
A、不分组
B、全局分组
C、广播发送
D、随机分组
正确答案: ABCD
三.填空题
1.流计算处理过程一般包含三个阶段:( ),数据实时计算和实时查询服务。
正确答案:
第一空:
数据实时采集
2.Spark Streaming最主要的抽象是( ) ,中文全称是离散化数据流,表示连续不断的数据流。
正确答案:
第一空:
DStream
第二空:
Discretized Stream
3.Spark Streaming的流数据单位是( ),Samza的流数据单位是消息。
正确答案:
第一空:
DStream
四.判断题
1.Spark Streaming和Storm最大的区别在于:Spark Streaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。
正确答案:√
十一、基于Hadoop的数据仓库Hive.xls
一.单选题
1.下列有关Hive和Impala的对比错误的是11
A、Hive与Impala使用相同的元数据
B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
C、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
D、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
正确答案: C
2.下列关于Hive基本操作命令的解释错误的是
A、create database userdb;//创建数据库userdb
B、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
C、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,agecr
D、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
正确答案: D
答案解析:
overwrite覆盖原有数据
二.多选题
1.下列说法正确的是
A、HiveQL语法与传统的SQL语法很相似
B、数据仓库Hive不需要借助于HDFS就可以完成数据的存储
C、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
D、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
正确答案: ACD
答案解析:
定义了简单的类似SQL 的查询语言——HiveQL,用户可以通过编写的HiveQL语句运行MapReduce任务
2.Impala主要由哪几个部分组成
A、State Store
B、Hive
C、Impalad
D、CLI
正确答案: ACD
3.以下属于Hive的基本数据类型是
A、FLOAT
B、BINARY
C、TINYINT
D、STRING
正确答案: ABCD
答案解析:
TINYINT 1个字节(8位)有符号整数
十二、图计算
一.单选题(共2题,28.4分)
1.Pregel是一种基于 模型实现的并行图处理系统
A、TSP
B、BSP
C、STP
D、SBP
正确答案: B
2.谷歌在后Hadoop时代的新“三驾马车”不包括
A、Pregel
B、Hama
C、Caffeine
D、Dremel
正确答案: B
答案解析:
Caffeine Dremel Pregel
二.多选题
1.下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架
A、Giraph
B、Neo4j
C、Pregel
D、Hama
正确答案: ACD
答案解析:
GoldenOrb、Giraph、Pregel和Hama;遍历算法的、实时的图数据库,如Neo4j、OrientDB、DEX和 Infinite Graph
2.以下关于Pregel图计算框架说法正确的是
A、Aggregator提供了一种全局通信、监控和数据查看的机制
B、通常只对满足交换律和结合律的操作才会开启Combiner功能
C、Pregel采用检查点机制来实现容错
D、对于全局拓扑改变,Pregel采用了惰性协调机制
正确答案: ABCD
三.填空题
1.Pregel的计算过程是由一系列被称为( ) 的迭代组成的。
正确答案:
第一空:
超步
2.Pregel图计算框架的顶点通讯是通过 ( ) 来实现的。
正确答案:
第一空:
消息传递
四.判断题(共1题,14.8分)
1.Hama是Google Pregel的开源实现,是在HDFS上实现的BSP计算框架,弥补Hadoop在计算能力上的不足。
正确答案:√

你可能感兴趣的:(知识学习)