大数据技术原理与应用第7讲:MapReduce

大数据技术原理与应用第7讲:MapReduce_第1张图片

MapReduce分布式并行编程

大数据技术原理与应用第7讲:MapReduce_第2张图片

大数据技术原理与应用第7讲:MapReduce_第3张图片大数据技术原理与应用第7讲:MapReduce_第4张图片

大数据技术原理与应用第7讲:MapReduce_第5张图片

大数据技术原理与应用第7讲:MapReduce_第6张图片

MapReduce单元测验

1单选
下列说法错误的是
A.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
B.Map函数将输入的元素转换成形式的键值对
C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
D.不同的Map任务之间不能互相通信

2单选
在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A.
<"hello",<1,1>>、<"hadoop",1>和<"world",1>
B.
<"hello",2>、<"hadoop",1>和<"world",1>
C.
<"hello",1,1>、<"hadoop",1>和<"world",1>
D.
<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

3单选
对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是

A.
<"hello",2><"hadoop",1><"world",1>

B.
<"hello",1><"hello",1><"hadoop",1><"world",1>

C.
<"hello",<1,1>><"hadoop",1><"world",1>

D.
<"hello",1,1><"hadoop",1><"world",1>

4多选
下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是

A.前者相比后者学习起来更难
B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
D.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好

5多选
MapReduce体系结构主要由哪几个部分组成

A.Client
B.TaskTracker
C.Task
D.JobTracker

6判断
MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。


7判断
两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>


8填空
MapReduce采用(   )策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。

分而治之

9填空
所谓(  )过程,是指对Map输出结果进行分区、排序、合并等处理,并交给Reduce的过程。

Shuffle
 

你可能感兴趣的:(Everyday)