MapReduce分布式并行编程
1单选
下列说法错误的是
A.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
B.Map函数将输入的元素转换成
C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
D.不同的Map任务之间不能互相通信
2单选
在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A.
<"hello",<1,1>>、<"hadoop",1>和<"world",1>
B.
<"hello",2>、<"hadoop",1>和<"world",1>
C.
<"hello",1,1>、<"hadoop",1>和<"world",1>
D.
<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>
3单选
对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是
A.
<"hello",2><"hadoop",1><"world",1>
B.
<"hello",1><"hello",1><"hadoop",1><"world",1>
C.
<"hello",<1,1>><"hadoop",1><"world",1>
D.
<"hello",1,1><"hadoop",1><"world",1>
4多选
下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是
A.前者相比后者学习起来更难
B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
D.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
5多选
MapReduce体系结构主要由哪几个部分组成
A.Client
B.TaskTracker
C.Task
D.JobTracker
6判断
MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。
对
7判断
两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>
错
8填空
MapReduce采用( )策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。
分而治之
9填空
所谓( )过程,是指对Map输出结果进行分区、排序、合并等处理,并交给Reduce的过程。
Shuffle