MapReduce(6)特性

##08.20

1、计数器

1.1、MapReduce包含的高级特性,计数器,数据集的排序和连接

1.2、计数器作用,收集作业统计信息,质量控制或者应用级统计,辅助诊断系统故障

1.3、计数器分组 MapReduce任务计数器、文件系统计数器、fileinputformat计数器、fileoutputformat计数器、作业计数器,各组要么包含任务计数器。要么包含作业计数器

1.4、任务计数器,任务执行活成中采集任务相关信息,每个作业所有任务结果会被聚集起来,例如map_input_records

1.5、任务计数器每次传输给master都是完成的传输,而非自上次传输之后的计数值,避免消息丢失引发错误,任务执行期间失败,相关计数器值会减小

1.6、作业计数器由master维护,无需网络间传输数据

1.7、java可以自定义计数器,如,数据不规范记录计数器

2、排序

2.1、排序是MapReduce的核心计数,尽管应用本身可能不需要排序,但是仍可能使用MapReduce排序功能组织数据

2.2、部分排序、全排序、辅助排序

3、连接

3.1、MapReduce能执行大型数据间的连接操作,如果由mapper连接,则是mapper端连接,如果由reducer连接,则称为reduce端连接

3.2、map端连接:map函数执行执行连接,各个map输入数据必须先分区并且以特定方式排序。各个输入数据集会被划分成相同数量的分区,并且按照相同的连接键排序。同一键的所有记录均会放在同一分区之中

3.3、reduce端连接:由于reduce端连接并不要求输入数据集符合特定结构,因为更为常用。因为需要经过shuffle,所以效率会低一些。mapper为各个记录标记源,并使用连接键作为map输出键,相同键的记录放在同一个reducer中


上回半信史时代讲完,此回话信史时代

公元前九世纪五十年代,半信史时代结束,文字记载妥善保存,信史时代开始

周朝第十任国王姬胡 周厉王时期,公元前842年发生政变,国王出逃

周王朝受西北犬戎部落攻击,几乎灭亡,十二任王姬宫涅(周幽王)被杀,首都从镐京东迁洛阳,国王权威迅速衰微。

七十年代,进入历时二百余年春秋时代,知道公元前五世纪末

东迁后,史学家称为东周,之前称为西周

你可能感兴趣的:(MapReduce(6)特性)