Apache Tez

参考资料:

官方blog:

http://hortonworks.com/blog/author/arun_murthy/

svn源码:

http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/

看到一篇很不错的文章:

http://dongxicheng.org/mapreduce-nextgen/apache-tez/

Tez安装:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/bk_installing_manually_book/content/rpm-chap-tez.html


名称解释:

DAG:Directed Acyclic Graph 无环有向图


Tez将Map task和Reduce task进一步拆分,



Apache Tez_第1张图片

Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作。


Apache Tez_第2张图片

这样,这些分解后的元操作可以任意灵活组合,产生新的操作单元Task.


举个例子:

在传统的MR如下左图所示,而采用Tez之后则将DAG的依赖关系去除,Tez将有依赖关系的作业转换为一个作业,如下右图所示。




           Apache Tez_第3张图片Apache Tez_第4张图片



                                         Pig/Hive -MR                                                  Pig/Hive -Tez



代码结构图如下:


Apache Tez_第5张图片


•tez-api:六个可编程组件
•tez-common
•tez-engine
•tez-mapreducetez-task-library: Tez为兼容MR提供的组件
•tez-yarn-application
•tez-yarn-client





你可能感兴趣的:(Hadoop)