Apache Tez 介绍(译)

介绍

 Apache Tez 项目提供构建一个负责有向无环图处理任务的应用框架, 这允许一个复杂的定向非循环,图形处理数据的任务。目前,构建在  Apache Hadoop YARN 之上。

Tez 有 2个主要主题:

  • 给终端用户增强以下功能 

    • 数据流定义展示APIs(Expressive dataflow definition APIs)

    • 灵活的输入处理输出运行模式(Flexible Input-Processor-Output runtime model)

    • 数据类型无关(Data type agnostic)

    • 极易部署(Simplifying deployment)

  • 执行性能(Execution Performance)

    • 提升Map  Reduce 性能(Performance gains over Map Reduce)

    • 优化资源管理(Optimal resource management)

    • 运行时计划重新配置(Plan reconfiguration at runtime)

    •  动态物理数据流决策(Dynamic physical data flow decisions)

可以像Apache Hive 和 Apache Pig 项目那样运行任务的一个复杂的 DAG 任务集,Tez 可以用来处理数据,预先分配多个MR Jobs,现在只在一个单一的 Tez job 如下图所示.

Flow for a Hive or Pig Query on MapReduceFlow for a Hive or Pig Query on Tez


译者注:目前 apache  Tez 发展到了 apache Tez 0.8.1-alpha 版本了。本人没有使用过。希望后期能够有机会。

你可能感兴趣的:(tez)