不同实时Hadoop实现之间竞争升温

自从Google的Dremel论文发表以来,Hadoop社区已经在尝试围绕Hadoop实现类似功能。首先出现的是OpenDremel,目前它已经是Apache Drill的一部分,而后者已于去年成为Apache孵化项目。之后,也是在去年,Cloudera引入了Impala,目前仍处于beta状态,它还是Cloudera Hadoop发布版——CDH 4.1的一部分。

Stinger Initiative是该领域新的竞争者,由Hortonworks于上周引入Apache的孵化过程,其目标是:

让Hive能在人的响应时间内处理很多用例(也就是5-30秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有Hive技巧和投资的大型社区带来很多价值。

Hortonworks打算通过以下手段实现该目标:

  • 改进Hive的SQL兼容性,包括支持Hive中没有的SQL类型和‘where’子句中的子查询。
  • 优化Hive的执行计划。
  • 支持新的Hadoop列格式ORCFile(类似于Dremel、Drill和Cloudera的Trevini)。
  • 引入基于YARN的新的运行时框架Tez。

Tez是北印度语的“速度(speed)”,该项目还处于等待投票成为Apache孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化Hadoop中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂DAG(有向无环图)任务的能力,它将MapReduce范型推广为一种更强大的框架,这样Apache Hadoop生态系统中的项目(如Apache Hive、Apache Pig和 Cascading)就能满足人机交互响应时间和PB级规模极端吞吐量的需求了(无疑MapReduce是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop查询实现——Drill、Impala和现在的Stinger或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时Hadoop查询的重要问题。

查看英文原文:Competition between Real-time Hadoop Implementations Heats Up

你可能感兴趣的:(不同实时Hadoop实现之间竞争升温)