O ' reilly阶层会议暨Hadoop世界2012:Azure HDInsight,Cloudera Impala,MapR M7

在今年的O ' reilly阶层会议暨 Hadoop世界期间,除了一系列非常有趣的报告之外,还有几个关于微软Azure HDInsight、Cloudera Impala和MapR M7等重要供应商的产品发布。

微软和Hortonworks推出它们基于云的Hadoop Azure服务,现在称为Windows Azure HDInsight服务。微软技术研究员大卫•坎贝尔说:

“大数据应该提供商业解决方案,而不是带来IT复杂性。Windows服务器和Azure提供的Hadoop兼容能力显著降低了安装和部署的门槛,使客户能够从任何数据、任何规模、本地或云上获得商业洞察力。”

HDInsight服务器设计在Windows Server和Microsoft SQL Server上工作。在Windows下,HDInsight集成了用于管理控制的Microsoft System Center和用于访问控制与安全的Active Directory。HDInsight(本地和云)支持连接到微软SQL Server以实现商业智能

“……从面向用户的工具和组件(包括Microsoft Excel、PowerPivot Excel和Power View)开始。几乎没有人不使用Excel,它可处理从任何Hadoop环境的提取的数据。”

HDInsight可以使用户在几分钟内旋转和部署Hadoop集群。此服务将与现有的MapReduce服务展开竞争(包括亚马逊Web服务的Elastic Map Reduce)。此外,Azure将运营数据交易市场,使用户能够互相买卖数据。

Cloudera发布了实时查询项目Impala,它服务于几秒钟内完成的实时SQL查询,支持与领先BI工具的集成。Impala提供本地分布式查询引擎和一个低延迟调度器,可以在HDFS和HBase上操作数据存储。它利用了Apache Hive元仓库,兼容Hive SQL语法、ODBC驱动程序和Beeswax GUI(在Hue中)。

Cloudera声称新平台已进入公测,可以以比Hive/MapReduce快10到30倍的效率处理查询。虽然Cloudera的营销材料宣称处理速度为“实时”和“思维速度”,该公司的首席架构师却认为,在数据分析中,“实时”更好的说法是“较少的等待”。

首批Impala的beta测试者之一Expedia说:

“现在,我们能够在一个统一的大数据平台上归档、ETL和分析,而不需要许多不同的系统。……Hadoop的这个演变使我们减少了50%的延迟,并产生了新的真正的商业洞察力服务,而以前是不可行的。”

如果你仔细分析为何公司可处理比以前更多的内部数据时,给你印象最深的就是增加的速度。但这些庞大的数据集还创造很大的后台问题,特别是延迟。

最后,MapR Technologies介绍了他们的新版本——M7,它简化了HBase管理,并使它自己成为企业级数据库平台。

对于M7:

“……该公司与HBase已经共同努力解决了大量的可靠性和管理问题。该公司的目标是简化底层架构,如何让不同的产品在一起工作,并使其尽可能的简单。Norris说,管理平台已更加易用,并且它也为客户提供了统一管理、统一数据保护、一致访问,比之前的平台有更高的灵活性和性能。”

M7白皮书上说:

“M7有一个特制的架构,专门设计用来优化存储,并能在统一平台中处理表和文件。这种统一性应用了MapR已有的管理能力、访问和保护表数据的能力。M7消除了HBase的分层架构,于是HBase应用程序仅通过一个网络中继就可以直接访问数据,无需任何额外的通信层延误。M7架构将文件和表集成到单个数据存储,给HBase应用带来更加简化的管理和开发、极佳的可靠性、空前的性能和可扩展性”

大会的演讲稿、主题演讲和访谈可以从其网站下载。

查看英文原文:News from O’Reilly Strata Conference + Hadoop World 2012: Azure HDInsight, Cloudera Impala, MapR M7

感谢马国耀对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

你可能感兴趣的:(O ' reilly阶层会议暨Hadoop世界2012:Azure HDInsight,Cloudera Impala,MapR M7)