Cloudera Distribution Containing Apache Hadoop 5概述

近日,Cloudera发布了最新的软件发行版CDH5。此次发布距离上一个主要版本发布将近20个月了,CDH4似乎已经在Big Data世界里存在了好多年。

在从包括英特尔和谷歌风投在内的投资公司那里获得了9亿美元的资金后,Cloudera正全速发展,将Hadoop从一个面向数据科学家的利基工具转成一个存储和处理所有数据的集中地。按Tim Stevens的说法,Cloudera Enterprise 5“是一个真正的企业级数据中心”。

Cloudera Enterprise 5包含CDH5、Cloudera Manager 5和Cloudera Navigator,其中Cloudera Navigator是一款面向Big Data数据管理方面的工具。

CDH5的主要特点是使用YARN提供了可用于生产环境的MR2。Cloudera Manager也支持MR2,而且CDH5还向后兼容MR1。不过,Cloudera建议将YARN和CDH5一起使用。使用YARN,用户可以并行运行SQL、MapReduce和Spark工作负载,而且可以获得更好的整体资源利用率。

现在,Apache Spark包含在CDH5中。Cloudera宣称,使用Spark,作业的部分或全部阶段都是在内存中运行,作业执行速度快5到100倍。最近,Spark从Apache孵化器毕业,在整个2013年发展势头强劲,有超过100名贡献者为项目提供帮助。将Spark集成进CDH5可以扩展Hadoop的用途,使其不局限于批处理,还可用于实时分析。除Cloudera之外,MapR最近也宣布在面向Apache Hadoop的MapR发行版中支持整个Spark技术栈。

有了CDH5,SQL查询现在通过Cloudera Impala以及Hive包含在CDH中。SQL支持的特性差异可能正是这两种解决方案的独特之处。

Cloudera搜索集成进CDH5,这也意味着任何文件或对象都可以近乎实时地索引和搜索。该功能基于Apache Solr,尽管其目的不是成为一个通用的搜索解决方案,但它提供了面向CDH中所有数据的全文搜索功能。

Cloudera Enterprise 5可以集成超过100款合作伙伴产品,这有助于将CDH数据集与流行的预测分析工具集成。数据科学家可以使用他们最喜欢的工具,如SAS或Revolution Analytics,而且工程开销更小。

此外,它还包含完备的灾难恢复、自动备份与还原工具以及更好的访问控制。Cloudera将IBM和Pivotal看作其主要竞争对手,而不是Hortonworks和MapR,企业数据中心是其努力的中心。

查看英文原文:A Roundup of Cloudera Distribution Containing Apache Hadoop 5

你可能感兴趣的:(Cloudera Distribution Containing Apache Hadoop 5概述)