Apache hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。
第三方发行版Hadoop:Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本。其中有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品,比如Cloudera的CDH,Hortonworks的HDP,MapR的MapR产品等。
Apache社区版本
第三方发行版本(如CDH,HDP,MapR等)
1、排名前十的Hadoop提供商
我们可以看到,在通过“Views”,“Comparisons”,“Reviews”,“Followers”,“Average Rating”的综合比较后,CDH具有较高的可选择性。所有的数据是通过 IT Central Station research 网站进行综合计算的,这是一个超过127,030专业用户的技术测评网站,且所有测评经过了第三方的验证。
2、各Hadoop发行版本比较
通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。
2.1、CDH
最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。
改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。
Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)
Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。
2.2、HDP
不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。
2、各Hadoop发行版本比较
通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。
2.1、CDH
最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。
改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。
Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)
Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。
2.2、HDP
不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。
2、各Hadoop发行版本比较
通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。
2.1、CDH
最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。
改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。
Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)
Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。
2.2、HDP
不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。
2、各Hadoop发行版本比较
通过比较,我们看到,排名前十的Hadoop发行版中,只有CDH、HDP、Apache、MapR是开源的软件,其他都是闭源软件,暂时不参与讨论。MapR由于在分布存储上不采用HDFS,而是重写了HDFS,所以,暂时也不讨论它。那么,我们只进行第三方商业发行版CDH、HDP之间的比较。
2.1、CDH
最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。拥有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
Cloudera Manager 是 提供易用性、特性、易于升级和安装组件等最有价值的功能。CM也可以在几分钟之内建立集群主节点的高可用性(high availability)。其他功能,例如,Hive,Pig,Impala,Flume和Spark也是极具价值的。
改进了存储和分析工具的可用性,如Hive,Pig,Impala和Spark的使用。
Impala的不断改进。(Impala 是基于HDFS的SQL工具,cloudera开发,现开源。)
Impala为Hadoop上的 BI /分析查询 提供低延迟和高并发性(不由批处理框架(如Apache Hive)提供)。 Impala也可以线性扩展,即使在多租户环境中也是如此。利用与Hadoop部署相同的文件和数据格式以及元数据,安全性和资源管理框架 - 无需冗余基础架构或数据转换/复制。对于Apache Hive用户,Impala使用相同的元数据和ODBC驱动程序。 像Hive一样,Impala支持SQL,所以你不必担心重新创建、重复造轮子。
2.2、HDP
不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。