3 大数据平台超越 Hadoop

Hadoop分布式文件系统,MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列,在十多年来,Hadoop一直是“大数据”的同义词。 但是,没有任何技术可以永远吸引人们的注意。

尽管Hadoop仍然是大数据平台的重要组成部分,但主要的Hadoop供应商(即Cloudera、Hortonworks和MapR)已经大大改变了他们的平台。 曾经作为外围项目的Apache Spark和Apache Kafka等已成为新的明星,并且焦点已转向其他方法来钻取数据并提取见解。

让我们简要浏览一下三个领先的大数据平台,每种技术如何将Hadoop技术组合在一起以使其与众不同以及它们如何发展以拥抱容器,Kubernetes,机器学习和深度学习的新时代。

Cloudera企业数据中心

Cloudera是第一个通过Hadoop发行版进入市场的公司,这并不奇怪,因为其核心团队由在Yahoo、Google和Facebook等地方利用过Hadoop的工程师组成。 Hadoop共同创建者Doug Cutting担任首席架构师。

该公司采用Cloudera企业数据中心(EDH)的策略是“策划和扩展” Hadoop生态系统中的开源项目,以提供商业许可的平台,其中企业级支持和服务是价格的一部分。 该公司还提供称为Cloudera Data Hub(CDH)的开源,免费使用的Hadoop发行版。 此外,Cloudera还提供了EDH的60天试用版,作为另一种入门方法。

在哪里下载Cloudera

Cloudera提供了多种下载和使用CDH的方式 。 VM和Docker映像可用于在本地运行EDH; Cloudera Manager可以用于在集群上部署CDH和EDH(包括试用版)。 Cloudera Director可以通过AWS快速入门部署到云环境中,其中包括Amazon。

Cloudera的独特功能

Cloudera一直以Apache Spark和与Spark相关的项目为中心,这是其发行的核心。 充分利用统一分析引擎的优势,Cloudera分别利用Spark Streaming,Spark MLlib和Spark SQL进行实时流数据,机器学习和SQL风格的数据查询。

Cloudera提供的一项重要增值是其Cloudera Navigator软件,这是一组专有的数据治理,管理和优化工具。 Cloudera Navigator跟踪组织中数据的来源以进行管理,合规性和审计,提供持续的数据工作量使用情况统计信息,并建议匹配的数据放置策略。

Cloudera EDH的本地机器学习方面仅限于Spark MLlib。 例如,对TensorFlow的本机支持不是广告的EDH功能。 但是,Cloudera Data Science Workbench产品为EDH提供了一个用户友好的数据科学前端,最终用户可以在EDH与TensorFlow等框架之间创建自己的集成。

Hortonworks数据平台

Hortonworks数据平台(HDP)是纯开源Hadoop发行版。 产品本身可以免费使用。 Hortonworks的企业客户为支持服务付费,并获得了主动的故障排除工具(其本身是专有的)来避免将来的问题。

何处下载Hortonworks

Hortonworks网站提供了多种格式的HDP下载 。 自动化的安装程序可以在各种本地或云体系结构上部署HDP,而RPM可用于想要手动部署的人。 HDP的早期版本可作为Hortonworks Sandbox版本获得,它们是预配置的HDP环境,打包在虚拟机中,供开发人员测试使用。

Hortonworks的独特功能

现在已在GA中发布的HDP 3.0包括针对云环境和云原生数据存储格式(例如Amazon S3和Google Cloud Storage)的自动配置; 借助Apache Hive的交互式SQL查询功能,并支持基于GPU的处理。

最重要的新增功能涉及容器。 Docker容器中的应用程序可以作为YARN作业与传统Hadoop工作负载并行运行。 在Docker容器中进行部署是确保作业可以使用特定版本的语言运行时运行的有用方法。 也可以通过YARN上的Kubernetes在Kubernetes上运行容器,其中YARN在Kubernetes中用作调度程序。

另一个新功能(当前可作为技术预览使用)使您可以在整个HDP集群的容器中部署TensorFlow深度学习应用程序。 显然,这是将HDP变成端到端机器智能平台的一步。

MapR融合数据平台

MapR的旗舰产品在2016年更名为“ MapR融合数据平台”,就其许可而言,它位于Hortonworks和Cloudera之间。 MapR具有完全开源的社区发行版,可以免费使用,但也提供具有高可用性,数据快照,灾难恢复,技术支持和其他企业级功能的付费企业版。

在哪里下载MapR

MapR提供了一个安装程序包,以部署社区版或企业版 。 云部署可直接用于全球的AWS,Microsoft Azure,Google Cloud和其他云提供商。 MapR还提供了“沙盒”版本 ,其中包含适用于VMware或VirtualBox的虚拟机映像。

独特的MapR功能

MapR融合数据平台包括三个主要组件:MapR-FS文件系统(实质上是将多个数据存储范例透明地集成到文件系统接口中,包括Hadoop的HDFS); NoSQL样式的文档数据库; 以及与Apache Kafka兼容的事件流引擎。

这个与Kafka兼容的MapR Streams事件流引擎是MapR的另一个主要优势,它着重于在线,流,实时和边缘处理场景。 一个名为MapR Edge的MapR的小尺寸版本旨在在IoT场景中处理数据。

MapR已在其平台中腾出空间以适应容器和机器学习这两个最近的重要趋势。 可以使用Kubernetes调度Docker映像并在整个MapR群集上运行Docker映像,并且MapR提供了Kubernetes卷驱动程序,该驱动程序允许这些容器直接连接到MapR-FS资源。

From: https://www.infoworld.com/article/3290344/3-big-data-platforms-look-beyond-hadoop.html

你可能感兴趣的:(3 大数据平台超越 Hadoop)