在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。2018年与世界大数据巨头Hortonworks合并,2019年被Cloud Report中评为大数据和Spark的领跑者。这么厉害的厂商,它里面都有些什么软件呢?我们一起来看看吧!

首先我们需要了解今天介绍的软件主要分为Cloudera的两条产品线:CDP和CDF。CDP是Cloudera Data Platform的简称,下面又分了很多产品,今天主要介绍CDP Data Center、CDP Data Hub、Cloudera Enterprise Data Hub、Cloudera Machine Learning和Cloudera Data Warehouse五款产品;而CDF就是Cloudera Data Flow的简称了。


CDP Data Center

Cloudera Data Platform (CDP) Data Center是用于从Edge到AI的集成分析的最全面的本地平台,涵盖了摄取,处理,分析,实验和部署。它结合了Cloudera Enterprise Data Hub和HDP Enterprise Plus的优点,融合了最新和最出色的开源数据管理和分析技术,可以集成在一起工作,并针对数据中心内的部署进行了优化。


产品优势

  • 结合HDP和EDH优点

结合了HDP和EDH优点,以及堆栈中的新功能。该统一分发是可扩展和可定制的平台,您可以在其中安全地运行多种类型的工作负载。

灵活部署

计算任务与数据存储分开,可从远程集群访问数据。这种混合方法通过管理存储,表架构,身份验证,授权和治理为容器化应用程序提供了基础。

实时流处理

CDP数据中心在使用Apache Kafka处理和转换流数据时具有极大的可伸缩性,并具有强大的流管理功能。

可定制专属服务

由Apache HDFS和Apache Hive 3以及许多其他用于特殊工作负载的组件组合而成。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。


CDP Data Hub

Cloudera Data Hub是Cloudera Data Platform(CDP)上的一项功能强大的云服务,通过企业安全性,治理,扩展和控制,可以更轻松,安全,更快地构建现代的,关键任务,数据驱动的应用程序。原生云服务由一套集成的开源技术提供支持,该技术可提供最广泛的分析工作。


产品优势

  • 加快方案部署速度

Data Hub提供类似于PaaS的体验,可在数周的时间就内部署新解决方案。用户可以通过企业安全性,治理,规模和控制,更快捷,更安全地构建可生成收入的多功能数据应用程序。

减轻风险

Data Hub减轻与技术发展,供应商法规遵从性等相关的风险。它消除了昂贵数据中心硬件上的CAPEX需求,并为每个数据中心环境提供端到端的安全性和治理,并为任务关键型项目提供优化的SLA 。

企业级安全性

数据中心可提供企业级安全性,包括内置的联合身份管理;支持加密的云存储服务和附加卷;安全,无密钥地访问云提供商的存储和计算以及所有控制流量和数据路径的自动有线加密等。

使用更灵活

Data Hub支持云原生架构,其中数据与计算基础架构分离,数据交付层从原始数据中提取。这种分离的体系结构显着提高了灵活性,敏捷性,数据保护和规模。


Cloudera Enterprise Data Hub

Cloudera Enterprise Data Hub是一款用于数据驱动的云优先型企业的平台。适用于任何云上的多功能分析,并且具有可应用于任何地方的一致性安全和治理。您可以访问当前隐藏在数据中的无限未开发的机会。也将从静态数据和动态数据中获得无与伦比的价值,让您在更大和更深入的环境中探索您的数据。


产品优势

  • 随时随地构建AI解决方案

帮助客户从技术和实践的角度进行转变,缩短企业M取得成果的时间。借助现代化的开放平台和企业工具,使客户能够在任何地方大规模,高效,安全地构建和部署AI解决方案。

优化的数据仓库

为应对现代数据挑战,并为您所需的各种高价值BI和分析用例提供机会,补充了不再能经济高效地满足这些新需求的传统数据仓库。

广泛的分析引擎套件

Cloudera提供了一套集成的分析引擎套件,范围从流和批处理数据到数据仓库,运营数据库和机器学习。Cloudera SDX应用一致的安全性和治理,使用户可以共享和发现数据以供跨工作负载使用。在开源创新的推动下,Cloudera的数据平台提供了最大的灵活性,因此您可以专注于数据,应用程序和业务。


Cloudera Machine Learning

Cloudera Machine Learning使团队可以立即部署机器学习工作空间,这些工作空间可以自动扩展以适应他们的需求,并可以通过使用kubernetes自动挂起以节省成本。 所有这些都打包成可移植的体验,多个团队成员可以轻松访问这些体验,以在整个组织中提供一致的体验。


产品优势

  • 自助式数据访问

借助Cloudera Machine Learning,管理员可以轻松地在混合和多云环境中复制受控数据集,以使数据科学团队可以自助访问他们所需的业务数据,同时保持企业数据安全性和治理控制。

全面,凝聚的用户体验

商业ML需要数据工程,模型培训和实验跟踪,以及在生产中部署和管理模型。Cloudera机器学习为团队提供一个在一个紧密结合的环境中完成所有工作的工具,而无需切换或缝合。

便捷的ML工作区

Cloudera Machine Learning使管理员只需单击几下即可为团队部署新的机器学习工作区,使数据科学团队无需等待即可访问端对端ML所需的项目环境和资源。

Cloudera Data Warehouse

Cloudera Data Warehouse是一种自动扩展,高度并发且具有成本效益的分析服务,可从结构化,非结构化和边缘源随时随地提取大规模数据。它通过在内部部署和任何云之间无缝移动工作负载以支持报表和仪表板,即席和高级分析(包括AI),并具有一致的安全性和治理,从而支持混合和多云基础架构模型。


产品优势

  • 优化工作负载

数据仓库和数据集市已针对您的工作负载进行了自动优化。这包括预配置软件和创建不同的缓存层,这意味着您无需参与复杂的容量规划或调整。

自动扩展

通过自动扩展,可以扩展和缩减虚拟仓库实例,以便它们可以满足您不断变化的工作负载需求,并在不需要时节省云资源成本。

自动配置和隔离

自动配置每个数据仓库和数据集市,可以调整一些设置来满足您的需求。使用之后,您可以轻松地将嘈杂的邻居工作负载卸载到它的Virtual Warehouse实例中,以便其他租户可以访问足够的计算资源以使其工作负载完成并满足其SLA。

混合云和多云

利用从本地到任何云的任一位置组合任一数据,从而帮助一起管理所有类型的工作负载。混合和多云部署模型可确保所有分析工作负载快速,大规模地执行,而不管工作负载和用户数量如何。


Cloudera DataFlow

Cloudera DataFlow(CDF),以前称为Hortonworks DataFlow(HDF),是一个可扩展的实时流分析平台,它可以摄取、组织和分析数据,以获取关键洞察和即时的可操作情报。


产品优势

  • 减少数据集成开发时间

CDF提供了一个简单的可视化UI,用于构建复杂的数据流,以完成各种数据源的主要数据提取,转换和充实。CDF 在Apache NiFi的支持下,快速提取数据,从而生成实时流数据。

快速获取实时见解

使用流媒体平台Apache Kafka,CDF每秒可处理数百万笔交易,识别关键模式,与机器学习模型进行比较,并提供预测性/规范性分析,帮助业务领导者做出关键决策并抓住机遇。

安全无缝传输数据

使用带有Minifi的NiFi轻松地从边缘传输数据,从而建立广泛分布的IoT部署模型以进行区域数据收集。与Apache Ranger的紧密集使CDF提供跨移动数据和静态数据的无缝安全性。

开箱即用的合规性

CDF是业内唯一提供开箱即用的数据出处和从边缘到企业的数据治理的产品。CDF中的NiFi无需任何额外的配置或设置即可提供数据来源跟踪。通过与Apache Atlas的紧密集成,您可以完全控制从边缘到 企业的数据。