本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见大数据技术体系
CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。
还有一种说法是 CDH 是 Cloudera Distribution including Apache Hadoop 的缩写。
CDH 的所有组件都是 100% 开源的(Apache License),是唯一提供统一批处理、交互式 SQL、交互式搜索以及基于角色的访问控制的 Hadoop 解决方案。
通过将 Hadoop 与十几个其他关键开源项目集成,Cloudera 创建了一个功能先进的系统,可以帮忙你执行端到端的大数据工作流。
CDH 6.3 是 CDH 的最后一个主要版本。
CDP(Cloudera Data Platform)是 CDH 的继任者。
CDP 是面向企业的云计算平台。
它提供集成的多功能自助服务工具,以分析和集中数据。
它在企业层面带来了安全和治理,所有这些都托管在公共、私有和多云部署上。
如果启动一项新项目,建议从 CDP 开始,因为这是 Cloudera 最新一代的技术。
CDP 具有独特的公私合营方法、实时数据分析、可扩展的本地/云端和混合云部署选项,以及隐私优先的架构。
根据其官方网站,CDP 可以:
CDP 有两个版本:CDP 公共云和 CDP 私有云。
CDP 公共云是一种平台即服务 (PaaS),它与云基础架构兼容,并且可以在各种云提供商之间轻松传输,包括 OpenShift 等私有解决方案。
CDP 构建为完全混合和多云,这意味着一个平台可以处理所有数据生命周期用例,无论位置或云如何,具有一致的安全和治理模型。
CDP 可以在各种设置中处理数据,包括 AWS、Azure 和 GCP 等公共云。
此外,它可以自动向上和向下扩展工作负载和资源,以提高性能并降低成本。
以下是构成 CDP 公共云的主要元素:
CDP 数据工程是一个多合一的数据工程工具包。
它基于 Apache Spark 构建,允许通过使用 Apache Airflow 实现编排和自动化来简化跨企业分析团队的 ETL 流程,并提供高度开发的管道监控、可视化调试和广泛的管理工具。
它具有隔离的工作负载环境,并且是容器化、可扩展且易于传输的。
CDP 数据中心是一项服务,可实现从边缘到人工智能的高价值分析。
流式传输、ETL、数据集市、数据库和机器学习只是广泛的分析工作负载中涵盖的一些任务。
CDP 数据仓库是一项允许 IT 向 BI 分析师提供云原生自助分析体验的服务。
流式传输、数据工程和机器学习 (ML) 分析都完全集成在 CDP 数据仓库中。
它具有一个统一的框架,可以保护和管理私有云、多个公共云或混合云上的所有数据和元数据。
CDP 机器学习通过使用用于部署、服务和监控模型的本地和综合工具来优化 ML 工作流。
借助扩展的 Cloudera Shared Data Experience (SDX) 模型,它可以调节和自动化模型分类,然后通过数据仓库和运营数据库等 CDP 体验轻松地将结果传输到协作。
借助 Cloudera 数据可视化,用户可以在虚拟数据仓库中对数据进行建模,而无需移除或更新底层数据结构或表,并查询大量数据而无需不断加载数据,从而节省时间和金钱。
Cloudera 操作型数据库体验是一种托管解决方案,将底层集群实例总结为数据库。
它将根据集群的工作负载使用情况自动扩展,并且能够在相同的基础设施占用空间内提高性能并自动解决运营问题。
在本节中,我们将介绍 CDP 公共云上提供的所有服务。
这里介绍的组件可以单独使用,也可以作为一个整体使用。
管理控制台:CDP 管理员用来管理环境、用户和服务的服务
为机器学习调动工作空间
CDP 私有云专为混合云部署而设计,使本地环境能够连接到公共云,同时保持一致、集成的安全和治理。
计算和存储在 CDP 私有云中解耦,使这两者的集群能够独立扩展。
Cloudera 共享数据体验 (SDX) 在 CDP 私有云基础集群上可用,提供统一的安全性、治理以及元数据管理。
CDP 私有云用户可以使用管理控制台快速提供和部署 Cloudera 数据仓库和 Cloudera 机器学习服务,还可以根据需要扩展和扩展它们。
CDP 公有云的一些组件,例如机器学习和数据仓库,在 CDP 私有云上可用。
此外,它使用了一系列分析引擎,涵盖流、数据工程、数据集市、操作型数据库和数据科学,以支持传统工作负载。
在本节中,我们将介绍可用于私有云的各种服务和组件。
与公共云产品不同,组件更加灵活,因为用户可以更好地控制集群部署。
使数据科学家能够管理自己的分析管道的平台
CM 是一种管理 CDH 集群的端到端的应用
CM 通过对 CDH 集群的各部分提供精细的可视化和控制,建立了企业级部署的标准,增强了操作人员的能力以提升性能、提升服务质量、提高合规性、降低管理成本。
CM 的核心是 Cloudera Manager Server
,它承载了管理员控制台( Admin Console Web Server )和应用逻辑,并负责安装软件、配置、启动、停止服务,以及管理运行有服务的集群。
启动和运行 Hadoop 和 CDH 的最快方式。
无论规模或部署环境如何,自动化向导都可让你快速部署集群,并根据你的系统完成智能默认设置。
在你从测试转移到生产或跨环境使用可移植集群配置模板时确保一致性。
通过集中式界面,你的运营团队可以轻松调整配置和资源;管理广泛的用户角色以实现跨部门的自助访问;甚至为多租户环境管理多个集群。
通过数百个内置的运行状况检查和警报,你可以根据对你最重要的事项进行配置,从而全面了解你的集群。
你不仅可以监控所有集群中的所有组件(包括 Cloudera Manager 本身),还可以轻松监控作业和查询性能。
Cloudera Manager 拥有业界唯一的可定制仪表板,能够为你的环境创建用于历史监控和自定义触发器和阈值的高级图表。
唯一的集中式日志管理聚合所有服务和主机的日志,并使其可搜索以进行简单的故障排除,包括针对你关心的错误的集成自定义警报。
历史视图和指标可让你准确了解何时发生的事情,并让你快速查看异常行为。
Cloudera Support 还直接与 Cloudera Manager 集成,以根据你的系统和日志提供主动支持和问题解决。
通过滚动升级和回滚的全面自动化,无需担心系统停机,因此你始终可以轻松获得最新进展。
跨组件的高可用性以及内置的备份和灾难恢复意味着你甚至可以无风险地运行最关键的工作负载。