MPP(大规模并行处理)数据库在商品服务器集群中的每个节点上分布数据和查询。 Greenplum建立MPP数据仓库的方法是独一无二的。 通过在已建立的开源数据库PostgreSQL上构建,他们可以将工程重点放在增加价值的地方:并行化和关联的查询计划,用于分析的列式数据存储以及管理功能。
Greenplum由Pivotal拥有和开发,并得到了开源社区的支持,并且可以根据Apache 2许可免费获得。 最新版本的Greenplum 6.0在重新整合Greenplum核心和PostgreSQL方面有很长的路要走,并结合了PostgreSQL项目近六年的改进。 这些努力意味着,Greenplum将继续获得“免费”的新功能和增强功能,而Pivotal则致力于使这些添加功能在并行环境中良好运行。
MPP数据库使用所谓的无共享架构。 在这种体系结构中,称为段的各个数据库服务器(基于PostgreSQL)在将结果返回给主主机之前,每个服务器都会处理一部分数据。 在其他数据处理系统(例如Spark或Solr)中可以看到类似的体系结构。 这是允许Greenplum集成其他并行系统(如机器学习或文本分析)的关键体系结构功能之一。
例如,由于Solr具有类似的分布式体系结构,因此Greenplum可以将各个Solr处理实例与段主机链接起来,以提供或多或少的无缝查询和分析体验。 这也意味着数据就地处理,避免了数据在网络上的昂贵移动。
图1:Greenplum体系结构的高级视图。
Greenplum可以通过几种方式进行部署:通过各自的市场在所有三个主要云中进行容器化或在裸机上进行部署。 与任何集群应用程序一样,在专用裸机上可获得最佳性能。 我在短短几分钟内在Google Cloud Platform上部署了一个包含两个节点的两节点集群。 然后,我使用一个预编译的二进制文件在一个小时内将Greenplum本地安装到了VM中。
本地安装是必需的,因为Greenplum 6尚未在云中提供。 它将于2019年11月到期。本地安装也使我有机会评估Greenplum文档的质量。 正如您可能希望从以前的封闭源专有产品中获得的那样,它非常出色。
具有多个部署选项,使公司可以微调其部署以匹配运营需求。 例如,可以在多节点裸机集群上训练模型以进行快速模型开发,然后将其部署在在容器中运行REST端点的Pivotal Postgres的单个实例上,以对模型进行操作。
如今,数据无处不在-位于不同的位置,不同的格式和不同的“温度”。 Greenplum 5中引入的Pivotal扩展框架(PXF)脱离了旧的HDFS连接器,成为访问Greenplum中外部数据表的通用方法。 PXF还连接到不同的数据格式,例如文本文件(例如Web日志),外部数据库,ORC,Parquet和HBase。 可以使用Java API将新的数据源添加到PFX。
将PXF与PostgreSQL 9.4带来的外部访问功能相结合,Greenplum可以跨数据位置(包括Kafka流,HDFS,Spark和Amazon S3对象存储)执行联合查询。 后一种查询Amazon S3对象存储的功能包括Amazon的本地S3 SELECT API,可通过在边缘进行过滤来提高性能。
联合查询比您想象的要有用。 例如,假设我们希望找到所有符合以下条件的个人:
在“ IDG”工作,并“直接”彼此认识,名字听起来像“ Doug”或“ Steve”,并在24小时内从新加坡或旧金山与对方打了电话
可以在欺诈调查中或在响应金融监管机构的信息请求时看到这种查询。 在典型的企业中,此信息将散布在六个或更多不同的系统中,并且可能需要一周或更长时间才能回答。 使用联合查询,我们可以将其组合成一个查询并在一个小时内回答。 在监管不断加强的时代,许多公司都在努力避免因迟交查询而罚款,联邦查询在这方面大有帮助。
Greenplum的MADlib扩展是一个基于SQL的数据分析和机器学习库,最初是由几所大学和Greenplum开发的。 MADlib旨在与Greenplum的无共享并行体系结构一起使用。 并非所有机器学习算法都可以并行化,但对于那些可以并行化的算法,MADlib可以在避免数据传输的同时,根据数据集的大小实现或多或少的线性可扩展性。 MADlib包含50多种最常用的机器学习算法。
MADlib的最有用功能之一是SQL界面,使公民数据科学家无需增加Python或R的学习曲线即可增加价值。可以通过MADlib REST端点部署模型以使分析见解可操作。 对于具有中等分析成熟度并实施冠军/挑战者决策管理策略的企业,使用SQL可以增加正在考虑的模型数量,而无需从中央团队转移额外的资源。
对于传统的数据分析人员而言,PivotalR连接器(可在CRAN上获得)通过将R代码转换为客户端上相应的SQL语句,然后将它们发送到Greenplum集群中以执行,从而为MADlib提供了经典的R语言接口。 这避免了数据传输,并允许处理大数据帧,否则由于内存限制,在R中是不可能的。
图2:使用Greenplum和MADlib进行机器学习模型的部署。
混合事务/分析处理(HTAP)是Gartner创造的一个术语。 他们的定义:
混合事务/分析处理(HTAP)是一种新兴的应用程序体系结构,在事务处理和分析之间“打破了壁垒”。 它可以进行更明智的“实时业务”决策。
实际上,这意味着系统的用例是长查询和短查询以及更新和删除的混合。 为了支持HTAP并防止资源匮乏,Greenplum实现了一种称为资源组的SQL容器化形式,该形式允许在多租户HTAP环境中隔离资源。 通过使用资源组,您可以限制CPU,RAM(按组或查询)和最大并发性。 资源组可提高混合工作负载下的性能,并防止查询竞争资源。
PostgreSQL和Greenplum之间的主要区别之一是查询计划器。 尽管Greenplum在派生时继承了PostgreSQL查询计划程序,但在分布式环境中的有效查询计划与在单台计算机上的有效计划有很大不同。 因此,Greenplum基于Cascades框架进行查询优化 ,着手构建自己的查询计划器。 该算法评估所有可能的查询计划并为其分配成本,选择执行成本最低(最快)的计划。
Greenplum提供了一些功能来帮助查询计划者避免数据移动,例如能够将维度表复制到群集中的每个节点以实现更快的本地联接操作和可调数据压缩。
半结构化数据处理继承自PostgreSQL,包括JSON和JSONB,XML,键值对(HSTORE)和纯文本。 同样从PostgreSQL继承来的GIN(通用反向索引)可以用于索引经常使用的文本列。 对于更复杂的文本查询,可以使用GPText。 GPText将Greenplum段与Apache Solr分片集成在一起,以提供自然语言搜索查询。 由于Solr碎片位于同一节点上,因此它们具有相同的并行体系结构。
HTAP数据库需要在大型的,长期运行的分析查询,简短的即席查询和等式的OLTP端上的ACID事务之间取得平衡。 在这种混合工作负载方案中,良好的性能对于Greenplum所针对的混合用例至关重要。 PostgreSQL 9.4内核为Greenplum 6提供了许多优化,主要是围绕避免锁定,这使TPC-B基准上的Greenplum 5的性能提高了60倍。
图3:Greenplum 6和Greenplum 5的TPC-B基准测试结果。
鉴于PostgreSQL为进一步的优化铺平了道路(现在已在版本12上),随着内核在Greenplum 7中再次升级,我们可以期待Greenplum的进一步改进。
Greenplum Command Center是Pivotal产品的一部分,并提供基于Web的界面,用于监视和管理Greenplum集群(或多个集群)。 尽管核心DBA不太可能放弃其命令行界面,但是Command Center是用于可能无法访问全职DBA的部门级部署的欢迎管理工具。 我发现它很容易浏览并且有据可查。 用户,查询,节点,段和资源组都可以通过界面轻松进行管理。
Greenplum指挥中心。
Greenplum是部门标准的理想选择,因为它可以在一个平台上处理混合工作负载,包括预测分析。 如果您不打算从ELA菜单中选择软件,或者不想逃避AI的“试炼”,对Greenplum的HTAP方法的投资可能会提供一种以较低的价格提高机器学习和分析的创新用途的方法比竞争解决方案。
Greenplum还是企业级Netezza或Teradata替代产品的明智之举。 尽管Greenplum不能完全从整个企业的Oracle Database或Microsoft SQL Server之类的公司那里获得OLTP的支持,但它对于中型交易系统将非常有效。
Greenplum是80/20规则的一个很好的例子。 尽管它不执行任何一项任务,也不执行一个专用工具,但它能够很好地完成大多数任务,足以覆盖80%的用例,而且无需将多个系统和将它们集成到分析管道中。 在考虑总拥有成本时,这在很大程度上对其有利。
From: https://www.infoworld.com/article/3452517/greenplum-6-review-jack-of-all-trades-master-of-some.html