Greenplum 6.0 版本官方最强解读

Pivotal Greenplum 6.0 已于2019年9月4日正式发布,可从Pivotal Network中下载。

十六年来,Greenplum始终致力于帮助企业更加高效地分析数据,使企业增加了收入,降低了成本,全面提升运营效率,展现了横向扩展的高性能分析数据仓库的惊人能力!


PostgreSQL是一种广受欢迎的开源数据库,也是Pivotal Greenplum的核心。通过连接Postgres实例和一个集群可感知的SQL优化器,Greenplum扩展到了大型集群,它就是这样解决星形模式(star schema)、企业数据仓库以及集成的先进分析混合模态分析等等传统数据仓库用例的。不论您的数据属于哪种结构:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,Greenplum都能处理。想要跻身机器学习、深度学习和人工智能?Greenplum全包。

客户告诉我们,Pivotal Greenplum在处理规模在100 TB至50多PB之间的数据时,效果是最为理想的。企业利用Greenplum运行大量的分析和混合工作负载SQL查询。

 

“我是于2014年在摩根斯坦利时开始接触Pivotal技术的,当时我是数据库工程全球业务的负责人。我们当时主要致力于解决两个问题:

 

1)数据量不断快速增长,获取、处理和存储都要相当长的时间(有时超过7年);

 

2)满足我们的业务用户对即时查询(hoc query)不断增长的需求。”

 

—节选自摩根斯坦利执行董事、数据库工程的全球负责人Howard Goldberg在《采用Greenplum技术的数据仓库,第二版》中的致辞


在开源社区的帮助下,我们的产品也在不断改进。数以千计的终端用户与全世界几百位工程师共同打造出了Greenplum 6,所以业界分析师非常青睐Greenplum。

 

Pivotal Greenplum可在各类硬件上运行。无论是数据中心还是公有云,Greenplum在裸机、虚拟机和Kubernetes协调的容器上都表现出色 。我们推出的新型基础架构GBB(Greenplum Building Blocks)也颇受好评,这是一款搭建在Dell EMC硬件上的工程系统,为先进的分析工作负载而优化。

 

得益于开源社区的贡献,我们可以帮助像摩根斯坦利的Howard这样的人解决最棘手的数据仓储和分析方面的问题。

下面就是GP6.0功能一览,

欢迎大家下载安装开源版本哦!

 

Postgres 9.4带来一系列全新能力

 

Greenplum管理并处理PB级数据的方式是并行查询,也就是以数据管道和UDP互联,连接数百的Postgres实例,完全是通过大规模并行查询优化器(GPORCA)来协调。Greenplum 6的内核Postgres版本,已从8.3版升级至9.4版。Greenplum用户因此享有了JSONb和HSTORE Data Types等功能,不仅可以搜索、分析和查询半结构化的文件,存储也得以优化,同时核心数据的处理效率大增,可以更快速地进行查询

 

OLTP和短查询工作负载的性能显著提升

 

在现实中,数据仓库和企业分析数据库的工作负载需要合并大量的大型查询、短查询和真实混合交易的联机事务处理(OLTP)以及分析系统。因此,Pivotal Greenplum一直完整支持OLTP场景的ACID特性。版本6中,这些工作负载的性能提高了70倍,那种感觉您一定喜欢。在这样的工作负载和硬件环境中,交易速度达到每秒4300次至220,000次。

 

通过避免数据迁移,利用复制表提升性能

 

传统数据仓库工作负载使用的是星形模式等数据模式时,可用复制表提升性能。现在,Greenplum 6在集群内向所有节点存储复制表,也就是将维度表与本地的事实表进行关联,避免了数据在集群内迁移,从而提升性能。

 

加速完成集群扩充

 

Greenplum 6集群现在可以更快地利用新添加的硬件,数据哈希也更新为新的算法,在更改集群中的服务器数量时,数据迁移实现最小化。若集群规模发生变化也无需重新排列所有数据,迁移的规模只要满足新添加硬件的需求即可。

 

管理员可更大程度地控制磁盘空间的分配

 

管理员现在可以在模式和用户角色两个层面设定磁盘空间使用的配额,因此可以在多租户环境中更大程度地控制系统的利用,也防止了个别用户或工作负载侵占其它用户或工作负载的磁盘空间。从此,管理员可以轻松地了解系统给用户设定的上限,Greenplum将会按照这个限额执行。

 

在Amazon S3上实现外部表格性能加速

 

Amazon Web ServicesⓇ 提供的S3 Select功能可以从存储对象中只返还您需要的数据,避免不必要的数据迁移将会大幅提高性能,降低带宽成本。Greenplum 6进一步加强了平台扩展架构(Platform Extension Framework,PXF),可直接接入S3 Select API,以更高的性能在CSV上执行select的查询,并可处理保存在S3上的Parquet数据。

 

使用Write Ahead Logs实现高可用(冷静)

 

Greenplum 6现在使用Write Ahead Logs(预定日志)数据库来捕捉磁盘上所有的数据和元数据的变化。(该功能是以Postgres 9.4中的预定式日志为基础的。)这些变化也被同步到集群中的其它节点,保证数据库系统一直在线,也为容错准备了数据存储的冗余复本。

 

数据存储压缩的改进降低了基础架构成本

 

Greenplum 6能够更快地压缩数据,用户可以在同一硬件记录中存储进更多的数据,而且成本更低。这一新技术是以Facebook开发的开源压缩算法ZStandard为基础。

 

改进了对数据接入的控制,保护隐私数据

 

除了表格、模式和数据库粒度以外,管理员现在还可以控制列级的数据接入,这是基于用户角色和权限的。若用户查询试图接入未授权的列就会被拒绝。

 

在处理存储在列中的信用卡号、身份证号等个人隐私信息(PII)时,这一功能作用明显,它即控制了未经授权的用户,同时又使敏感信息得以保留在同一表格中。

 

安装开源分布式数据库变得更简单

 

Greenplum社区网站现在汇聚了多个Linux分布的预编译和安装者,包括RedHatⓇ、CentOSⓇ、DebianⓇ和UbuntuⓇ。 用户可以进行不同的选择,利用预打包的二进制安装程序轻松下载并安装Greenplum,无需从源代码编译。

 

GPCC赋予管理员更好的观察力

 

Pivotal Greenplum中包含有新版的Greenplum图形化监控系统Greenplum Command Center(GPCC),数据库管理员和数据架构师们利用它来监测数据库系统,监督工作负载、系统的利用、锁定、查询进展以及历史分析。

 

Greenplum 6.0 版本官方最强解读_第1张图片 Pivotal Greenplum Command Center 

 

MADlib 1.16交付深度学习的新突破

 

Apache MADlibⓇ 1.16是Greenplum 6的一个组成部分,它支持高并行和基于GPU的深度学习模型训练。 内置于集群硬件中的GPU,能帮助Greenplum 6的用户获得超过CPU 2个数量级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。

 

Pivotal Greenplum Streaming 

将Kafka带入您的分析部署

 

Apache Kafka特别适合高可靠,强一致的加载,相较于传统ETL模式也有优势。Greenplum Streaming Server能够在Pivotal Greenplum中实时、持续地更新数据集。这一方法已经在IoT和金融交易用例中得到了成功适用。gpKafka持续将数据输入Pivotal Greenplum中,支持在实时分析场景下,对数据进行低延时的处理。

 

你可能感兴趣的:(数据库,数据仓库,大数据,人工智能,java)