Pivotal Greenplum 6.0 已于2019年9月4日正式发布,可从Pivotal Network中下载。
十六年来,Greenplum始终致力于帮助企业更加高效地分析数据,使企业增加了收入,降低了成本,全面提升运营效率,展现了横向扩展的高性能分析数据仓库的惊人能力!
PostgreSQL是一种广受欢迎的开源数据库,也是Pivotal Greenplum的核心。通过连接Postgres实例和一个集群可感知的SQL优化器,Greenplum扩展到了大型集群,它就是这样解决星形模式(star schema)、企业数据仓库以及集成的先进分析混合模态分析等等传统数据仓库用例的。不论您的数据属于哪种结构:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,Greenplum都能处理。想要跻身机器学习、深度学习和人工智能?Greenplum全包。
客户告诉我们,Pivotal Greenplum在处理规模在100 TB至50多PB之间的数据时,效果是最为理想的。企业利用Greenplum运行大量的分析和混合工作负载SQL查询。
“我是于2014年在摩根斯坦利时开始接触Pivotal技术的,当时我是数据库工程全球业务的负责人。我们当时主要致力于解决两个问题:
1)数据量不断快速增长,获取、处理和存储都要相当长的时间(有时超过7年);
2)满足我们的业务用户对即时查询(hoc query)不断增长的需求。”
—节选自摩根斯坦利执行董事、数据库工程的全球负责人Howard Goldberg在《采用Greenplum技术的数据仓库,第二版》中的致辞
Pivotal Greenplum可在各类硬件上运行。无论是数据中心还是公有云,Greenplum在裸机、虚拟机和Kubernetes协调的容器上都表现出色 。我们推出的新型基础架构GBB(Greenplum Building Blocks)也颇受好评,这是一款搭建在Dell EMC硬件上的工程系统,为先进的分析工作负载而优化。
得益于开源社区的贡献,我们可以帮助像摩根斯坦利的Howard这样的人解决最棘手的数据仓储和分析方面的问题。
下面就是GP6.0功能一览,
欢迎大家下载安装开源版本哦!
Greenplum管理并处理PB级数据的方式是并行查询,也就是以数据管道和UDP互联,连接数百的Postgres实例,完全是通过大规模并行查询优化器(GPORCA)来协调。Greenplum 6的内核Postgres版本,已从8.3版升级至9.4版。Greenplum用户因此享有了JSONb和HSTORE Data Types等功能,不仅可以搜索、分析和查询半结构化的文件,存储也得以优化,同时核心数据的处理效率大增,可以更快速地进行查询。
在现实中,数据仓库和企业分析数据库的工作负载需要合并大量的大型查询、短查询和真实混合交易的联机事务处理(OLTP)以及分析系统。因此,Pivotal Greenplum一直完整支持OLTP场景的ACID特性。版本6中,这些工作负载的性能提高了70倍,那种感觉您一定喜欢。在这样的工作负载和硬件环境中,交易速度达到每秒4300次至220,000次。
传统数据仓库工作负载使用的是星形模式等数据模式时,可用复制表提升性能。现在,Greenplum 6在集群内向所有节点存储复制表,也就是将维度表与本地的事实表进行关联,避免了数据在集群内迁移,从而提升性能。
Greenplum 6集群现在可以更快地利用新添加的硬件,数据哈希也更新为新的算法,在更改集群中的服务器数量时,数据迁移实现最小化。若集群规模发生变化也无需重新排列所有数据,迁移的规模只要满足新添加硬件的需求即可。
管理员现在可以在模式和用户角色两个层面设定磁盘空间使用的配额,因此可以在多租户环境中更大程度地控制系统的利用,也防止了个别用户或工作负载侵占其它用户或工作负载的磁盘空间。从此,管理员可以轻松地了解系统给用户设定的上限,Greenplum将会按照这个限额执行。
数据存储压缩的改进降低了基础架构成本
Greenplum 6能够更快地压缩数据,用户可以在同一硬件记录中存储进更多的数据,而且成本更低。这一新技术是以Facebook开发的开源压缩算法ZStandard为基础。
改进了对数据接入的控制,保护隐私数据
除了表格、模式和数据库粒度以外,管理员现在还可以控制列级的数据接入,这是基于用户角色和权限的。若用户查询试图接入未授权的列就会被拒绝。
在处理存储在列中的信用卡号、身份证号等个人隐私信息(PII)时,这一功能作用明显,它即控制了未经授权的用户,同时又使敏感信息得以保留在同一表格中。
Greenplum社区网站现在汇聚了多个Linux分布的预编译和安装者,包括RedHatⓇ、CentOSⓇ、DebianⓇ和UbuntuⓇ。 用户可以进行不同的选择,利用预打包的二进制安装程序轻松下载并安装Greenplum,无需从源代码编译。
GPCC赋予管理员更好的观察力
Pivotal Greenplum中包含有新版的Greenplum图形化监控系统Greenplum Command Center(GPCC),数据库管理员和数据架构师们利用它来监测数据库系统,监督工作负载、系统的利用、锁定、查询进展以及历史分析。
Apache Kafka特别适合高可靠,强一致的加载,相较于传统ETL模式也有优势。Greenplum Streaming Server能够在Pivotal Greenplum中实时、持续地更新数据集。这一方法已经在IoT和金融交易用例中得到了成功适用。gpKafka持续将数据输入Pivotal Greenplum中,支持在实时分析场景下,对数据进行低延时的处理。