自Greenplum 6.0正式版发布以来,Greenplum保持每月一个小版本的迭代速率,持续为用户提供新功能和修复补丁,目前的最新版6.7.1。我们将定期在【青梅快讯】系列中为大家概括各个版本的新特性,帮助大家回顾和预览Greenplum带来的那些新惊喜。
Greenplum 6.7.1于2020年4月30日发布,自6.0发布以来累积更新的新功能如下:
增加了 gp_resource_group_queuing_timeout 参数
在使用资源组的时候,这个参数可以指定每个事务在获取资源之前的等待时间;默认值为无限制等待。
内置的Madlib版本升级到1.17
支持了k-means
增强了深度学习功能
详细的信息可以参考madlib的官网
http://madlib.apache.org/
外部表的数据错误日志支持持久化
在创建表时,如果指定了 LOG ERRORS PERSISTENTLY, 当外部表被删除(drop)时,数据错误日志不会被删除。可以通过新函数 gp_truncate_persistent_error_log 来清空错误日志。
PXF升级到5.11.2版本
PXF进行读操作时不再检查BATCH_SIZE的写选项
更新了的jackson-databind和tomcat依赖
自定义函数支持了 EXECUTE ON INITPLAN 选项
创建自定义函数时如果包含了EXECUTE ON INITPLAN参数,那么这个函数会在master节点执行并把保存结果;在各个Segment上调用时将这个结果返回。
ORCA支持了新的bitmap索引代价计算模型
当设置了 set optimizer_cost_model = experimental 时,orca会在合适的时候选用更快的bitmap nested loop join。
Pl/Container升级到3.0
支持Greenplum R
降低了PL/Container的进程数量
可并发执行更多容器
改进了日志
gpload增加了max_retries选项
当gpload在工作时,如果发生网络异常,gpload会根据这个选项的值来进行重试。
PXF升级到5.11.1版本
支持了restart命令重启PXF服务
PXF sync 命令支持了 -d选项,可以删除不在pxf配置中的节点数据
PXF支持了parquet格式的过滤条件下推
更新了内置的guava和hadoop2依赖库
支持了Greenplum R客户端
S3外部表支持了deflate压缩格
废弃了 DISCARD ALL 命令
资源组可以终止占用共享内存过多的查询
支持在不同子网的standby节点和mirror节点
新参数 wait_for_replication_threshold
这个参数指定了同步到mirror之前,Primary节点上等待写入WAL日志的最大值。有mirror时,这个参数可以帮助提供同步的性能。
PL/Container升级到2.1.0
支持了python3容器
Data Scientist 模块中增加了GluonTS支持
增加了gpcc.enable_query_profiling
这个参数打开时,可以收集由gpmon用户在gpperfmon数据库中的查询,以及小于10秒的查询。
PXF升级到5.10.1
支持了物化视图
详细内容可以参考这里:
https://gpdb.docs.pivotal.io/6-2/admin_guide/ddl/ddl-mat-view.html
gpinitsystem支持了新的ignore-warnings选项
PXF升级到5.10版本
更新了tomcat和jackson依赖库
支持了JDBC connector的OR和NOT下推
支持向Hadoop中写入avro格式数据
支持了Hadoop 2.x和3.1.x及Hive 2.x和3.1
支持不同服务器不同的用户配置
支持并发连接多个不同的kerberos认证的Hadoop集群
GPSS升级到1.3.1版本
更新了Datadirect的JDBC和ODBC驱动版本
JDBC版本为5.1.4.000270 (F000450.U000214), ODBC版本为07.16.0334 (B0510, U0363)。
Greenplum Stream Server(GPSS)升级到 1.3.0
支持日志rotate
支持kafka消息的条件过滤
允许重置到特定时间点加载(force-reset-timestamp)
支持了update和merge操作
支持了Kerberos认证的Kafka和Greenplum
支持了kafka,gpss及Greenplum之间的SSL加密
关于Greenplum
Greenplum是基于MPP架构的数据库产品,它可以满足下一代大数据仓库和大规模的分析任务的需求。通过自动对数据进行分区以及多节点并行执行查询等方式,它使一个包含上百节点的数据库集群运行起来就像单机版本的传统数据库一样简单可靠,同时提供了几十倍甚至上百倍的性能提升。除了传统的SQL,Greenplum还支持MapReduce,文本索引,存储过程等很多分析工具,可支持从GB到PB的数据规模。
于2019年9月4日发布的Greenplum 6.0对内核进行了增强,升级了其对应Postgres版本至v9.4,获得了更多Postgres的兼容特性;大幅增强了OLTP型负载的处理能力,从而更加胜任流计算和HTAP的场景。此外,Greenplum 6.0的其它重要更新还包括:支持复制表,在线扩容,磁盘配额,支持Zstandard压缩算法,基于流复制的全新高可用机制等。