1.Sentry实现HA
2.Kafka0.11集成,0.11目前为社区最新版
3.Kudu1.5开始默认打包到CDH,不需要使用额外的Parcle安装
4.Kudu与Sentry授权集成,支持列授权
据说CDSW1.2发布,与CM完美集成,实现Parcel安装
Openstack支持,Ceph支持,架构更新,参考:
http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_redhat_osp11.pdf
https://specs.openstack.org/openstack/sahara-specs/specs/juno/cdh-plugin.html
1.通过缓冲池改善内存管理。这种机制允许查询使用较少的内存,在查询启动期间保留所需的内存,并减少OOM的概率。它使查询计划和内存评估更加精准,因此如果一个查询开始执行,中间不太可能会遇到OOM的错误。Impala在溢出到磁盘期间使用内存缓冲区较小,此缓冲区默认是2MB,而不是8MB,同时Impala可以在适当的时候将其减少到64KB。
对于新的查询的内存微调可以使用的参数包括:MIN_SPILLABLE_BUFFER_SIZE,DEFAULT_SPILLABLE_BUFFER_SIZE,MAX_ROW_SIZE,和BUFFER_POOL_LIMIT。
2.改进缓存HDFS文件句柄的机制。这种缓存机制提高了多次访问同一文件的查询性能和扩展性,比如从Parquet文件中检索不同的列。通过open()调用缓存文件句柄可以降低Namenode的负载。
默认情况下,此功能是被禁用的。可以通过给max_cached_file_handles设置一个非零的值来开启这个功能。目前,通过关闭一些Impalad主机的short-circuit reads,在ETL过程中对于HDFS文件追加或者覆盖可以使用到这个功能。查看HDFS-12528获取更多信息:https://issues.apache.org/jira/browse/HDFS-12528
3.impala-shell提供了一个新的命令,rerun或者简写@,可以让你根据历史命令的编号来重新执行。
4.新的内置函数和更新
除了TIMESTAMP之外,trunc()现在可以应用于数值类型(FLOAT,DOUBLE和DECIMAL)。虽然这个功能已经可以通过truncate()函数实现,但是trunc()的改进可以更方便的将主流RDBMS的代码迁移到Impala。
select TRUNC(15.79,1)
15.7
新的date/time函数utc_timestamp()可以从TIMESTAMP的值获取到准确的相应时间,而不需要用特定的时区通过一些其他的函数来转换。
5.CREATE TABLE LIKE PARQUET语句现在可以处理不是由Impala生成的包含ENUM类型的Parquet文件。ENUM列会在目标表中转变为相应的STRING列。
6.Kudu提升
Kudu现在建表可以不使用PARTITION BY。Kudu会自动创建一个单独的分区来覆盖所有的可能的值的范围。此功能适用于小表,这样那些每个查询都是全表扫描因为分区带来的开销将不存在。
Kudu表更细粒度的Sentry授权,支持列授权。SELECT和INSERT语句对应到Sentry里的SELECT和INSERT权限。其他Kudu操作需要ALL的权限。
ALTER TABLE语句可以修改Kudu表字段的多个属性。你可以使用ALTER TABLE的ALTER COLUMN和SET关键字来更改DEFAULT,BLOCK_SIZE,ENCODING和COMPRESSION属性。还可以使用DROP DEFAULT从列中删除默认值。
7.对于非Kudu表,可以使用ALTER TABLE如:ALTER COLUMN col SET COMMENT ‘text’来更改单个列的注释。
从CDH5.13,Kudu1.5开始,CDH默认打包Kudu,不需要使用额外的Parcel安装。Kudu1.5的新功能请参考:https://www.cloudera.com/documentation/enterprise/release-notes/topics/kudu_release_notes.html#release_notes
Hive on Spark支持map joins的动态分区修剪。动态分区修剪(DPP)是一种数据库优化技术,它可以显着减少查询扫描的数据量,从而更快地执行作业。 默认情况下禁用,但可以通过将hive.spark.dynamic.partition.pruning.map.join.only属性设置为true来启用。 启用时,当使用分区字段map join时,DPP才会触发。更多细节参考:https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html
Sentry支持Hive metastore的HA。以前的CDH版本,Sentry服务和Hive metastore的HA是不能共存的,从CDH5.13开始,Hive metastore的HA可以与Sentry服务共存,同时你还可以选择开启Sentry的HA。
从CDH5.13开始,你可以安装两个Sentry服务,并通过配置实现Sentry服务的高可用,当Primary的Sentry挂了以后,可以自动实现Sentry服务的切换。更多细节请参考:https://www.cloudera.com/documentation/enterprise/latest/topics/sg_sentry_ha.html
Sentry现在支持Hive metastore的HA。
参考:
https://mp.weixin.qq.com/s/IBPAq4HRbhQ2NbZk7LN5ow