Spark3新特性

Spark AQE 自适应查询优化:

实现运行时优化,纠正因统计信息不准确导致生成的逻辑计划不完善或有误的问题

Spark3新特性_第1张图片

Spark3新特性_第2张图片 

 动态调整JOIN策略:类似于mapjoin优化,将sortMergejoin转换成broadcasthashjoin,也就是将小表当作广播变量分发到另一个表的所有节点上,如此可以减少大量的网络IO。

Spark3新特性_第3张图片

 

map后将数据量更大的分区分割成若干个较小的分区

Spark3新特性_第4张图片

 spark3.0动态分区裁剪:与逻辑计划的谓词下推静态优化不同,这个是运行时的动态优化特性,如案列中小表的过滤,其实是基于维度表的裁剪的基础上,在join关联之前提前检测另一张事实表中对应条件的数据进行提前过滤。

Spark3新特性_第5张图片

 

 

你可能感兴趣的:(spark)