【Hive、Spark Sql中为什么说group by是distinct的优化?】

Hive、Spark Sql中为什么说group by是distinct的优化?

  • 用LogicalPlan带你一探究竟
    • group by
    • distinct
    • 看图说话

用LogicalPlan带你一探究竟

无论是Hive还是SparkSql都会生成LogicalPlan,PhysicalPlan只要我们明白了 他在底层如何转换如何优化的就能知道group by和distinct有何区别。

group by

sql: “select name from student group by name”
【Hive、Spark Sql中为什么说group by是distinct的优化?】_第1张图片

distinct

sql:“select distinct name from student”

【Hive、Spark Sql中为什么说group by是distinct的优化?】_第2张图片

看图说话

我们会发现distinct的逻辑计划在底层生成的优化后的逻辑化转换成了group by的逻辑计划

你可能感兴趣的:(Spark,hive,spark,sql)