SQL 中 on 条件与 where 条件的区别

说明

最近在做 Hive 事实表 left join 多张维表时,出现了部分数据丢失的情况(结果表数据量比原始事实表少 10000 多条),针对该问题研究,让我对 SQL on 条件与 where 条件区别有可进一步理解,特将好东西分享给大家。

Join 联表中 on、where 后面跟条件的区别

  1. Join 生成表的过程
    数据库在通过连接两张或者多张表来返回记录时,都会生成一张中间的临时表,然后在将这张临时表返回给用户。这张临时表是分析问题的重点。
  2. 在使用 left join 时,on 和 where 条件的区别
  • on 条件是在生成临时表时使用的条件,它不管 on 中的条件是否为真,都会返回左边表中的记录。
  • where 条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有了 left join的含义了,where 条件不为真的数据将会全部过滤掉。

示例说明

  1. 假设有两张表
    表 1:


    tab1

    表 2:


    tab2
  2. 执行如下SQL
-- SQL 1
select * form tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’
-- SQL 2
select * form tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)
  1. 输出结果


    SQL 1

    SQL 2
  2. 总结
    其实以上结果的关键原因就是 left join、right join、full join 的特殊性,不管 on 上的条件是否为真都会返回 left 或者 right 表中的记录,full 则具有 left 和 right 特性的并集。而 inner join 没有这个特性,则条件放在 on 和 where 中,返回的结果集是相同的。

原文

你可能感兴趣的:(SQL 中 on 条件与 where 条件的区别)