数据分析师必备技能之SQL(3) -- 连接

实际工作中,我们会依据不同的业务建立对应的事实表及维度表,不太可能只有一两张宽表,可以涵盖所有需要的字段,这样对于存储空间是一种压力。因此,我们常常需要用到多表连接去查询需要分析的数据。

连接主要包括3大类:

横向连接:即拼接两个及以上单表的列数据,常用的有inner join、left join、right join

纵向连接:即拼接两个及以上单表的行数据,常用的有union ,但这种方式要求连接表的字段名称、类型需要一致

全连接:即拼接两个及以上单表的行、列数据,常用的有full outer join

下图结合韦恩图来解析下常见的7种连接,是非常值得收藏的一幅图(来源:网络):

示例用表(来源:Wiki百科):

注意:

 雇员表中 "Williams" 不在 部门表中的任何一个部门

一个部门可能与许多雇员相关联


    1. 内连接(inner join):即找出左右都可匹配的记录

selectt1.lastName

,t1.departmentID

    ,t2.departmentName

fromemployee t1

innerjoindepartment t2

ont1.departmentID = t2.departmentID

;

输出结果:

2.左连接(left join):以左表为准,逐条去右表找可匹配字段,如果有多条会逐次列出,如果没有找到则是NULL

selectt1.lastName

,t1.departmentID

    ,t2.DepartmentName

fromemployee t1

leftjoindepartment t2

ont1.departmentID = t2.departmentID

;

输出结果:

3.右连接(right join):以右表为准,逐条去左表找可匹配字段,如果有多条会逐次列出,如果没有找到则是NULL

selectt1.lastName

,t1.departmentID

    ,t2.DepartmentName

fromemployee t1

rightjoindepartment t2

ont1.departmentID = t2.departmentID

;

输出结果:

    4. 全连接(full outer join):包含两个表的连接结果,如果左表缺失或者右表缺失的数据会填充NULL

MySQL并不支持full outer join,但可以使用union 来替代实现:

select*

from  employee t1

left join department t2

on t1.DepartmentID = t2.DepartmentID

union

select*

from employee t1

right join department t2

on t1.DepartmentID = t2.DepartmentID

;

输出结果:


5. 补充实际常用场景:差集A-B,即左表中剔除左右都匹配的部分

selectt1.lastName

,t1.departmentID

    ,t2.DepartmentName

fromemployee t1

leftjoindepartment t2

ont1.departmentID = t2.departmentID

wheret2.DepartmentNameisnull

;

输出结果:

解析: 差集employee - department相当于把employee 表中不存在任何一个部门的员工找出来

而employee表确实存在这样的一位员工 "Williams", 不在 department表中的任何一个部门


小结:

笔者实际工作中用的最多的还是left join、union,right join/inner join都可以用left join替代

注意连接时,未匹配的字段以NULL填充

差集A-B也是实际中蛮常用到的,可以结合韦恩图好好练习一下

你可能感兴趣的:(数据分析师必备技能之SQL(3) -- 连接)