下面实验几种hive中常用到的join操作
首先创建两个文件用于导入表中
hadoop@master:~/17$ cat data1
1,a
2,b
3,c
4,d
5,e
8,u
9,r
hadoop@master:~/17$ cat data2
1,aa
2,gg
7,www
19,ee
实验步骤:
1.创建hive表
create table a(id int, name string) row format delimited fields terminated by ',';
create table b(id int, name string) row format delimited fields terminated by ',';
2.导入数据
load data local inpath '/home/hadoop/17/data1' into table a;
load data local inpath '/home/hadoop/17/data2' into table b;
如果导入的文件有空行的情况,就会出现为NULL的行,判断条件为int用is NULL或者is not NULL判断,string 类型用='NULL'或者!='NULL'来判断
如果想把为NULL的行删除,可以这样
insert overwrite table a select * from a where id is not NULL;
3.inner join
hive> select * from a inner join b on a.id=b.id;
1 a 1 aa
2 b 2 gg
4.left join
hive> select * from a left join b on a.id = b.id;
1 a 1 aa
2 b 2 gg
3 c NULL NULL
4 d NULL NULL
5 e NULL NULL
8 u NULL NULL
9 r NULL NULL
备注:左连接就是保留全部左表,连接on条件下的部分右表
5.right join
hive> select * from a right join b on a.id = b.id;
1 a 1 aa
2 b 2 gg
NULL NULL 7 www
NULL NULL 19 ee
备注:右连接就是保留全部右表,连接on条件下的部分左表
6.full outer join
hive> select * from a full outer join b on a.id = b.id;
1 a 1 aa
2 b 2 gg
3 c NULL NULL
4 d NULL NULL
5 e NULL NULL
NULL NULL 7 www
8 u NULL NULL
9 r NULL NULL
NULL NULL 19 ee
全连接:就是全部保留左右表
备注:left outer join 和 left join本质上是一个东西,同理于right outer join和right join
7.left semi join
hive> select * from a left semi join b on a.id = b.id;
1 a
2 b
备注:left semi join相当于是in的操作