Hive学习笔记(一)

经过几次争取,和公司数据部门要到了数据仓库的权限。

给的账号名和服务器地址。

用ssh连接至服务器(windows用secureCRT,linux/Mac用shell)  ssh [email protected]

更改密码: passwd

然后输入hive便可以启动hive进行查询了。

开始为了弄清楚表的结构,可以用show和desc命令,查看各个数据库、表和字段名。

查看数据库: show databases;

使用数据库:use default;

查看表: show tables;

查看字段:desc table_name;

对一个表不了解时,可以desc table_name;查看表的字段及说明(如果有)。对于有些表,可以select * limit 10;查看前10行内容来看表的字段格式是如何写的。

join:outer join,即外积,或的关系。若两张表有不匹配的选择结果,outer join为选择结果的或,没有的字段为null。

 inner join,即内积,与的关系。若两张表有不匹配的选择结果,inner join为选择结果的与。

 left outer join,左边的表所有行都有,右边的行去匹配。

 right outer join,右边的表所有行都有,左边的行去匹配。

关于join和条件有一篇讲的很仔细的文章:

/*
标题:SQL中on条件与where条件的区别
作者:爱新觉罗·毓华 
时间:2008-07-14
地点:新疆乌鲁木齐
*/


数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。 
在使用left jion时,on和where条件的区别如下:


1、on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。


2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。


假设有两张表:


表1:tab1 
id size 
1  10 
2  20 
3  30 
表2:tab2 
size name 
10   AAA 
20   BBB 
20   CCC 


两条SQL:
1、select * from tab1 left join tab2 on tab1.size = tab2.size where tab2.name='AAA'
2、select * from tab1 left join tab2 on tab1.size = tab2.size and tab2.name='AAA'


第一条SQL的过程:
1、中间表
on条件: 
tab1.size = tab2.size 
tab1.id tab1.size tab2.size tab2.name 
1 10 10 AAA 
2 20 20 BBB 
2 20 20 CCC 
3 30 (null) (null) 
2、再对中间表过滤
where 条件:
tab2.name='AAA'
tab1.id tab1.size tab2.size tab2.name 
1 10 10 AAA 


第二条SQL的过程:
1、中间表
on条件: 
tab1.size = tab2.size and tab2.name='AAA'
(条件不为真也会返回左表中的记录) tab1.id tab1.size tab2.size tab2.name 
1 10 10 AAA 
2 20 (null) (null) 
3 30 (null) (null) 
 
其实以上结果的关键原因就是left join,right join,full join的特殊性,
不管on上的条件是否为真都会返回left或right表中的记录,full则具有left和right的特性的并集。 
而inner jion没这个特殊性,则条件放在on中和where中,返回的结果集是相同的。





你可能感兴趣的:(学习笔记)