一.DDL
查看已存在表的详细信息
show create table或者desc tablename/desc formatted tablename
显示所有表
show tables
更改表
alter table student rename to student2
创建视图
create view student2_view
查看视图
show views
删除视图
drop view student2_view;
二.DML
2.1加载hdfs数据脚本
load data inpath '文件在hdfs上的路径' overwrite into table 表名 partition (com_data=20170904);
2.2将查询结果插入到数据表中
insert overwrite table student partition (come_date='20170905') select * from student where come_date='20170904';
2.3动态分区模式
注意事项
删除表数据的几种方式
相同点:
都是删除数据
不同点:
delect 清除实体数据,是他数据不变
truncate:截断数据,删除全部的实体数据,状态数据也随之删除,元数据不变
drop:把元数据和实体数据全部删掉,一般删除表
2.4将查询结果写入hdfs目录
insert overwrite directory(去重) "目录" select * from student where come_date='';
2.4.1指定输分割符
insert overwrite directory "/tmp/output2/"
row format delimited
fields terminated by '\t'
select * from student where come_date='20170905';
2.5关于外表对的说明和使用
内外表的唯一区分标识,即为external关键字,创建表的时候有被称为外表,没有被称为内表
内外表的目录都可以自由指定location.如果不指定,则数据存储在hive默认hdfs目录中,且后续均可以自由改变,
应用场景:
如果表数据是外部load过来的,即为不可hive内部生成的,此表为外表
如果表数据是内部hive自己可以生成的,并且不需要依赖外部的load数据,则此时的表应该是内表
三.DQL
Select count(1)和count(*)有什么区别?
相同点:都可以统计出来数据的记录行数。
区别:
count(1)比count(*)效率要高
SQL的执行可以统分为两大步骤,第一步骤找到数据的位置即有没有,第二步是取出位置当 中的具本的数。
limit限制
select * from student where id='001' limit 3. 只显示前三条
limit 3,2. 从第三条开始显示两条
升降序, order by 属性 desc/asc
join查询
inner join 满足左右表的全部查出来
left outer join 保留左表的数据,右表中没有的设置为null
right outer join 保留右表的数据,左表中没有的设置为null
full outer join full join=inner join+left join+right join
四.hive重要说明
hive当中的子查询,必须要给予别名
Null值判断 不用= 用is null 或者 is not null
五.hive系统函数
if : select if (12<20,'right','false');
coalesce : 将参数列表中的第一个不为null的值为最后的值
split : 将字符串拆分成一个数组
select split ("a,b,c",",");
explode:生成表函数 行转列
lateral view 与explode 联用 形成新表