LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;
--创建库
create database if not exists ods_test comment 'test db' with dbproperties ('createdBy'='yasar');
--使用库
use ods_test;
--step1:建表
--建表student_local 用于演示从本地加载数据
create table if not exists student_local(num int COMMENT '分数',name string COMMENT '姓名',sex string COMMENT '性别',age int COMMENT '年龄',dept string COMMENT '部门') ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
--建表student_HDFS 用于演示从HDFS加载数据
create external table if not exists student_HDFS(num int COMMENT '分数',name string COMMENT '姓名',sex string COMMENT '性别',age int COMMENT '年龄',dept string COMMENT '部门') ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
--建议使用beeline客户端 可以显示出加载过程日志信息
--step2:加载数据
-- 从本地加载数据 数据位于HS2(node1)本地文件系统 本质是hadoop fs -put上传操作
load data local inpath '/export/tmp/students.txt' into table ods_test.student_local;
--从HDFS加载数据 数据位于HDFS文件系统根目录下 本质是hadoop fs -mv 移动操作
--先把数据上传到HDFS上 hadoop fs -put /root/hivedata/students.txt /
load data inpath '/test_data/students.txt' into table ods_test.student_HDFS;
INSERT INTO TABLE tablename select statement1 FROM from_statement;
--step1:创建一张源表student
drop table if exists ods_test.student;
create table ods_test.student(num int,name string,sex string,age int,dept string) row format delimited fields terminated by ',';
--加载数据
load data inpath '/test_data/students.txt' into table ods_test.student;
--step2:创建一张目标表 只有两个字段
create table ods_test.student_info(sno int,sname string);
--使用insert+select插入数据到新表中
insert into table ods_test.student_info select num,name from ods_test.student;
select * from ods_test.student_info;
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[LIMIT [offset,] rows];
--1、select_expr
--查询所有字段或者指定字段
select * from ods_test.student_local;
select name from ods_test.student_local;
--查询当前数据库
select current_database(); --省去from关键字
--返回所有匹配的行
select name from ods_test.student_local;
--相当于
select all name from ods_test.student_local;
--返回所有匹配的行 去除重复的结果
select distinct name from ods_test.student_local;
--多个字段distinct 整体去重
select distinct age,name from ods_test.student_local;
--3、WHERE CAUSE
select * from ods_test.student_local where 1 > 2; -- 1 > 2 返回false
select * from ods_test.student_local where 1 = 1; -- 1 = 1 返回true
--找出来自于California州的疫情数据
select * from ods_test.student_local where name = "李勇";
--where条件中使用函数 找出州名字母长度超过10位的有哪些
select * from ods_test.student_local where length(name) >1 ;
--注意:where条件中不能使用聚合函数
-- --报错 SemanticException:Not yet supported place for UDAF ‘sum'
--聚合函数要使用它的前提是结果集已经确定。
--而where子句还处于“确定”结果集的过程中,因而不能使用聚合函数。
select name,sum(age) from ods_test.student_local where sum(age) >100 group by state;
--可以使用Having实现
select name,sum(age) from ods_test.student_local group by name having sum(age) > 20;
特殊条件(空值判断、between、in)
常见的聚合操作函数
AVG(column)
|
返回某列的平均值
|
COUNT(column)
|
返回某列的行数(不包括 NULL 值)
|
COUNT(*)
|
返回被选行数
|
MAX(column)
|
返回某列的最高值
|
MIN(column)
|
返回某列的最低值
|
SUM(column)
|
返回某列的总和
|
--4、聚合操作
--统计总共有多少学生
select count(*) from ods_test.student_local;
-- 统计年龄20岁的学生总数
select count(*) from ods_test.student_local where age = 20;
--所有男生的年龄总数
select sum(age) from ods_test.student_local where sex = "男";
--年龄最大
select max(age) from ods_test.student_local;
--最小年龄
select min(age) from ods_test.student_local;
--平均年龄
select avg(age) from ods_test.student_local;
HAVING与WHERE区别
table_reference:是join查询中使用的表名。table_factor:与table_reference相同,是联接查询中使用的表名。j oin_condition:join查询关联的条件,如果在两个以上的表上需要连接,则使用AND关键字
join_table:
table_reference [INNER] JOIN table_factor [join_condition]
| table_reference {LEFT} [OUTER] JOIN table_reference join_condition
join_condition:
ON expression
--table1: 员工表
CREATE TABLE employee(
id int,
name string,
deg string,
salary int,
dept string
) row format delimited
fields terminated by ',';
--table2:员工家庭住址信息表
CREATE TABLE employee_address (
id int,
hno string,
street string,
city string
) row format delimited
fields terminated by ',';
--table3:员工联系方式信息表
CREATE TABLE employee_connection (
id int,
phno string,
email string
) row format delimited
fields terminated by ',';
--加载数据到表中
load data local inpath '/export/tmp/employee.txt' into table employee;
load data local inpath '/export/tmp/employee_address.txt' into table employee_address;
load data local inpath '/export/tmp/employee_connection.txt' into table employee_connection;
--1、inner join
select e.id,e.name,e_a.city,e_a.street
from employee e inner join employee_address e_a
on e.id =e_a.id;
--等价于 inner join=join
select e.id,e.name,e_a.city,e_a.street
from employee e join employee_address e_a
on e.id =e_a.id;
--等价于 隐式连接表示法
select e.id,e.name,e_a.city,e_a.street
from employee e , employee_address e_a
where e.id =e_a.id;
--2、left join
select e.id,e.name,e_conn.phno,e_conn.email
from employee e left join employee_connection e_conn
on e.id =e_conn.id;
--等价于 left outer join
select e.id,e.name,e_conn.phno,e_conn.email
from employee e left outer join employee_connection e_conn
on e.id =e_conn.id;
------------String Functions 字符串函数------------
--长度
select length("yasar");
--倒序
select reverse("yasar");
连接字符串
select concat("angela","baby");
--带分隔符字符串连接函数:concat_ws(separator, [string | array(string)]+)
select concat_ws('.', 'www', array('baidu', 'com'));
select concat_ws('.', 'www', 'baidu', 'com');
--字符串截取函数:substr(str, pos[, len]) 或者 substring(str, pos[, len])
select substr("angelababy",-2); --pos是从1开始的索引,如果为负数则倒着数
select substr("angelababy",2,2);
--分割字符串函数: split(str, regex)
select split('apache hive', ' ');
----------- Date Functions 日期函数 -----------------
--获取当前日期: current_date
select current_date();
--获取当前UNIX时间戳函数: unix_timestamp
select unix_timestamp();
--日期转UNIX时间戳函数: unix_timestamp
select unix_timestamp("2011-12-07 13:01:03");
--指定格式日期转UNIX时间戳函数: unix_timestamp
select unix_timestamp('20111207 13:01:03','yyyyMMdd HH:mm:ss');
--UNIX时间戳转日期函数: from_unixtime
select from_unixtime(1618238391);
select from_unixtime(0, 'yyyy-MM-dd HH:mm:ss');
--日期比较函数: datediff 日期格式要求'yyyy-MM-dd HH:mm:ss' or 'yyyy-MM-dd'
select datediff('2012-12-08','2012-05-09');
--日期增加函数: date_add
select date_add('2012-02-28',10);
--日期减少函数: date_sub
select date_sub('2012-01-1',10);
(3)Mathematical Functions 数学函数
----Mathematical Functions 数学函数-------------
--取整函数: round 返回double类型的整数值部分 (遵循四舍五入)
select round(3.1415926);
--指定精度取整函数: round(double a, int d) 返回指定精度d的double类型
select round(3.1415926,4);
--取随机数函数: rand 每次执行都不一样 返回一个0到1范围内的随机数
select rand();
--指定种子取随机数函数: rand(int seed) 得到一个稳定的随机数序列
select rand(3)
(4)Conditional Functions 条件函数
-----Conditional Functions 条件函数------------------
--使用之前课程创建好的student表数据
select * from student limit 3;
--if条件判断: if(boolean testCondition, T valueTrue, T valueFalseOrNull)
select if(1=2,100,200);
select if(sex ='男','M','W') from student limit 3;
--空值转换函数: nvl(T value, T default_value)
select nvl("allen","yasar");
select nvl(null,"yasar");
--条件转换函数: CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END
select case 100 when 50 then 'tom' when 100 then 'mary' else 'tim' end;
select case sex when '男' then 'male' else 'female' end from student limit 3;
# 随机桶抽取, 分配桶是有规则的
# 可以按照列的hash取模分桶
# 按照完全随机分桶
-- 其它条件不变的话,每一次运行结果一致
select username, orderId, totalmoney FROM itheima.orders
tablesample(bucket 3 out of 10 on username);
-- 完全随机,每一次运行结果不同
select * from itheima.orders
tablesample(bucket 3 out of 10 on rand());
# 数据块抽取,按顺序抽取,每次条件不变,抽取结果不变
-- 抽取100条
select * from itheima.orders
tablesample(100 rows);
-- 取1%数据
select * from itheima.orders
tablesample(1 percent);
-- 取 1KB数据
select * from itheima.orders
tablesample(1K);