逻辑窗口、视图
hive> create view student_view as select * from student where age>15;
OK
Time taken: 0.522 seconds
hive> desc student_view;
OK
id int
name string
age int
Time taken: 0.144 seconds, Fetched: 3 row(s)
hive> select * from student_view;
OK
1005 bob 24
1006 mark 23
1007 leo 22
1011 JACK 23
1014 JAMES 24
Time taken: 0.209 seconds, Fetched: 5 row(s)
hive> show tables;
OK
stu
stu2
stu_buck
stu_mess
stu_mess_part
stu_mess_part_buck
stu_message
student
student2
student3
student5
student_buck
student_view //刚刚创建的视图
students
Time taken: 0.042 seconds, Fetched: 14 row(s)
hive> drop view student_view;
OK
Time taken: 0.711 seconds
hive> show tables;
OK
stu
stu2
stu_buck
stu_mess
stu_mess_part
stu_mess_part_buck
stu_message
student
student2
student3
student5
student_buck
students
Time taken: 0.034 seconds, Fetched: 13 row(s)
3.0版本以后没有
适用于不更新的静态字段。以免总是重建索引数据。每次建立、更新数据后,都要重建索引以构建索引表
创建索引
hive> create index student_index on table student(id) as 'compact' with deferred rebuild;
OK
Time taken: 1.931 seconds
hive> show index on student;
OK
student_index student id yr__student_student_index__ compact
Time taken: 0.162 seconds, Fetched: 1 row(s)
hive> select * from yr__student_student_index__;
OK
Time taken: 0.401 seconds
构建索引
hive> alter index student_index on student rebuild;
hive> select * from yr__student_student_index__;
OK
//索引里的内容:{值,HDFS文件位置,偏移量的数组(可能有多个)}
1005 hdfs://master:9000/user/hive/warehouse/yr.db/student/student2.txt [0]
1006 hdfs://master:9000/user/hive/warehouse/yr.db/student/student2.txt [12]
1007 hdfs://master:9000/user/hive/warehouse/yr.db/student/student2.txt [25]
1011 hdfs://master:9000/user/hive/warehouse/yr.db/student/student2.txt [37]
1014 hdfs://master:9000/user/hive/warehouse/yr.db/student/student2.txt [50]
Time taken: 0.091 seconds, Fetched: 5 row(s)
显示格式化(带列名称)
hive> show formatted index on student;
OK
idx_name tab_name col_names idx_tab_name idx_type comment
student_index student id yr__student_student_index__ compact
Time taken: 0.073 seconds, Fetched: 4 row(s)
删除索引
hive> drop index student_index on student;
OK
Time taken: 0.947 seconds
hive> show tables;
OK
stu
stu2
stu_buck
stu_mess
stu_mess_part
stu_mess_part_buck
stu_message
student
student2
student3
student5
student_buck
students
Time taken: 0.173 seconds, Fetched: 13 row(s)
hive> create index student_index on table student(name) as 'bitmap' with deferred rebuild;
OK
Time taken: 0.652 seconds
hive> show tables;
OK
stu
stu2
stu_buck
stu_mess
stu_mess_part
stu_mess_part_buck
stu_message
student
student2
student3
student5
student_buck
students
yr__student_student_index__
Time taken: 0.043 seconds, Fetched: 14 row(s)
hive> select * from yr__student_student_index__
> ;
OK
Time taken: 0.127 seconds
hive> alter index student_index on student rebuild;
hive> show formatted index on student;
OK
idx_name tab_name col_names idx_tab_name idx_type comment
student_index student name yr__student_student_index__ bitmap
Time taken: 0.075 seconds, Fetched: 4 row(s)
hive> drop index student_index on student;
OK
Time taken: 0.218 seconds
create index student_index on table student(age) as 'compact' with deferred rebuild in table student_index_table;
drop index student_index on student;
create index student_index on table student(name) as 'compact' with deferred rebuild stored as rcfile;
drop index student_index on student;
CREATE INDEX student_index ON TABLE student (age) AS 'COMPACT' with deferred rebuild ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;
drop index student_index on student;
CREATE INDEX student_index ON TABLE student (age) AS 'COMPACT' with deferred rebuild IDXPROPERTIES ("prop1"="value1", "prop2"="value2");
drop index student_index on student;
CREATE INDEX student_index ON TABLE student (age) AS 'COMPACT' with deferred rebuild TBLPROPERTIES ("prop3"="value3", "prop4"="value4");
drop index student_index on student;
数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。
数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成。
由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点
Hadoop框架的特性
1.不怕数据大,怕数据倾斜
2.Jobs 数比较多的作业运行效率相对比较低,如子查询比较多
3.SUM,COUNT,MAX,MIN 等聚集函数,不会有数据倾斜问题
数据倾斜的主要表现
任务进度长时间维持在 99% 或者 100% 的附近, 查看任务监控页面,发现只有少量(1个或者几个) reduce 子任务未完成, 因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到3倍甚至更多,最长时间远大于平均时长
会发生数据倾斜的情况
1.小表join超大表
2.group by不和聚集函数(sum、count等)搭配使用的时候
3.数据量大的情况下,count(distinct)容易数据倾斜,因为count(distinct)是按group by字段分组,按distinct字段排序
产生数据倾斜的具体原因
key 分布不均匀,少量的key 对应大量value
业务数据本身的特性
建表考虑不周全
某些 HQL 语句本身就存在数据倾斜
1.空值产生的数据倾斜
遇到需要进行join的但是关联字段有数据为空,如表一的id需要和表二的id进行关联
场景说明
在日志中,常会有信息丢失的问题, 比如日志中的 user_id,如果取其中的 userid 和用户表中的 userid 相关联,就会碰到数据倾斜的问题
解决方案 1: user_id 为空的不参与关联
SELECT * FROM log a
JOIN user b
ON a.user_id IS NOT NULL
AND a.user_id = b.user_id
UNION ALL
SELECT * FROM log c WHERE c.user_id IS NULL;
SELECT * FROM log a
LEFT OUTER JOIN user b
ON CASE WHEN a.user_id IS NULL THEN CONCAT('hive',RAND())
ELSE a.user_id END = b.user_id;
2.不同数据类型关联产生数据倾斜
SELECT * FROM user a
LEFT OUTER JOIN log b
ON b.user_id = CAST(a.user_id AS STRING);
3.大小表关联查询
4.group by
原理:hive.map.aggr=true 这个配置项代表是否在map端进行聚合
hive.groupby.skwindata=true 当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。
5.map和reduce优化
1)当出现小文件过多,需要合并小文件。
通过set hive.merge.mapfiles=true来解决。
2)单个文件大小稍稍大于配置的block块的大写,此时需要适当增加map的个数。
解决方法:set mapred.map.tasks个数
3)文件大小适中,但map端计算量非常大,如select id,count(*),sum(case when…),sum(case when…)…需要增加map个数。
解决方法:set mapred.map.tasks个数,set mapred.reduce.tasks个数
6.当HiveQL中包含count(distinct)时
场景说明
如果数据量非常大,执行如select a,count(distinct b) from t group by a;类型的SQL时,会出现数据倾斜的问题。
解决方法:使用sum…group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;