hive进阶——在centos7里面配置mysql,将原来hive的客户端扩展
centos集群上安装hive客户端的操作步骤以及hive介绍
文章目录
Hive 实战
1、需求描述
2、数据结构
1)视频表
2)用户表
3、准备工作
3.1、准备表
3.2、创建原始数据表
3.3、 创建orc 存储格式带snappy 压缩的表
4、业务统计
4.1、统计视频观看数Top10
4.2、统计视频类别热度Top10
4.3 统计出视频观看数最高的20 个视频的所属类别以及类别包含Top20 视频的个数
4.4 统计视频观看数Top50 所关联视频的所属类别排序
4.5 统计每个类别中的视频热度Top10,以Music 为例
4.6 统计每个类别视频观看数Top10
4.7 统计上传视频最多的用户Top10 以及他们上传的视频观看次数在前20 的视频
本文主要介绍hive的一个案例实战,以及相关hive语句的书写,案例仅供参考。
统计硅谷影音视频网站的常规指标,各种TopN 指标:
- -- 统计视频观看数Top10
- -- 统计视频类别热度Top10
- -- 统计出视频观看数最高的20 个视频的所属类别以及类别包含Top20 视频的个数
- -- 统计视频观看数Top50 所关联视频的所属类别排序
- -- 统计每个类别中的视频热度Top10,以Music 为例
- -- 统计每个类别视频观看数Top10
- -- 统计上传视频最多的用户Top10 以及他们上传的视频观看次数在前20 的视频
用户表
1)需要准备的表
创建原始数据表:gulivideo_ori,gulivideo_user_ori,
创建最终表:gulivideo_orc,gulivideo_user_orc
(1)gulivideo_ori
create table gulivideo_ori(
videoId string,
uploader string,
age int,
category array,
length int,
views int,
rate float,
ratings int,
comments int,
relatedId array)
row format delimited fields terminated by "\t"
collection items terminated by "&"
stored as textfile;
(2)创建原始数据表: gulivideo_user_ori
create table gulivideo_user_ori(
uploader string,
videos int,
friends int)
row format delimited
fields terminated by "\t"
stored as textfile;
(1)gulivideo_orc
create table gulivideo_orc(
videoId string,
uploader string,
age int,
category array,
length int,
views int,
rate float,
ratings int,
comments int,
relatedId array)
stored as orc
tblproperties("orc.compress"="SNAPPY");
(2)gulivideo_user_orc
create table gulivideo_user_orc(
uploader string,
videos int,
friends int)
row format delimited
fields terminated by "\t"
stored as orc
tblproperties("orc.compress"="SNAPPY");
(3)向ori 表插入数据
load data local inpath "/opt/module/data/video" into table gulivideo_ori;
load data local inpath "/opt/module/user" into table gulivideo_user_ori;
(4)向orc 表插入数据
insert into table gulivideo_orc select * from gulivideo_ori;
insert into table gulivideo_user_orc select * from gulivideo_user_ori;
补充:创建 orc 存储 格式 带 snappy 压缩 的 表
在Hive中,可以使用以下语句创建一个存储格式为ORC,并且采用Snappy压缩的表:
CREATE TABLE table_name(
column1 data_type,
column2 data_type,
...
)
STORED AS ORC
TBLPROPERTIES("orc.compress"="SNAPPY");
其中,table_name表示表名,column1、column2等表示表中的列名和对应的数据类型。STORED AS ORC表示存储格式为ORC,TBLPROPERTIES("orc.compress"="SNAPPY")表示采用Snappy压缩。
需要注意的是,创建ORC表时,如果需要使用Snappy压缩,需要先确保Hive的配置文件中开启了Snappy压缩,可以在hive-site.xml文件中添加如下配置信息:
hive.exec.compress.output
true
hive.exec.compress.intermediate
true
hive.exec.compress.result
true
mapreduce.map.output.compress.codec
org.apache.hadoop.io.compress.SnappyCodec
mapreduce.output.fileoutputformat.compress.codec
org.apache.hadoop.io.compress.SnappyCodec
这样,在创建ORC表时,就可以使用Snappy压缩了。
思路:使用order by 按照views 字段做一个全局排序即可,同时我们设置只显示前10
条。
最终代码:
SELECT videoId,views
FROM gulivideo_orc
ORDER BY views DESC
LIMIT 10;
思路:
(1)即统计每个类别有多少个视频,显示出包含视频最多的前10 个类别。
(2)我们需要按照类别group by 聚合,然后count 组内的videoId 个数即可。
(3)因为当前表结构为:一个视频对应一个或多个类别。所以如果要group by 类别,
需要先将类别进行列转行(展开),然后再进行count 即可。
(4)最后按照热度排序,显示前10 条。
最终代码:
SELECT t1.category_name ,COUNT(t1.videoId) hot
FROM (SELECT videoId,category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
) t1
GROUP BY t1.category_name
ORDER BY hot DESC
LIMIT 10;
思路:
(1)先找到观看数最高的20 个视频所属条目的所有信息,降序排列
(2)把这20 条信息中的category 分裂出来(列转行)
(3)最后查询视频分类名称和该分类下有多少个Top20 的视频
最终代码:
SELECTt2.category_name,COUNT(t2.videoId) video_sum
FROM (SELECT t1.videoId,category_name
FROM (SELECT videoId,views ,category
FROM gulivideo_orc
ORDER BY views DESC
LIMIT 20) t1
lateral VIEW explode(t1.category) t1_tmp AS category_name) t2
GROUP BY t2.category_name
代码:
SELECT t6.category_name,t6.video_sum,
rank() over(ORDER BY t6.video_sum DESC ) rk
FROM (
SELECT t5.category_name,
COUNT(t5.relatedid_id) video_sum
FROM (
SELECT t4.relatedid_id,category_name
FROM (
SELECT t2.relatedid_id ,
t3.category
FROM (
SELECT
relatedid_id
FROM (
SELECT videoId,views,relatedid
FROM gulivideo_orc
ORDER BY views DESC
LIMIT 50
)t1
lateral VIEW explode(t1.relatedid) t1_tmp AS relatedid_id
)t2
JOIN gulivideo_orc t3 ON t2.relatedid_id = t3.videoId
) t4
lateral VIEW explode(t4.category) t4_tmp AS category_name
) t5
GROUP BY t5.category_name
ORDER BY video_sum DESC
) t6
思路:
(1)要想统计Music 类别中的视频热度Top10,需要先找到Music 类别,那么就需要将
category 展开,所以可以创建一张表用于存放categoryId 展开的数据。
(2)向category 展开的表中插入数据。
(3)统计对应类别(Music)中的视频热度。
统计Music 类别的Top10(也可以统计其他)
SELECT t1.videoId,t1.views,t1.category_name
FROM (
SELECT videoId,views,category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1
WHERE t1.category_name = "Music"
ORDER BY t1.views DESC
LIMIT 10
最终代码:
SELECT t2.videoId,t2.views,t2.category_name,t2.rk
FROM (
SELECT t1.videoId,t1.views,t1.category_name,
rank() over(PARTITION BY t1.category_name ORDER BY t1.views DESC ) rk
FROM (
SELECT videoId,views,category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1
)t2
WHERE t2.rk <=10
思路:
(1)求出上传视频最多的10 个用户
(2)关联gulivideo_orc 表,求出这10 个用户上传的所有的视频,按照观看数取前20
最终代码:
SELECT t2.videoId,t2.views,t2.uploader
FROM (
SELECT uploader,videos
FROM gulivideo_user_orc
ORDER BY videos DESC
LIMIT 10
) t1
JOIN gulivideo_orc t2 ON t1.uploader = t2.uploader
ORDER BY t2.views DESCLIMIT 20
以上就是今天的内容~
最后欢迎大家点赞,收藏⭐,转发,
如有问题、建议,请您在评论区留言哦。