灰哀之雪

hive场景题

文章目录

- - - 1、了解哪些窗口函数，都是什么功能？找一个在某个业务中的应用？手写窗口函数及功能意义，同时随便写一个带窗口函数的sql，并说明其sql的含义。
    - 2、求出每个栏目的被观看次数及累计观看时长？
    - 3、编写sql实现
    - 4、编写连续7天登录的总人数：
    - 5、你知道的排名函数有哪些？说一说它们之间的区别？文字说明即可
    - 6、编写sql语句实现每班前三名，分数一样不并列，同时求出前三名按名次排序的一次的分差：
    - 7、对于行列互换，你有哪些解决方式，详细说明每一种方式？使用语言描述即可
    - 8、编写sql实现行列互换。数据如下：
    - 9、编写sql实现如下：
    - 10、行转列
    - 11、行转列
    - 12、列转行
    - 13、行转列
    - 14、列转行
    - 时间函数
    - 15、时间戳函数：unix_timestamp，from_unixtime
    - 16、时间格式转换：yyyyMMdd -> yyyy-MM-dd
    - 17、数据：店铺,月份,金额
    - 18、Hive是否发生过数据倾斜，怎么处理的，原理是什么？
    - 19、Hive中什么时候使用过array和map，为什么使用？
    - 20、使用sql编写下面的需求：
    - 21、使用sql实现如下：
    - 22、使用hive求出两个数据集的差集？
    - 23、使用hive的hql实现如下需求
    - 24、使用hive的hql如下:
    - 25、每个用户连续登陆的最大天数？
    - 26、请使用sql计算pv、uv？
    - 27、hive中coalease()、nvl()、concat_ws()、collect_list()、collect_set()、regexp_replace().这几个函数的意义？
    - 28、有表如下记录了智智同学玩某moba游戏每局的英雄pick情况
    - 29、有三个表，分别是：
    - 30、某APP每天访问数据存放在表access_log里面，包含日期字段ds,用户类型字段user_type，用户账号user_id,用户访问时间log_time,请使用hive的hql语句实现如下需求：
    - 31、一张大表A(上亿条记录)和小表B(几千条记录)，如果join出现数据倾斜，有什么解决办法？
    - 32、有如下三张表:
    - 33、hive的hql中，left outer join和left semi join的区别？
    - 34、有一个订单表和渠道表，结构如下：
    - 35、考虑表设计和sql查询：
    - 36、需求如下：
    - 37、需求如下:
    - 38、需求如下
    - 39、需求如下
    - 40、需求如下
    - 41、需求如下
    - 42、需求如下

1、了解哪些窗口函数，都是什么功能？找一个在某个业务中的应用？手写窗口函数及功能意义，同时随便写一个带窗口函数的sql，并说明其sql的含义。

窗口函数 over() 又名开窗函数，属于分析函数的一种。

sum(col) over() : 分组对col累计求和
count(col) over() : 分组对col累计
min(col) over() : 分组对col求最小
max(col) over() : 分组求col的最大值
avg(col) over() : 分组求col列的平均值
first_value(col) over() : 某分区排序后的第一个col值
last_value(col) over() : 某分区排序后的最后一个col值
lag(col,n,DEFAULT) : 统计往前n行的col值，n可选，默认为1，DEFAULT当往上第n行为 NULL 时候， 取默认值，如不指定，则为 NULL
lead(col,n,DEFAULT) : 统计往后n行的col值，n可选，默认为1，DEFAULT当往下第n行为 NULL 时候， 取默认值，如不指定，则为 NULL
ntile(n) : 用于将分组数据按照顺序切分成n片，返回当前切片值。注意：n必须为int类型。

排名函数：
row_number() over() : 排名函数，不会重复，适合于生成主键或者不并列排名
rank() over() : 排名函数，有并列名次，名次不连续。如:1,1,3 
dense_rank() over() : 排名函数，有并列名次，名次连续。如：1，1，2

over() 函数的用法
distribute by + sort by 组合
位置：在over函数的小阔号
写法：可以单独使用，也可以一起组合使用
    如：
    over(distribute by colName)
    over(sort by colName)
    over(distribute by colName sort by colName [asc|desc])
作用：
   distribute by colName：用于指定分组字段，表示按照指定字段分组，那么每一组对应一个窗口,如果没有，则表示整张表为一组
   sort by colName: 用于排序，如果没有distribute by组合，表示整张表为一组，进行排序，如果有则组内进行排序

partition by +order by 组合
位置：还是在over小括号里
写法：可以单独使用，也可以一起组合使用
	如：
    over(partition by colName)
    over(order by colName)
    over(partition by colName order by colName [asc|desc])
作用：与 distribute by + sort by 组合效果一模一样。  

over(分组 排序 窗口)中的 order by 后使用 window 子句
作用：window子句用来更细粒度的管理窗口大小的

current row： 当前行
preceding:  向前
following:  向后
unbounded preceding: 从起点
unbounded following: 到终点

例如:
select name,orderdate,cost,
sum(cost) over() as sample1,--所有行相加
sum(cost) over(partition by name) as sample2,-- 按name分组，组内数据相加
sum(cost) over(partition by name order by orderdate) as sample3,-- 按name分组，组内数据累加
sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row )  as sample4 ,-- 与sample3一样，由起点到当前行的聚合
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and current row) as sample5, -- 当前行和前面一行做聚合
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and 1 FOLLOWING  ) as sample6,-- 当前行和前边一行及后面一行
sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample7 -- 当前行及后面所有行     
from t_order;

2、求出每个栏目的被观看次数及累计观看时长？

数据: video表

uid channel min 
1 1 23
2 1 12
3 1 12
4 1 32
5 1 342
6 2 13
7 2 34
8 2 13
9 2 134

drop table video;
create table video( 
uid int, 
channel string, 
min int 
)
row format delimited 
fields terminated by ' ' 
;
load data local inpath './hivedata/video.txt' into table video;

答案：

select channel,sum(min) from video group by channel;

3、编写sql实现

数据：

userid,month,visits 
A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,16
A,2015-03,22
B,2015-03,23
B,2015-03,10
B,2015-03,1

drop table visits;
create table visits(
userid string, 
month string, 
visits int 
)
row format delimited 
fields terminated by ',' 
;
load data local inpath './hivedata/visits.txt' overwrite into table visits;

完成需求：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数，结果数据格式如下:

+---------+----------+---------+-------------+---------------+--+
| userid  |  month   | visits  | max_visits  | total_visits  |
+---------+----------+---------+-------------+---------------+--+
| A       | 2015-01  | 33      | 33          | 33            |
| A       | 2015-02  | 10      | 33          | 43            |
| A       | 2015-03  | 38      | 38          | 81            |
| B       | 2015-01  | 30      | 30          | 30            |
| B       | 2015-02  | 15      | 30          | 45            |
| B       | 2015-03  | 34      | 34          | 79            |
+---------+----------+---------+-------------+---------------+--+

select t.userid,t.month,t.visits,
max(t.visits) over(distribute by t.userid sort by t.month asc) as max_visits,
sum(t.visits) over(distribute by t.userid sort by t.month asc) as total_visits 
from 
(select userid,month,sum(visits) as visits from visits group by userid,month) t;

4、编写连续7天登录的总人数：

数据: t1表

Uid dt login_status(1登录成功,0异常) 
1 2019-07-11 1 
1 2019-07-12 1 
1 2019-07-13 1 
1 2019-07-14 1 
1 2019-07-15 1 
1 2019-07-16 1 
1 2019-07-17 1 
1 2019-07-18 1 
2 2019-07-11 1 
2 2019-07-12 1 
2 2019-07-13 0 
2 2019-07-14 1 
2 2019-07-15 1 
2 2019-07-16 0 
2 2019-07-17 1 
2 2019-07-18 0 
2 2019-07-19 1 
2 2019-07-20 0 
2 2019-07-21 1 
2 2019-07-22 0 
2 2019-07-23 1 
2 2019-07-24 0 
3 2019-07-11 1 
3 2019-07-12 1 
3 2019-07-13 1 
3 2019-07-14 1 
3 2019-07-15 1 
3 2019-07-16 1 
3 2019-07-17 1 
3 2019-07-18 1

drop table login;
create table login( 
Uid int, 
dt string, 
login_status int 
)
row format delimited 
fields terminated by ' ' 
;

load data local inpath './hivedata/login.txt' into table login;

-- 1) 用窗口函数，根据uid分组，日期排序
select uid,dt,row_number() over(distribute by uid sort by dt) from login where login_status=1;

-- 2) 在第一步基础上使用 date_sub日期函数计算出每个日期排名前的日期
select t1.uid,date_sub(t1.dt,t1.num) dt from
(select uid,dt,row_number() over(distribute by uid sort by dt) num
from login where login_status=1) t1;

-- 3) 在第二步的基础上，根据用户id和日期分组，计算日期数目大于7的用户
select uid,dt from
(select t1.uid,date_sub(t1.dt,t1.num) dt from
(select uid,dt,row_number() over(distribute by uid sort by dt) num
from login where login_status=1) t1) t2
group by uid,dt
having count(uid)>7;

5、你知道的排名函数有哪些？说一说它们之间的区别？文字说明即可

1. row_number()  分数有相同，名次是连续不重复的
    分数   名次
    100     1
    99      2
    99      3
    98      4
    
2. rank()         分数相同，名次有重复，是间断的
    分数   名次
    100     1
    99      2
    99      2
    98      4
    
3. dense_rank()    分数有相同，名次重复不间断
    分数   名次
    100     1
    99      2
    99      2
    98      3
    
这三个排名函数，不能单独使用，也必须配合over函数一起使用。

6、编写sql语句实现每班前三名，分数一样不并列，同时求出前三名按名次排序的一次的分差：

数据： stu表

Stu_no class score 
1	1901	90
2	1901	90
3	1901	83
4	1901	60
5	1902	66
6	1902	23
7	1902	99
8	1902	67
9	1902	87

drop table stu;
create table stu( 
Stu_no int, 
class string, 
score int 
)
row format delimited 
fields terminated by '\t' 
;

load data local inpath './hivedata/stu.txt' into table stu;

编写sql实现，结果如下：

+--------+---------+--------+-----+----------+--+
| class  | stu_no  | score  | rn  | rn_diff  |
+--------+---------+--------+-----+----------+--+
| 1901   | 2       | 90     | 1   | 90       |
| 1901   | 1       | 90     | 2   | 0        |
| 1901   | 3       | 83     | 3   | -7       |
| 1902   | 7       | 99     | 1   | 99       |
| 1902   | 9       | 87     | 2   | -12      |
| 1902   | 8       | 67     | 3   | -20      |
+--------+---------+--------+-----+----------+--+

-- 1) 先查score排序排名后的表
select class,stu_no,score,row_number() over(distribute by class sort by score desc) rn from stu；

-- 2) 基于 1 查出的虚拟表用 where 条件查出前3名 
select * from
(select class,stu_no,score,row_number() over(distribute by class sort by score desc) rn from stu) t where t.rn<=3；

-- 3）使用lag查找前一行记录
-- lag(列名,n,m):  当前记录前面第n行记录的<列名>的值，没有则默认值为m；如果不带参数n,m，则查找当前记录前面第一行的记录<列名>的值，没有则默认值为null
select t.*,t.score-nvl(lag(score) over(distribute by class sort by rn),0) rn_diff from
(select class,stu_no,score,row_number() over(distribute by class sort by score desc) rn 
from stu) t where t.rn<=3;

7、对于行列互换，你有哪些解决方式，详细说明每一种方式？使用语言描述即可

行转列： 
1、使用 case when 查询出多列即可，即可增加列。 


列转行: 
1、lateral view explode()，使用展开函数可以将1列转成多行，被转换列适用于array、map等类型。 

posexplode 相比在 explode 之上，将一列数据转为多行之后，还会输出数据的下标。

lateral view posexplode(数组)，如有排序需求，则需要索引。将数组展开成两行(索引 , 值),需要 as 两个别名。 


2、case when 结合 concat_ws 与 collect_set/collect_list 实现。内层用case when，外层用 collect_set/list收集，对搜集完后用concat_ws分割连接形成列。

8、编写sql实现行列互换。数据如下：

id sid subject int
1,001,语文,90
2,001,数学,92
3,001,英语,80
4,002,语文,88
5,002,数学,90
6,002,英语,75.5
7,003,语文,70
8,003,数学,85
9,003,英语,90
10,003,政治,82

编写sql实现，得到结果如下：

+---------+--------+--------+--------+--------+-----------+--+
| sid  	  |u2.语文 | u2.数学 |u2.英语 | u2.政治 | u2.total  |
+---------+--------+--------+--------+--------+-----------+--+
| 001     | 90.0   | 92.0   | 80.0   | 0.0    | 262.0     |
| 002     | 88.0   | 90.0   | 75.5   | 0.0    | 253.5     |
| 003     | 70.0   | 85.0   | 90.0   | 82.0   | 327.0     |
| total   | 248.0  | 267.0  | 245.5  | 82.0   | 842.5     |
+---------+--------+--------+--------+--------+-----------+--+

drop table score;
create table score( 
id int, 
sid string, 
subject string, 
score double
)
row format delimited 
fields terminated by ',' 
;

load data local inpath './hivedata/score.txt' into table score;

-- 1) 先列转行
select sid
,sum(case subject when '语文' then score else 0 end) `语文`
,sum(case subject when '数学' then score else 0 end) `数学`
,sum(case subject when '英语' then score else 0 end) `英语`
,sum(case subject when '政治' then score else 0 end) `政治`
from score group by sid;

-- 2) 基于 1 表每行求和
select u1.*,u1.`语文`+u1.`数学`+u1.`英语`+u1.`政治`  `u1.total` from
(select sid
,sum(case subject when '语文' then score else 0 end) `语文`
,sum(case subject when '数学' then score else 0 end) `数学`
,sum(case subject when '英语' then score else 0 end) `英语`
,sum(case subject when '政治' then score else 0 end) `政治`
from score group by sid) u1;

-- 3) 基于 2 表增加一行每列求和
-- concat()函数 功能：将多个字符串连接成一个字符串
-- 语法：concat(str1, str2,...)
-- 返回结果为连接参数产生的字符串，如果有任何一个参数为null，则返回值为null。
select u2.* from
(select u1.*,u1.`语文`+u1.`数学`+u1.`英语`+u1.`政治`  `u1.total` from
(select sid
,sum(case subject when '语文' then score else 0 end) `语文`
,sum(case subject when '数学' then score else 0 end) `数学`
,sum(case subject when '英语' then score else 0 end) `英语`
,sum(case subject when '政治' then score else 0 end) `政治`
from score group by sid) u1) u2
union
select concat('total',"") sid,
sum(`语文`) `语文`,
sum(`数学`) `数学`,
sum(`英语`) `英语`,
sum(`政治`) `政治`,
sum(`u1.total`) `u2.total` from 
(select u1.*,u1.`语文`+u1.`数学`+u1.`英语`+u1.`政治`  `u1.total` from
(select sid
,sum(case subject when '语文' then score else 0 end) `语文`
,sum(case subject when '数学' then score else 0 end) `数学`
,sum(case subject when '英语' then score else 0 end) `英语`
,sum(case subject when '政治' then score else 0 end) `政治`
from score group by sid) u1) u2;

9、编写sql实现如下：

数据： t1表

uid tags 
1	1,2,3
2	2,3
3	1,2

编写sql实现如下结果：

drop table t1;
create table t1( 
uid int, 
tags string 
)
row format delimited 
fields terminated by '\t' 
;

load data local inpath './hivedata/t1.txt' into table t1;

select uid,tag from t1 lateral view explode(split(tags,",")) A as tag;

10、行转列

数据： T2表:

Tags 
1,2,3
1,2
2,3

T3表:

id lab 
1 A
2 B
3 C

根据T2和T3表的数据，编写sql实现如下结果：

+--------+--------+--+
|  tags  |  labs  |
+--------+--------+--+
| 1,2    | A,B    |
| 1,2,3  | A,B,C  |
| 2,3    | B,C    |
+--------+--------+--+

drop table t2;
create table t2( 
tags string 
);
load data local inpath './hivedata/t2.txt' overwrite into table t2;

drop table t3;
create table t3( 
id int, 
lab string 
)
row format delimited 
fields terminated by ' ' 
;

load data local inpath './hivedata/t3.txt' overwrite into table t3;

-- 1) 展开t2表
select tags,tag from t2 lateral view explode(split(tags,",")) tags as tag;

-- 2) t3表连接 1 表
select A.tags,t3.lab from
(select tags,tag from t2 lateral view explode(split(tags,","))tags as tag) A left join t3 on A.tag=t3.id;

-- 3) 2表列转行
-- concat_ws(指定参数之间的分隔符,参数)
select B.tags,concat_ws(',',collect_list(B.lab)) as `labs` from
(select A.tags,t3.lab from
(select tags,tag from t2 lateral view explode(split(tags,","))tags as tag) A left join t3 on A.tag=t3.id) B 
group by B.tags;

11、行转列

数据： t4表：

id tag flag 
a b 2
a b 1
a b 3
c d 6
c d 8
c d 8

编写sql实现如下结果：

id tag flag 
a b 2|1|3
c d 6|8

drop table t4;
create table t4( 
id string, 
tag string, 
flag int 
)
row format delimited 
fields terminated by ' ' 
;

load data local inpath './hivedata/t4.txt' overwrite into table t4;

-- cast(arg1 as arg2);arg1是要转换的数据，arg2是目标类型
select id,tag,concat_ws('|',collect_set(cast(flag as string)))  `flag`
from t4 
group by id,tag;

12、列转行

数据： t5表

uid name tags 
1	goudan	chihuo,huaci
2	mazi	sleep
3	laotie	paly

编写sql实现如下结果：

uid name tag 
1 goudan chihuo
1 goudan huaci
2 mazi sleep
3 laotie paly

drop table t5;
create table t5( 
uid string, 
name string, 
tags string 
)
row format delimited 
fields terminated by '\t' ;

load data local inpath './hivedata/t5.txt' overwrite into table t5;

select uid,name,tag from t5 lateral view explode(split(tags,",")) A as tag;

13、行转列

数据： content表：

uid contents 
1	i|love|china
2	china|is|good|i|i|like

统计结果如下,如果出现次数一样，则按照content名称排序：

+----------+------+--+
| content  | num  |
+----------+------+--+
| i        | 3    |
| china    | 2    |
| good     | 1    |
| is       | 1    |
| like     | 1    |
| love     | 1    |
+----------+------+--+

drop table content;
create table content( 
uid int, 
contents string 
)
row format delimited 
fields terminated by '\t' 
;
load data local inpath './hivedata/content.txt' overwrite into table content;

-- 1) 行转列
select uid,content from content lateral view explode(split(contents,"\\|")) t as content;

-- 2) 在 1 表基础上分组计数排序
select content,count(content) num from
(select uid,content from content lateral view explode(split(contents,"\\|")) t as content) A
group by content
order by num desc,content;

14、列转行

数据： course1表

id course 
1,a
1,b
1,c
1,e
2,a
2,c
2,d
2,f
3,a
3,b
3,c
3,e

根据编写sql，得到结果如下(表中的1表示选修，表中的0表示未选修)：

+-----+----+----+----+----+----+----+--+
| id  | a  | b  | c  | d  | e  | f  |
+-----+----+----+----+----+----+----+--+
| 1   | 1  | 1  | 1  | 0  | 1  | 0  |
| 2   | 1  | 0  | 1  | 1  | 0  | 1  |
| 3   | 1  | 1  | 1  | 0  | 1  | 0  |
+-----+----+----+----+----+----+----+--+

create table course( 
id int, 
course string 
)
row format delimited 
fields terminated by ',' 
;

load data local inpath './hivedata/course.txt' overwrite into table course;

select id
,sum(case course when 'a' then 1 else 0 end) as `a`
,sum(case course when 'b' then 1 else 0 end) as `b`
,sum(case course when 'c' then 1 else 0 end) as `c`
,sum(case course when 'd' then 1 else 0 end) as `d`
,sum(case course when 'e' then 1 else 0 end) as `e`
,sum(case course when 'f' then 1 else 0 end) as `f`
from course group by id;

时间函数

from_unixtime(bigint unixtime,[string format]): 时间戳转日期函数
unix_timestamp([string date]): 转换成时间戳，然后转换格式为"yyyy-MM-dd HH:mm:ss"的日期到 UNIX 时间戳。如果转化失败，则返回0，返回bigint类型
to_date(string timestamp): 将时间戳转换成日期，默认格式为2011-12-08 10:03:01 
year() : 将时间戳转换成年，默认格式为2011-12-08 10:03:01 
month() : 将时间戳转换成月，默认格式为2011-12-08 10:03:01 
hour() : 将时间戳转换成小时，默认格式为2011-12-08 10:03:01
day(string date) : 将时间戳转换成天，默认格式为2011-12-08 10:03:01
date_diff(string enddate, string startdate) : 日期比较函数，反回结束日期减去开始日期的天数
date_sub(string startdate, int days) : 日期减少函数，返回开始日期减少days天后的日期字符串
date_add(string startdate, int days) : 日期增加函数，返回开始日期增加days天后的日期字符串
last_day(string date) : 返回该月的最后一天的日期，可忽略时分秒部分(HH:mm:ss)。
last_day(string date) :返回string类型的值。
next_day(string date,string x) : 返回下一个星期x的日期(x为前两英文星期前两位或者全写 MONDAY)，返回字符串。 
current_date() : 获取当天的日期，返回字符串，没有任何的参数。
current_timestamp() : 获取当前的时间戳

15、时间戳函数：unix_timestamp，from_unixtime

获取当前时间戳：

select unix_timestamp();

获取"2019-07-31 11:57:25"对应的时间戳:

select unix_timestamp("2019-07-31 11:57:25");

获取"2019-07-31 11:57"对应的时间戳：

select unix_timestamp("2019-07-31 11:57","yyyy-MM-dd HH:mm");

获取时间戳:1564545445所对应的日期和时分秒：

select from_unixtime(1564545445);

获取时间戳:1564545446所对应的日期和小时(yyyy/MM/dd HH):

select from_unixtime(1564545445,"yyyy/MM/dd HH");

16、时间格式转换：yyyyMMdd -> yyyy-MM-dd

数据: dt表

20190730
20190731

编写sql实现如下的结果：

2019-07-30
2019-07-31

drop table dt;
create table dt( 
dt string 
);

load data local inpath './hivedata/dt.txt' overwrite into table dt;

select from_unixtime(unix_timestamp(dt,"yyyyMMdd"),"yyyy-MM-dd") from dt;

17、数据：店铺,月份,金额

sid month money
a,01,150
a,01,200
b,01,1000
b,01,800
c,01,250
c,01,220
b,01,6000
a,02,2000
a,02,3000
b,02,1000
b,02,1500
c,02,350
c,02,280
a,03,350
a,03,250

drop table store;
create table store( 
sid string,
month string,
money int
)
row format delimited 
fields terminated by ',' 
;

load data local inpath './hivedata/store.txt' overwrite into table store;

编写Hive的HQL语句求出每个店铺的当月销售额和累计到当月的总销售额?

-- 1) 查询每个店铺的当月销售额
select sid,month,sum(money) as money from store group by sid,month;

-- 2) 在 1 基础上查询累计到当月的总销售额
select sid,month,money,sum(money) over(partition by sid order by month) total
from
(select sid,month,sum(money) as money from store group by sid,month) A;

18、Hive是否发生过数据倾斜，怎么处理的，原理是什么？

数据倾斜：由于key分布不均匀造成的数据向一个方向偏离的现象。 
本身数据就倾斜
join 语句容易造成
count(distinct col) 很容易造成倾斜
group by 也可能会造成

处理方法: 
1、如果是 group by 产生的，则可考虑设置如下属性： 

-- 是否在 Map 端进行聚合，默认为 True
hive.map.aggr = true
--有数据倾斜的时候进行负载均衡（默认是 false）
hive.groupby.skewindata = true

原理： 
hive.map.aggr=true 这个配置项代表是否在map端进行聚合，类似于combiner做提前聚合。 
hive.groupby.skewindata=true 这个配置为true，代表生成的查询计划会有两个 MR Job。

第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果。这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的。

第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保 证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

2、count(distinct)产生的 如果数据量非常大，执行如 
select a,count(distinct b) from t group by a;
类型的SQL时，会出现数据倾斜的问题。 

原理：使用 sum… group by代替。如
select a,sum(1) from (select a, b from t group by a,b) group by a;

3、join 产生的 找出产生倾斜的key(单个key达到100000)，然后对倾斜的key进行处理

-- 如果是join过程出现倾斜应该设置为true
set hive.optimize.skewjoin = false;

法一、 将倾斜的key单独提出来，然后进行单独处理，然后在用 union all 连接处理 
法二、 给空值分配随机的key值，保证业务不会受影响，然后在进行 join

19、Hive中什么时候使用过array和map，为什么使用？

20、使用sql编写下面的需求：

Table A 是一个用户登陆时间记录表，当月每次登陆一次会记录一条记录。A表如下：

log_time	uid
2018-10-01 12:34:11	123
2018-10-02 13:21:08	123
2018-10-02 14:21:08	123
2018-10-02 14:08:09	456
2018-10-04 05:10:22	123
2018-10-04 21:38:38	456
2018-10-04 22:38:38	456
2018-10-05 09:57:32	123
2018-10-06 13:22:56	123
2018-11-01 12:34:11	123
2018-11-02 13:21:08	123
2018-11-02 14:21:08	123
2018-11-02 14:08:09	456
2018-11-04 05:10:22	123
2018-11-04 21:38:38	456
2018-11-05 09:57:32	123
2018-11-06 13:22:56	123

需计算出每个用户本月最大连续登陆天数。如表A样例数据中，用户123最大连续登陆天数为3，而用户456最大连续登陆天数为1

drop table login_time;
create table login_time(
log_time timestamp,
uid string
)
row format delimited
fields terminated by '\t';

load data local inpath './hivedata/login_time.txt' overwrite into table login_time;

-- 注意：可能需要对原始数据做清洗，保证每个用户每天只有一条登录信息

-- 1) 使用日期转字符串(格式化)函数：date_format 
select distinct uid,date_format(log_time,"yyyy-MM-dd") as dt from login_time;

-- 2) 在 1 表基础上使用date_sub日期函数计算出每个日期排名前的日期
select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt))
from
(select distinct uid,date_format(log_time,"yyyy-MM-dd") as dt from login_time) A;

-- 3) 在 2 表基础上对 每个日期排名前的日期 相同的计数 对月分组
select uid,odt,date_format(dt,"yyyy-MM"),count(1) cnt from
(select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt)) as odt
from
(select distinct uid,date_format(log_time,"yyyy-MM-dd") as dt from login_time) A) B
group by uid,odt,date_format(dt,"yyyy-MM");

-- 4) 在 3 表基础上查询cnt最大值，uid分组
select uid,max(cnt) from
(select uid,odt,date_format(dt,"yyyy-MM"),count(1) cnt from
(select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt)) as odt
from
(select distinct uid,date_format(log_time,"yyyy-MM-dd") as dt from login_time) A) B
group by uid,odt,date_format(dt,"yyyy-MM")) C 
group by uid;

21、使用sql实现如下：

样例数据: t1表

gender,cookie,ip,timestampe,ua 

F,1707041428491566106,111.200.195.186,1208524973899,Dalvik%2F2.1.0%20%28Linux%3B%20U%3B%20Android

…具体数据如下图

将图片中的awk修改为使用sql编写，然后将上诉题作出回答？

统计pv/uv的使用sql，其它问题语言描述即可。

22、使用hive求出两个数据集的差集？

数据 diff_t1表：

id name 
1 zs
2 ls

diff_t2表：

id name 
1 zs
3 ww

结果如下：

id name 
2 ls 
3 ww

drop table diff_t1;
create table diff_t1( 
id string, 
name string 
)
row format delimited 
fields terminated by ' ' 
;

load data local inpath './hivedata/diff_t1.txt' overwrite into table diff_t1; 

drop table diff_t2;
create table diff_t2( 
id string, 
name string 
)
row format delimited 
fields terminated by ' ' 
;

load data local inpath './hivedata/diff_t2.txt' overwrite into table diff_t2;

-- 1) 基于 t1表 查询不属于 t2 表字段
select t1.id as `id`,t1.name as `name`
from diff_t1 t1 
left join diff_t2 t2 on t1.id=t2.id
where t2.id is null;

-- 2) 基于 t2表 查询不属于 t1 表字段
select t2.id `id`, t2.name `name` 
from diff_t1 t1 
right join diff_t2 t2 on t1.id=t2.id 
where t1.id is null;

-- 3) 使用 union 连接
select t1.id as `id`,t1.name as `name`
from diff_t1 t1 
left join diff_t2 t2 on t1.id=t2.id
where t2.id is null
union
select t2.id `id`, t2.name `name` 
from diff_t1 t1 
right join diff_t2 t2 on t1.id=t2.id 
where t1.id is null;

23、使用hive的hql实现如下需求

现有某网站购买记录字段如下

orderid,userid,productid,price,timestamp,date
121,张三,3,100,1535945356,2018-08-07
122,张三,3,200,1535945356,2018-08-08
123,李四,3,200,1535945356,2018-08-08
124,王五,1,200,1535945356,2018-08-08
125,张三,3,200,1535945356,2018-08-09
126,张三,2,200,1535945356,2018-08-09
127,李四,3,200,1535945356,2018-08-09
128,李四,3,200,1535945356,2018-08-10
129,李四,3,200,1535945356,2018-08-11

用sql统计今日及昨日都购买过商品productid为3的用户及其昨日消费。

drop table product;
create table product(
orderid string,
userid string,
productid int,
price int,
tamp int,
dt date
)
row format delimited
fields terminated by ',';

load data local inpath './hivedata/product.txt' overwrite into table product;

-- 1) 使用 over 查出总消费 
select userid,dt,productid,sum(price) over(partition by userid,dt order by dt) total_price
from product order by userid,dt;

-- 2) 在 1 表基础上对昨日消费查询 指定查询 productid=3
select userid,dt,
lag(dt,1) over(partition by userid order by dt) `yesterday`,
case when datediff(dt,lag(dt,1) over(partition by userid order by dt))=1
then lag(total_price) over(partition by userid order by dt) 
else null end `yesterday_price`
from
(select userid,dt,productid,sum(price) over(partition by userid,dt order by dt) total_price
from product order by userid,dt) A
where productid=3;

-- 3) 基于 2 表 排除null
select * from
(select userid,dt,
lag(dt,1) over(partition by userid order by dt) `yesterday`,
case when datediff(dt,lag(dt,1) over(partition by userid order by dt))=1
then lag(total_price) over(partition by userid order by dt) 
else null end `yesterday_price`
from
(select userid,dt,productid,sum(price) over(partition by userid,dt order by dt) total_price
from product order by userid,dt) A
where productid=3) B
where `yesterday_price` is not null;

24、使用hive的hql如下:

表user_action_log用户行为故据

uid	 time	action
1	Time1	Read
3	Time2	Comment
1	Time3	Share
2	Time4	Like
1	Time5	Write
2	Time6	like
3	Time7	Write
2	Time8	Read

分析用户行为习惯找到毎一个用户在表中的第一次行为

drop table user_action_log;
create table user_action_log(
uid int,
time string,
action string
)
row format delimited
fields terminated by '\t';

load data local inpath './hivedata/user_action_log.txt' overwrite into table user_action_log;

使用代码实现

-- 1) 分组查询每个用户行为次数
select uid,time,action,row_number() over(partition by uid order by time) `第n次行为` from user_action_log;

-- 2) 在 1 表基础上查询第一次行为
select * from
(select uid,time,action,row_number() over(partition by uid order by time) `第n次行为` from user_action_log) A 
where `第n次行为`=1;

25、每个用户连续登陆的最大天数？

数据: user_login表

uid,dt
1,2019-08-01
1,2019-08-02
1,2019-08-03
2,2019-08-01
2,2019-08-02
3,2019-08-01
3,2019-08-03
4,2019-07-28
4,2019-07-29
4,2019-08-01
4,2019-08-02
4,2019-08-03

结果如下：

uid cnt_days 
1 3 
2 2 
3 1 
4 3

drop table user_login;
create table user_login(
uid int,
dt date
)
row format delimited
fields terminated by ',';

load data local inpath './hivedata/user_login.txt' overwrite into table user_login;

-- 1) 用窗口函数date_sub日期函数计算出每个日期排名前的日期 根据uid分组，日期排序
select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt)) sub_dt 
from user_login;

-- 2) 在 1 表基础上用 count 分组计数
select uid,sub_dt,count(1) cnt from
(select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt)) sub_dt 
from user_login) A
group by uid,sub_dt;

-- 3) 在 2 表基础上用 max 分组求最大值
select uid, max(cnt) as `cnt_days` from
(select uid,sub_dt,count(1) cnt from
(select uid,dt,date_sub(dt,row_number() over(partition by uid order by dt)) sub_dt 
from user_login) A
group by uid,sub_dt) B
group by uid;

26、请使用sql计算pv、uv？

数据:

t1表

uid dt url
1 2019-08-06 http://www.baidu.com
2 2019-08-06 http://www.baidu.com
3 2019-08-06 http://www.baidu.com
3 2019-08-06 http://www.soho.com
3 2019-08-06 http://www.meituan.com
3 2019-08-06

结果如下:

dt uv pv 
2019-08-6 3 5

drop table user_net_log;
create table user_net_log(
uid int,
dt date,
url string
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/user_net_log.txt' overwrite into table user_net_log;

select dt,count(distinct uid) `uv`,count(url) `pv`
from user_net_log
group by dt;

27、hive中coalease()、nvl()、concat_ws()、collect_list()、collect_set()、regexp_replace().这几个函数的意义？

coalease(T v1,T v2,...):返回列表中的第一个非空元素，如果列表元素都为空则返回 NULL。
例：select coalesce(NULL,null,123,"ABC"); 返回123

nvl(T v1,T v2) : 空值判断，如果v1非空则返回v1，如果v1为空，则返回v2，v1和v2需要同类型。
例：select nvl(null,1); 返回1

concat_ws(separator, str1, str2,...) :指定分隔符(第一位)连接字符串函数。参数需要字符串。
例：select concat_ws("|","1","2","3"); 返回1|2|3 

collect_list(T col) : 将某列的值连接在一起，返回字符串数组，有相同的列值不会去重。通常可以使用 group by搭配使用，但是也可以不用 group by。
例：select collect_list(id) from t1; 返回将id连接在一起的字符串。
如：id值为1，2，2，则返回["1","2","2"] 

collect_set(T col) : 将某列的值连接在一起，返回字符串数组，有相同的列值会去重。通常可以使用 group by搭配使用，但是也可以不用 group by。
例：select collect_list(id) from t1; 返回将id连接在一起的字符串。如id值为1，2，2，则返回["1","2"]

regexp_replace(source_string, pattern[, replace_string [, position[,occurrence, [match_parameter]]]]):用一个指定的 replace_string 来替换匹配的模式，从而允许复杂的"搜索并替换"操作。 
例：select regexp_replace(img,".jpg","*.png") from t2; 将img列中有*.png的换成.jpg. 如img有两个数据为1.png 和 2.jsp，则返回1.jpg 和 2.jsp

28、有表如下记录了智智同学玩某moba游戏每局的英雄pick情况

pk_moba表

id	names
1	亚索,挖据机,艾瑞莉亚,洛,卡莎
2	亚索,盖伦,奥巴马,牛头,皇子
3	亚索,盖伦,艾瑞莉亚,宝石,琴女
4	亚索,盖伦,赵信,老鼠,锤石

请用HiveSQL计算出出场次数最多的top3英雄及其Pick率（=出现场数/总场数）

create table pk_moba(
id int,
names array<string>
)
row format delimited
fields terminated by '\t'
collection items terminated by ',';

load data local inpath './hivedata/pk_moba.txt' overwrite into table pk_moba;

-- 1) 用 explode函数 行转列 count 计数
select name,count(name) cnt from pk_moba lateral view explode(names) t1 as name 
group by name;

-- 2) 基于 1 表 按 name 分组 over 排列 dense_rank() 
select name,cnt,dense_rank() over(sort by cnt desc) rk from
(select name,count(name) cnt from pk_moba lateral view explode(names) t1 as name
group by name) A;

-- 3) 基于 2 表 查询pick率和top3
select name,cnt,rk `top`,concat(round(cnt/4*100,0),"%") `pick率` from
(select name,cnt,dense_rank() over(sort by cnt desc) rk from
(select name,count(name) cnt from pk_moba lateral view explode(names) t1 as name
group by name) A) B
where rk<=3;

29、有三个表，分别是：

区域(district) 区域中有两个字段分别是区域Id(disid)和区域名称(disname)

城市(city) 城市有两个字段分别是城市ID(cityid)和区域ID(disid)

订单(order) 订单有四个字段分别是订单ID(orderid)、用户ID(userid)、城市ID(cityid)和消费金额(amount)。

district表:

disid disname 
1 华中
2 西南


create table district(
disid int,
disname string
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/district.txt' overwrite into table district;

city表:

cityid disid 
1 1
2 1
3 2
4 2
5 2

create table city(
cityid int,
disid int
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/city.txt' overwrite into table city;

order表：

oid userid cityid amount 
1 1 1 1223.9
2 1 1 9999.9
3 2 2 2322
4 2 2 8909
5 2 3 6789
6 2 3 798
7 3 4 56786
8 4 5 78890

create table order_t(
oid int,
userid int,
cityid int,
amount float
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/order.txt' overwrite into table order_t;

高消费者是消费金额大于1W的用户，使用hive hql生成如下报表:

区域名高消费者人数消费总额

-- 1) 连接3张表 sum(amount)
select disname,userid,sum(amount) `amount` from district d
join city c on c.disid=d.disid
join order_t o on o.cityid=c.cityid
group by disname,userid;

-- 2) 基于 1 表查询
select disname `区域名`,count(1) `高消费者人数`,sum(`amount`) `消费总额` from
(select disname,userid,sum(amount) `amount` from district d
join city c on c.disid=d.disid
join order_t o on o.cityid=c.cityid
group by disname,userid) A
where amount>10000
group by disname;

30、某APP每天访问数据存放在表access_log里面，包含日期字段ds,用户类型字段user_type，用户账号user_id,用户访问时间log_time,请使用hive的hql语句实现如下需求：

(1)、每天整体的访问UV、PV?

select log_time,count(distinct user_id) uv count(1) pv
from access_log
group by log_time;

(2)、每天每个类型的访问UV、PV?

select log_time,user_type,count(distinct user_id) uv count(1) pv
from access_log
group by log_time;

(3)、每天每个类型中最早访问时间和最晚访问时间?

select log_time,user_type,min(log_time),max(log_time)
from access_log
group by log_time;

(4)、每天每个类型中访问次数最高的10个用户?

-- 1) 先查每天用户访问的日期用substr函数截取
select substr(log_time,1,7) dt,user_type,count(1) cnt
from access_log
group by dt,user_type;

-- 2） 在 1 表基础上分组排名
select dt,user_type,cnt,row_number() over(partition by dt,user_type order by cnt desc) rn
(select substr(log_time,1,7) dt,user_type,count(1) cnt
from access_log
group by dt,user_type) A;

-- 3) 在 2 表基础上查出访问次数最高的10个用户
select dt,user_type,cnt,rn
(select dt,user_type,cnt,row_number() over(partition by dt,user_type order by cnt desc) rn
(select substr(log_time,1,7) dt,user_type,count(1) cnt
from access_log
group by dt,user_type) A) B
where rn<=10;

31、一张大表A(上亿条记录)和小表B(几千条记录)，如果join出现数据倾斜，有什么解决办法？

32、有如下三张表:

表login_a(登录表):

ds user_id 
2019-08-06 1
2019-08-06 2
2019-08-06 3
2019-08-06 4

create table login_a(
ds date,
user_id int
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/login_a.txt' overwrite into table login_a;

表read_b(阅读表):

ds user_id read_num 
2019-08-06 1 2
2019-08-06 2 3
2019-08-06 3 6

create table read_b(
ds date,
user_id int,
read_num int
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/read_b.txt' overwrite into table read_b;

表cost_c(付费表):

ds user_id price
2019-08-06 1 55.6
2019-08-06 2 55.8

create table cost_c(
ds date,
user_id int,
price float
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/cost_c.txt' overwrite into table cost_c;

基于上述三张表，请使用hive的hql语句实现如下需求：

(1)、用户登录并且当天有个阅读的用户数，已经阅读书籍数量

select A.ds,count(distinct A.user_id),sum(B.read_num)
from login_a A join read_b B on B.user_id=A.user_id and B.ds=A.ds
group by A.ds;

-- 感觉 log_time 表多余
select ds,count(distinct user_id),sum(read_num)
from read_b group by ds;

(2)、用户登录并且阅读，但是没有付费的用户数

select A.ds,count(1)
from login_a A join read_b B on B.user_id=A.user_id and B.ds=A.ds
left join cost_c C on C.user_id=B.user_id and C.ds=B.ds
where C.price is null
group by A.ds;

-- 感觉 log_time 表多余
select B.ds,count(1)
from read_b B 
left join cost_c C on C.user_id=B.user_id and C.ds=B.ds
where C.price is null
group by B.ds;

(3)、用户登录并且付费，付费用户数量和金额总数

select A.ds,count(1),sum(price)
from login_a A join read_b B on B.user_id=A.user_id and B.ds=A.ds
left join cost_c C on C.user_id=B.user_id and C.ds=B.ds
group by A.ds;

-- 感觉 log_time 表多余
select B.ds,count(1),sum(price)
from read_b B 
left join cost_c C on C.user_id=B.user_id and C.ds=B.ds
group by B.ds;

33、hive的hql中，left outer join和left semi join的区别？

hive中，left join与left outer join等价。

left semi join 与 left outer join的区别：
1. left semi join相当于 in ，即会过滤掉左表中 join 不到右表的行，右表中有多行能 join 到时显示一行，并且只输出左表的字段、不输出右表的字段；
2. left outer join不会过滤掉左表中的行，右表中有多行能 join 到时显示多行，并且能够同时输出左表和右表中的字段。

34、有一个订单表和渠道表，结构如下：

create table order(
order_id long,
user_id long comment '用户id',
amount double comment '订单金额',
channel string comment '渠道',
time string comment '订单时间,yyyy-MM-dd HH:mi:ss'
)
partition by (dt string comment '天,yyyy-MM-dd');

请使用hive hql查询出2019-08-06号每个渠道的下单用户数、订单总金额。

hql语句实现，结果表头如下： channel user_num order_amount

-- to_data(参数) 转换为 普通的时间格式
select channel,count(user_id) user_num,sum(amount) order_amount
from order
where to_date(time)='2019-08-06'
group by channel;

35、考虑表设计和sql查询：

设计数据库表，用来存放学生基本信息，课程信息，学生的课程及成绩，
并给出查询语句，查询平均成绩大于85的所有学生。

create table stu_1( 
id string, 
name string, 
age int, 
addr string 
)
row format delimited 
fields terminated by ',' 
;

create table course_1( 
cid string, 
cname string 
)
row format delimited 
fields terminated by ',' ;

create table course_sc( 
id string, 
cid string, 
score int 
)
row format delimited 
fields terminated by ',' 
;

load data local inpath '/hivedata/course_1.txt' overwrite into table course_1; 
load data local inpath '/hivedata/stu_1.txt' overwrite into table stu_1; 
load data local inpath '/hivedata/course_sc.txt' overwrite into table course_sc;

select st.id,st.name,co.cname,avg(score) `平均成绩`
from stu_1 st join course_sc sc on st.id=sc.id
join course_1 co on co.cid=sc.cid
group by st.id,st.name,co.cname
having avg(score)>85;

36、需求如下：

有用户表user(uid,name) 以及黑名单BanUser(uid)
1. 用left join 方式写sql查出所有不在黑名单的用户信息
2. 用not exists 方法写sql查询所有不在黑名单的用户信息

create table u( 
id string, 
name string 
)
row format delimited 
fields terminated by ',' 
;

create table banuser( 
id string 
);

load data local inpath '/hivedata/banuser.txt' overwrite into table banuser; 
load data local inpath '/hivedata/u.txt' overwrite into table u;

-- 用left join 方式写sql查出所有不在黑名单的用户信息
select u.id,u.name from u
left join banuser on u.id=banuser.id
where banuser.id is null;

-- 用not exists 方法写sql查询所有不在黑名单的用户信息
select u.id,u.name from u
where not exists (select 1 from banuser where banuser.id is null);

37、需求如下:

course_score表数据：

1,zhangsan,数学,80,2015
2,lisi,语文,90,2016
3,lisi,数学,70,2016
4,wangwu,化学,80,2017
5,zhangsan,语文,85,2015
6,zhangsan,化学,90,2015

create table course_score( 
id string, 
name string, 
course string, 
score int, 
year string 
)
row format delimited 
fields terminated by ',' 
;

load data local inpath './hivedata/course_score.txt' overwrite into table course_score;

1、查出每个学期每门课程最高分记录（包含全部5个字段）

写法一: 分组查询
select id,name,course,score,year,max(score) 
from course_score
group by id,name,course,score,year order by year;

写法二: 使用窗口函数 over()
select id,name,course,score,year,max(score) over(partition by year,course)
from course_score;

2、查出单个学期中语文课在90分以上的学生的数学成绩记录（包含全部字段）

写法一: 连接查询
-- 1个job
select A.id,A.name,A.course,A.score,A.year
from course_score A join course_score B on A.name=B.name
where B.course='语文' and B.score>=90 and A.course='数学';

写法二: 子查询
-- 1个job
select cs.id,cs.name,cs.course,cs.score,cs.year
from course_score cs join
(select id,name,course,score,year from course_score
where score>=90 and course='语文') A
on cs.name=A.name
where cs.course='数学';

写法三: 
-- 个job

38、需求如下

t1表：

name course score 
aa English 75
bb math 85
aa math 90

create table t1_1(
name string,
course string,
score int
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/t1_1.txt' overwrite into table t1_1;

使用hql输出以下结果

name English math 
aa 75 90 
bb 0 85

select name
,sum(case course when 'English' then score else 0 end) as English
,sum(case course when 'math' then score else 0 end) as math
from t1_1
group by name;

39、需求如下

t1表：

用户 商品 
A P1
B P1
A P2
B P3

请你使用hql变成如下结果:

用户 P1 P2 P3 
A 1 1 0
B 1 0 1

select username
,sum(if(product='P1',1,0)) P1
,sum(if(product='p2',2,0)) P2
,sum(if(product='p3',3,0)) P3
from t1
group by username;

40、需求如下

dpt部门

dpt_id	dpt_name
1	产品
2	技术

User用户表

user_id	dpt_id
1	1
2	1
3	2
4	2
5	3

使用hql输出以下结果

user_id	dpt_id	dpt_name
1	1	产品
2	1	产品
3	2	技术
4	2	技术
5	3	其他部门

select `user`.user_id,`user`.dpt_id,dpt.dpt_name
from `user` 
left join dpt on `user`.dpt_id=dpt.dpt_id;

41、需求如下

t1_order表:

order_id order_type order_time
111 N 10:00
111 A 10:05
111 B 10:10

create table t1_order(
order_id string,
order_type string,
order_time string
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/t1_order.txt' overwrite into table t1_order;

是用hql获取结果如下：

order_id order_type_1 order_type_2 order_time_1 order_time_2 
111 N A 10:00 10:05
111 A B 10:05 10:10

-- 1) 使用over()  lead()查询 下次时间
select order_id,order_type as `order_type_1`
,lead(order_type,1) over(sort by order_time) `order_type_2`
,order_time as `order_time_1`
,lead(order_time,1) over(sort by order_time) `order_time_2`
from t1_order;

-- 2）在 1 表基础上条件查询
select * from
(select order_id,order_type as `order_type_1`
,lead(order_type,1) over(sort by order_time) `order_type_2`
,order_time as `order_time_1`
,lead(order_time,1) over(sort by order_time) `order_time_2`
from t1_order) A
where `order_type_2` is not null;

42、需求如下

t1_hobby表

name sex hobby 
janson 男 打乒乓球、游泳、看电影 
tom 男 打乒乓球、看电影

drop table t1_hobby;
create table t1_hobby(
name string,
sex string,
hobby string
)
row format delimited
fields terminated by ' ';

load data local inpath './hivedata/t1_hobby.txt' overwrite into table t1_hobby;

hobby最多3个值，使用hql实现结果如下:

name sex hobby1 hobby2 hobby3 
janson 男 打乒乓球 游泳 看电影 
tom 男 打乒乓球 看电影

select name,sex
,split(hobby,"、")[0] `hobby1`
,split(hobby,"、")[1] `hobby2`
,nvl(split(hobby,"、")[2],"") `hobby3`
from t1_hobby;

你可能感兴趣的:(hadoop,hive,sql,hadoop)

mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
You have an error in your SQL syntax； check the manual that corresponds to your MySQL server version 努力的菜鸟~ sql 数据库
YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear‘IDENTIFIEDBY‘123456’WITHGRANTOPTION’atline1在mysql5.7之前GRANTALLPRIVILEGESON*.*TO'root'@'%'I
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
鲲鹏 ARM 架构麒麟 Lylin v10 安装 Nginx (离线) 焚木灵 arm开发架构 nginx 服务器
最近做一个银行的项目，银行的服务器是鲲鹏ARM架构的服务器，并且是麒麟v10的系统，这里记录一下在无法访问外网安装Nginx的方法。其他文章：鲲鹏ARM架构麒麟Lylinv10安装Mysql8.3(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Node和NVM(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Pm2(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装P
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
MySQL事务隔离级别和MVCC 简书徐小耳
MySQL事务隔离级别和MVCC参考：https://mp.weixin.qq.com/s/Jeg8656gGtkPteYWrG5_Nw1.MVCC只对读已提交和可重复的读有效果，而未提交读和串行则无意义。2.每条记录都会有trx_id(事务修改记录的id）和roll_pointer是一个指针指向旧版本的undo日志链表（row_id不是必必要的，如果有主键存在就不需要了）3.版本链的头结点就是记
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
CentOS7 安装MySQL5.7.44 不要Null了 java centos mysql
1.下载mysql安装包，我放在百度网盘里(下方链接)链接：https://pan.baidu.com/s/1_Mn1XW_1mWdTV4mhnLG66A提取码：s31n2.首先看看以前是否安装过mysqlrpm-qa|grep-imysql如果已经安装过mysql会提示卸载mysqlrpm-emysql-…3.使用FinallShell或者Xftp进行上传放到/usr/local/mysql，没
非关系型数据库天秤-white nosql
一、为什么要用Nosql1.单机MySQL的时代。一个基本的网站访问量一般不会太大，单个数据库完全足够。那时候更多使用的静态网页html，服务器根本没有太大压力。这时候网站的瓶颈是什么？-数据量如果太大，一个机器放不下。-数据量太大需要建立数据的索引（B+Tree），一个服务器内存放不下。-访问量读写混合，一个服务器承受不了。2.memcached缓存+MySQL+垂直拆分（读写分离）。网站80%
六、全局锁和表锁：给表加个字段怎么有这么多阻碍 nieniemin
数据库锁设计的初衷是处理并发问题。作为多用户共享的资源，当出现并发访问的时候，数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。根据加锁的范围，MySQL里面的锁大致可以分成全局锁、表级锁和行锁三类。6.1全局锁全局锁就是对整个数据库实例加锁。MySQL提供了一个加全局读锁的方法，命令是Flushtableswithreadlock(FTWRL)。当你需要让整个库处于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kubernetes 自定义控制器开发 IT回忆录 Kubenetes kubernetes
目录前言一、CRD二、创建数据库表（Mysql）二、控制器开发1.使用kubernetes的examplecontroller模板2.在controller.go中新增数据表监听方法3.修改tools工具生成资源对象结构体定义这里记录开发k8s控制器的一般方式，controller开发主要使用k8s提供的client-go库进行。前言Controller监听集群内部资源对象的变化，编辑资源对象(增
详解mybatis的一二级缓存以及缓存失效原因仰望天花板缓存数据库 mybatis java mysql
数据库的大部分场景下是从磁盘读取，如果数据从内存进行读取，速度较比磁盘要快得多。但因为内存的容量有限，所以一般只会把使用和查询较多的数据缓存起来，以便快速反应，其他使用率不太多的继续存放在磁盘。mybatis分为一级缓存和二级缓存1.一级缓存一级缓存存放在SqlSqeeion上，默认开启1.1pojo@DatapublicclassRole{privateLongid;privateStringr
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

hive场景题

文章目录

1、了解哪些窗口函数，都是什么功能？找一个在某个业务中的应用？ 手写窗口函数及功能意义，同时随便写一个带窗口函数的sql，并说明其sql的含义。

2、求出每个栏目的被观看次数及累计观看时长？

3、编写sql实现

4、编写连续7天登录的总人数：

5、你知道的排名函数有哪些？说一说它们之间的区别？ 文字说明即可

6、编写sql语句实现每班前三名，分数一样不并列，同时求出前三名按名次排序的一次的分差：

7、对于行列互换，你有哪些解决方式，详细说明每一种方式？ 使用语言描述即可

8、编写sql实现行列互换。数据如下：

9、编写sql实现如下：

10、行转列

11、行转列

12、列转行

13、行转列

14、列转行

时间函数

15、时间戳函数：unix_timestamp，from_unixtime

16、时间格式转换：yyyyMMdd -> yyyy-MM-dd

17、数据： 店铺,月份,金额

18、Hive是否发生过数据倾斜，怎么处理的，原理是什么？

19、Hive中什么时候使用过array和map，为什么使用？

20、使用sql编写下面的需求：

21、使用sql实现如下：

22、使用hive求出两个数据集的差集？

23、使用hive的hql实现如下需求

24、使用hive的hql如下:

25、每个用户连续登陆的最大天数？

26、请使用sql计算pv、uv？

27、hive中coalease()、nvl()、concat_ws()、collect_list()、collect_set()、regexp_replace().这几个函数的意义？

28、有表如下记录了智智同学玩某moba游戏每局的英雄pick情况

29、有三个表，分别是：

30、某APP每天访问数据存放在表access_log里面，包含日期字段ds,用户类型字段user_type，用户账号user_id,用户访问时间log_time,请使用hive的hql语句实现如下需求：

31、一张大表A(上亿条记录)和小表B(几千条记录)，如果join出现数据倾斜，有什么解决办法？

32、有如下三张表:

33、hive的hql中，left outer join和left semi join的区别？

34、有一个订单表和渠道表，结构如下：

35、考虑表设计和sql查询：

36、需求如下：

37、需求如下:

38、需求如下

39、需求如下

40、需求如下

41、需求如下

42、需求如下

你可能感兴趣的:(hadoop,hive,sql,hadoop)

1、了解哪些窗口函数，都是什么功能？找一个在某个业务中的应用？手写窗口函数及功能意义，同时随便写一个带窗口函数的sql，并说明其sql的含义。

5、你知道的排名函数有哪些？说一说它们之间的区别？文字说明即可

7、对于行列互换，你有哪些解决方式，详细说明每一种方式？使用语言描述即可

17、数据：店铺,月份,金额