qq_25127933

Hive SQL 题目总结 - 尚硅谷

手写HQL第一题

表名：score; 表结构：uid,subject_id,score

求：找出所有科目成绩都大于某一学科平均成绩的学生数据集如下

1001	01	90
1001	02	90
1001	03	90
1002	01	85
1002	02	85
1002	03	70
1003	01	70
1003	02	70
1003	03	85

数据

insert into score values('1001','01',90);
insert into score values('1001','02',90);
insert into score values('1001','03',90);
insert into score values('1002','01',85);
insert into score values('1002','02',85);
insert into score values('1002','03',70);
insert into score values('1003','01',70);
insert into score values('1003','02',70);
insert into score values('1003','03',85);

1) 建表语句

create table score (
    uid string,
    subject_id string,
    score int)
row format delimited fields terminated by '\t';

2) 求出每个学科的平均成绩

select u_id, score, avg(score) over(partition by subject_id) avg_score
from score; t1

3) 根据是否大于平均成绩记录flag，大于则记为0否则记为1

select uid, if (score>avg_score,0,1) flag
from t1; t2

4) 根据学生id分组统计flag的和，和为0则是所有学科都大于平均成绩

select uid 
from t2
group by uid
having sum(flag) = 0;

5) 最终SQL

select uid
from
(
    select uid, if (score>avg_score,0,1) flag
    from 
    (
        select uid, score, avg(score) over(partition by subject_id) avg_score
        from score
    ) t1
) t2
group by uid
having sum(flag) = 0;

手写HQL第二题

我们有如下的用户访问数据

userId	visitDate	visitCount
u01	2017/1/21	5
u02	2017/1/23	6
u03	2017/1/22	8
u04	2017/1/20	3
u01	2017/1/23	6
u01	2017/2/21	8
u02	2017/1/23	6
u01	2017/2/22	4

要求使用SQL统计出每个用户的累积访问次数，如下表所示：

用户id	月份	小计	累积
u01	2017-01	11	11
u01	2017-02	12	23
u02	2017-01	12	12
u03	2017-01	8	8
u04	2017-01	3	3

数据

insert into action values('u01','2017/1/21',5);
insert into action values('u02','2017/1/23',6);
insert into action values('u03','2017/1/22',8);
insert into action values('u04','2017/1/20',3);
insert into action values('u01','2017/1/23',6);
insert into action values('u01','2017/2/21',8);
insert into action values('u02','2017/1/23',6);
insert into action values('u01','2017/2/22',4);

1) 建表语句

create table action (
    userId string,
    visitDate string,
    visitCount int)
row format delimited fields terminated by '\t';

2) 修改数据格式

select userId, date_format(regexp_replace(visitDate, '/', '-'), 'yyyy-MM') mn, visitCount
from action; t1

3) 计算每人单月访问量

select userId, mn, sum(visitCount) mn_count
from t1
group by userId, mn; t2

4) 按月累计访问量

select userId, mn, mn_count, sum(mn_count) over(partition by userId order by mn)
from t2;

5) 最终SQL

select userId, mn, mn_count, sum(mn_count) over(partition by userId order by mn)
from 
(
    select userId, mn, sum(visitCount) mn_count
    from 
    (
        select userId, date_format(regexp_replace(visitDate,'/','-'),'yyyy-MM') mn, visitCount
        from action
    ) t1
    group by userId, mn
) t2;

手写HQL第三题

有50W个京东店铺，每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志，访问日志存储的表名为visit，访客的用户id为user_id，被访问的店铺名称为shop，请统计：

1）每个店铺的UV（访客数）

2）每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数

数据

insert into visit values(3,'女装');
insert into visit values(4,'女装');
insert into visit values(5,'女装');
insert into visit values(6,'女装');
insert into visit values(7,'女装');
insert into visit values(8,'女装');
insert into visit values(8,'女装');
insert into visit values(9,'女装');
insert into visit values(10,'女装');
insert into visit values(11,'女装');
insert into visit values(1,'男装');
insert into visit values(1,'男装');
insert into visit values(1,'男装');
insert into visit values(1,'男装');
insert into visit values(2,'男装');
insert into visit values(3,'男装');
insert into visit values(4,'男装');

1) 建表语句

create table visit (
    user_id string,
    shop string)
row format delimited fields terminated by '\t';

2) 每个店铺的UV（访客数）

select shop, count(distinct user_id) 
from visit
group by shop;

3) 每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数

一个访客可以多次访问一个店铺

3.1) 查询每个店铺被每个用户访问的次数

select shop, user_id, count(*) as cnt
from visit
group by shop, user_id; t1

3.2) 计算每个店铺被用户访问的排名

select shop, user_id, cnt, rank() over (partition by shop order by cnt desc) rk
from t1; t2

3.3) 取每个店铺前三名

select shop, user_id, cnt
from 
(
    select shop, user_id, cnt, rank() over (partition by shop order by cnt desc) rk
    from
        (
            select shop, user_id, count(*) cnt
            from visit
            group by shop, user_id
        ) t1
) t2
where rk <= 3;

手写HQL第四题

已知一个表STG.ORDER(order_tab)，有如下字段: dt，order_id，user_id，amount。请给出sql进行统计:数据样例:2017-01-01,10029028,1000003251,33.57。

1）给出 2017年每个月的订单数、用户数、总成交金额。

2）给出2017年11月的新客数(指在11月才有第一笔订单)

数据

insert into order_tab values('2017-01-01', '10029028', '1000003251', 33.57);

1) 建表语句

create table order_tab (
    dt string,
    order_id string,
    user_id string,
    amount decimal(10,2))
row format delimited fields terminated by '\t';

2) 给出 2017年每个月的订单数、用户数、总成交金额。

订单号不会重复

select date_format(dt,'yyyy-MM'), count(order_id), count(distinct user_id), sum(amount)
from order_tab
where date_format(dt,'yyyy') = '2017'
group by date_format(dt,'yyyy-MM');

3) 给出2017年11月的新客数(指在11月才有第一笔订单)

select count(user_id)
from order_tab
group by user_id
having date_format(min(dt), 'yyyy-MM') = '2017-11'

手写HQL第五题

有一个5000万的用户文件(user_id，name，age) user_file，一个2亿记录的用户看电影的记录文件(user_id，url) film file，根据年龄段(每隔10岁算一个年龄段)观看电影的次数进行排序？

数据准备

INSERT INTO TABLE user_file VALUES ('001', 'u1', 10);
INSERT INTO TABLE user_file VALUES ('002', 'u2', 15);
INSERT INTO TABLE user_file VALUES ('003', 'u3', 15);
INSERT INTO TABLE user_file VALUES ('004', 'u4', 20);
INSERT INTO TABLE user_file VALUES ('005', 'u5', 25);
INSERT INTO TABLE user_file VALUES ('006', 'u6', 35);
INSERT INTO TABLE user_file VALUES ('007', 'u7', 40);
INSERT INTO TABLE user_file VALUES ('008', 'u8', 45);
INSERT INTO TABLE user_file VALUES ('009', 'u9', 50);
INSERT INTO TABLE user_file VALUES ('0010', 'u10', 65);

INSERT INTO TABLE film_file VALUES ('001', 'url1');
INSERT INTO TABLE film_file VALUES ('002', 'url1');
INSERT INTO TABLE film_file VALUES ('003', 'url2');
INSERT INTO TABLE film_file VALUES ('004', 'url3');
INSERT INTO TABLE film_file VALUES ('005', 'url3');
INSERT INTO TABLE film_file VALUES ('006', 'url1');
INSERT INTO TABLE film_file VALUES ('007', 'url5');
INSERT INTO TABLE film_file VALUES ('008', 'url7');
INSERT INTO TABLE film_file VALUES ('009', 'url5');
INSERT INTO TABLE film_file VALUES ('0010', 'url1');

1) 建表语句

create table user_file (
    user_id string,
    name string,
    age int)
row format delimited fields terminated by '\t';

create table film_file (
    user_id string,
    url string)
row format delimited fields terminated by '\t';

2) 需要按年龄段进行排序，所以要先按照年龄段进行细分

select user_id,
case when age <= 10 and age > 0 then '0-10'
     when age <= 20 and age > 10 then '10-20'
     when age <= 30 and age > 20 then '20-30'
     when age <= 40 and age > 30 then '30-40'
     when age <= 50 and age > 40 then '40-50'
     when age <= 60 and age > 50 then '50-60'
     when age <= 70 and age > 60 then '60-70'
     else '70+' end as 'age-stage' 
from user_file;

3) 各年龄段的用户看电影的次数，需要将用户文件与记录文件连接，分组排序

select u.user_id, count(*)
from film_file f
left join
(
    select user_id,
        case when age <= 10 and age > 0 then '0-10'
        when age <= 20 and age > 10 then '10-20'
        when age <= 30 and age > 20 then '20-30'
        when age <= 40 and age > 30 then '30-40'
        when age <= 50 and age > 40 then '40-50'
        when age <= 60 and age > 50 then '50-60'
        when age <= 70 and age > 60 then '60-70'
        else '70+' end as 'age_stage' 
    from user_file
) u
on f.user_id = u.user_id
group by age_stage
order by count(*);

手写HQL第六题

有日志如下，请写出代码求得所有用户和活跃用户的总数及平均年龄。（活跃用户指连续两天都有访问记录的用户）user_file字段（date,user_id,age）

dt user_id age
2019-02-11,test_1,23
2019-02-11,test_2,19
2019-02-11,test_3,39
2019-02-11,test_1,23
2019-02-11,test_3,39
2019-02-11,test_1,23
2019-02-12,test_2,19
2019-02-13,test_1,23
2019-02-15,test_2,19
2019-02-16,test_2,19
2019-02-17,test_4,35
2019-02-18,test_4,35
2019-02-22,test_4,35
2019-02-23,test_4,35

数据

insert into table user_file values ('2019-02-11','test_1',23)
insert into table user_file values ('2019-02-11','test_2',19)
insert into table user_file values ('2019-02-11','test_3',39)
insert into table user_file values ('2019-02-11','test_1',23)
insert into table user_file values ('2019-02-11','test_3',39)
insert into table user_file values ('2019-02-11','test_1',23)
insert into table user_file values ('2019-02-12','test_2',19)
insert into table user_file values ('2019-02-13','test_1',23)
insert into table user_file values ('2019-02-15','test_2',19)
insert into table user_file values ('2019-02-16','test_2',19)
insert into table user_file values ('2019-02-17','test_4',35)
insert into table user_file values ('2019-02-18','test_4',35)
insert into table user_file values ('2019-02-22','test_4',35)
insert into table user_file values ('2019-02-23','test_4',35)

1) 建表语句

create table user_age (
    dt string,
    user_id string,
    age int)
row format delimited 
fields terminated by ','
lines terminated by '\n'
stored as textfile;

2) 按照日期以及用户分组，按照日期排序并给出排名

由于同一个用户在每天可能登录多次，计算活跃用户数时每天登陆一次就算今日活跃过了，所以要对每日重复登陆的用户去重(日期和用户算一组)，去重方式两种：

第一种：group by和窗口函数可以一块使用，先对数据聚合，在聚合的基础上再执行窗口函数

如果使用了group by 就需要与聚合函数(sum,max,min,avg,count)一起使用

select user_id, dt, rank() over (partition by user_id order by dt) rk, min(age) age
from user_file
group by user_id, dt; t1

第二种：通过子查询的方式

select t1.user_id, t1.dt, row_number() over(partition by t1.user_id order by t1.dt) rm, t1.age
from
(
    select distinct user_id, dt, age
    from user_file
) t1;

结果如下：

user_id dt rk age
test_1 2019-02-11 1 23
test_1 2019-02-13 2 23
test_2 2019-02-11 1 19
test_2 2019-02-12 2 19
test_2 2019-02-15 3 19
test_2 2019-02-16 4 19
test_3 2019-02-11 1 39
test_4 2019-02-17 1 35
test_4 2019-02-18 2 35
test_4 2019-02-22 3 35
test_4 2019-02-23 4 35

这里面由于同一个用户日期没有重复数据，所以这里rank()和row_number()结果一样

3) 计算日期(dt)及排名(rk)的差值，在连续登陆的情况下，每次相减的结果都相同

我们可以使用DATE_SUB() 函数从日期减去指定的时间间隔。

select user_id, dt, rk, date_sub(dt,rk) flag, age
from t1; t2

结果如下:

user_id dt rk flag age
test_1 2019-02-11 1 2019-02-10 23
test_1 2019-02-13 2 2019-02-11 23
test_2 2019-02-11 1 2019-02-10 19
test_2 2019-02-12 2 2019-02-10 19
test_2 2019-02-15 3 2019-02-12 19
test_2 2019-02-16 4 2019-02-12 19
test_3 2019-02-11 1 2019-02-10 39
test_4 2019-02-17 1 2019-02-16 35
test_4 2019-02-18 2 2019-02-16 35
test_4 2019-02-22 3 2019-02-19 35
test_4 2019-02-23 4 2019-02-19 35

4) 过滤出差值个数大于等于 2 的，即为连续两天活跃的用户

select user_id, min(age) age
from t2
group by user_id, flag
having count(*) >= 2; t3

连续登陆3天算活跃用户，就count(*)>=3;

连续登陆4天算活跃用户，就count(*)>=4;

连续登陆5天算活跃用户，就count(*)>=5;

以此逻辑类推;

5) 对数据进行去重处理（一个用户可以在两个不同的时间点连续登录），例如：a 用户在 1

月 10 号 1 月 11 号以及 1 月 20 号和 1 月 21 号 4 天登录。

select user_id, min(age) age
from t3
group by user_id; t4

6) 计算活跃用户的人数(两天连续有访问)及平均年龄

聚合函数不仅限于分组查询，如果只使用聚合函数，没有group by，则聚合函数是用于聚合整个结果集（匹配WHERE子句的所有行）

CAST(expression AS data_type) 在这里是保留总共10位数，其中小数位是2位

select count(*) cnt, cast(sum(age)/count(*) as decimal(10,2))
from t4;

7) 对全量数据进行按照用户去重(一个用户在一天登录多次)

select user_id, min(age) age
from user_file
group by user_id; t5

计算所有用户的数量及平均年龄

select count(*) cnt, cast(sum(age)/count(*) as decimal(10,1))
from t5;

8) 将第5步(t4)以及第7步(t5)两个数据集进行union all(活跃用户和所有用户)

select sum(user_total_count), sum(user_total_avg_age), sum(twice_count), sum(twice_count_avg_age)
from 
(
    select 0 user_total_count, 0 user_total_avg_age, count(*) twice_count, cast(sum(age)/count(*) as decimal(10,2)) twice_count_avg_age
    from
    (
        select user_id, min(age) age
        from
        (
            select user_id, min(age) age
            from 
            (
                select user_id, dt, rk, date_sub(dt,rk) flag, age
                from 
                (
                    select user_id, dt, rank() over (partition by user_id order by dt) rk, min(age) age
                    group by user_id, dt
                    ) t1
                ) t2 
            group by user_id, flag
            having count(*) >= 2
            ) t3
        group by user_id
    ) t4
    union all
    select count(*) user_total_count, cast(sum(age)/count(*) as decimal(10,1)) user_total_avg_age, 0 twice_count, 0 twice_count_avg_age
    from
    (
        select user_id, min(age) age
        from user_file
        group by user_id
    ) t5
) t6

手写HQL第七题

请用sql写出所有用户中在今年10月份第一次购买商品的金额，表ordertable字段（购买用户：userid，金额：money，购买时间：paymenttime(格式：2017-10-01)，订单id：orderid）

数据

insert into table ordertable values('001',100,'2017-10-01','123123');
insert into table ordertable values('001',200,'2017-10-02','123124');
insert into table ordertable values('002',500,'2017-10-01','222222');
insert into table ordertable values('001',100,'2017-11-01','123123');

1) 建表语句

create table ordertable (
    userid string,
    money int,
    paymentime string,
    orderid string
);

2) 查询出‘2017-10’中最早的日期

select user_id, min(paymenttime) paymenttime
from ordertable
where date_format(paymenttime, 'yyyy-MM') = '2017-10'
group by user_id; t1

3) 方法1：连接查询

select t1.user_id, o.money
from 
(
    select user_id, min(paymenttime) paymenttime
    from ordertable
    where date_format(paymenttime = '2017-10')
    group by user_id
) t1
join ordertable o
on t1.user_id = o.user_id and t1.paymenttime = o.paymenttime;

方法2：窗口函数

① 对每个用户的购买时间进行排名

select user_id, money, row_number() over(partition by user_id order by paymenttime) rm
from ordertable
where date_format(paymenttime, 'yyyy-MM' = '2017-10'); t1

② 筛选出用户在2017年10月第一次购买商品，即rm=1

select user_id,money
from 
(
    select user_id, money, row_number() over(partition by user_id order by paymenttime)
    from ordertable
    where date_format(paymenttime, 'yyyy-MM') = '2017-10'
) t1
where rm = 1;

手写HQL第八题

有一个线上服务器访问日志格式如下（用sql答题）

时间接口 ip地址

2016-11-09 14:22:05 /api/user/login 110.23.5.33

2016-11-09 14:23:10 /api/user/detail 57.3.2.16

2016-11-09 15:59:40 /api/user/login 200.6.5.166

… …

求11月9号下午14点（14-15点），访问/api/user/login接口的top10的ip地址

数据

insert into table ip values('2016-11-09 11:22:05','/api/user/login','110.23.5.23');
insert into table ip values('2016-11-09 11:23:10','/api/user/detail','57.3.2.16');
insert into table ip values('2016-11-09 23:59:40','/api/user/login','200.6.5.166');
insert into table ip values('2016-11-09 11:14:23','/api/user/login','136.79.47.70');
insert into table ip values('2016-11-09 11:15:23','/api/user/detail','94.144.143.141');
insert into table ip values('2016-11-09 11:16:23','/api/user/login','197.161.8.206');
insert into table ip values('2016-11-09 12:14:23','/api/user/detail','240.227.107.145');
insert into table ip values('2016-11-09 13:14:23','/api/user/login','79.130.122.205');
insert into table ip values('2016-11-09 14:14:23','/api/user/detail','65.228.251.189');
insert into table ip values('2016-11-09 14:15:23','/api/user/detail','245.23.122.44');
insert into table ip values('2016-11-09 14:17:23','/api/user/detail','22.74.142.137');
insert into table ip values('2016-11-09 14:19:23','/api/user/detail','54.93.212.87');
insert into table ip values('2016-11-09 14:20:23','/api/user/detail','218.15.167.248');
insert into table ip values('2016-11-09 14:24:23','/api/user/detail','20.117.19.75');
insert into table ip values('2016-11-09 15:14:23','/api/user/login','183.162.66.97');
insert into table ip values('2016-11-09 16:14:23','/api/user/login','108.181.245.147');
insert into table ip values('2016-11-09 14:17:23','/api/user/login','22.74.142.137');
insert into table ip values('2016-11-09 14:19:23','/api/user/login','22.74.142.137');

1) 建表语句

create table ip (
    time string,
    interface string,
    ip string)
row format delimited fields terminated by '\t'

2) 查询语句

select ip, count(*) cnt
from ip
where date_format(time, 'yyyy-MM-dd HH') >= '2016-11-09 14' and date_format(time, 'yyyy-MM-dd HH') <= '2016-11-09 15' and interface = '/api/user/login'
group by ip
order by cnt desc
limit 10;

手写HQL第九题

有一个账号表如下，请写出SQL语句，查询各自区组的money排名前十的账号（分组取前10）

1) 建表语句

CREATE TABLE account (
    `dist_id` int(11) default null COMMENT '区组id',
    `account` varchar(100) default null COMMENT '账号',
    `gold` int(11) default 0 COMMENT '金币',
    PRIMARY KEY (`dist_id`, `account_id`)
) ENGINE=InnoDB DEFAULT CHARSET-utf8;

2) 查询语句

① 对各区组的money进行排名

select dist_id, account, gold, row_number() over (partition by dist_id order by gold desc) rm
from account; t1

② 查询各区组排名前十的账号

select t1.dist_id, t1.account, t1.gold
from 
(
    select dist_id, account, gold, row_number() over (partition by dist_id order by gold desc) rm
    from account
) t1
where rm <= 10;

手写HQL第十题

有一个充值日志表如下：

CREATE TABLE `credit_log`
(
    `dist_id` int（11）DEFAULT NULL COMMENT '区组id',
    `account` varchar（100）DEFAULT NULL COMMENT '账号',
    `money` int(11) DEFAULT NULL COMMENT '充值金额',
    `create_time` datetime DEFAULT NULL COMMENT '订单时间'
) ENGINE=InnoDB DEFAUILT CHARSET-utf8

请写出SQL语句，查询充值日志表2015年7月9号每个区组下充值额最大的账号，要求结果：

区组id，账号，金额，充值时间

1) 对2015年7月9号每个区组账号充值金额排序（未考虑重复充值，考虑的话先group by再排名,增加了一层查询）

select dist_id, account, money, create_time, row_number() over (partition by dist_id order bv money desc) rm
from credit_log
where date_format(create_time, 'yyyy-MM-dd') = '2015-07-09'; t1

2) 查询每个区充值最大的账号 (这里面只取了一行，可能有多个最大，与面试官确认需求)

select t1.dist_id, t1.account, t1.money, t1.create_time
from 
(
    select dist_id, account, money, create_time, row_number() over (partition by dist_id order bv money desc) rm
    from credit_log
    where date_format(create_time, 'yyyy-MM-dd') = '2015-07-09'
) t1
where rm = 1;

手写HQL第十一题

1）有三张表分别为会员表（member）销售表（sale）退货表（regoods）

（1）会员表有字段memberid（会员id，主键）credits（积分）；

（2）销售表有字段memberid（会员id，外键）购买金额（MNAccount）；

（3）退货表中有字段memberid（会员id，外键）退货金额（RMNAccount）；

2）业务说明：

（1）销售表中的销售记录可以是会员购买，也可是非会员购买。（即销售表中的memberid可以为空）

（2）销售表中的一个会员可以有多条购买记录

（3）退货表中的退货记录可以是会员，也可是非会员

（4）一个会员可以有一条或多条退货记录

查询需求：分组查出销售表中所有会员购买金额，同时分组查出退货表中所有会员的退货金额，把会员id相同的购买金额-退款金额得到的结果更新到会员表中对应会员的积分字段（credits）

数据

insert into sale values(1,345.9);
insert into sale values(13,435.9);
insert into sale values(13,245.9);
insert into sale values(23,435.9);
insert into sale values(32,345.9);
insert into sale values(33,345.9);
insert into sale values(null,345.9);

insert into regoods values(1,256.9);
insert into regoods values(12,526.9);
insert into regoods values(12,516.9);
insert into regoods values(22,546.9);
insert into regoods values(32,156.9);
insert into regoods values(32,256.9);
insert into regoods values(null,256.9);

1) 建表语句

create table member(memberid string,credits double) row format delimited fields terminated by '\t';
create table sale(memberid string,MNAccount double) row format delimited fields terminated by '\t';
create table regoods(memberid string,RMNAccount double) row format delimited fields terminated by '\t';

2) 查询语句

insert into table member
select t1.memberid memberid, t1.MNAccount-t2.RMNAccount credits
from
(
    select memberid, sum(MNAccount) MNAccount
    from sale
    where memeberid != ' '
    group by memberid
) t1 
join 
(
    select memberid, sum(RMNAccount) RMNAccount
    from regoods
    where memeberid != ' '
    group by memberid
) t2
on t1. memeberid = t2.memberid

手写HQL第十二题

SQL表user_time中字段是user_id , time(用户访问时间), 求每个用户相邻两次浏览时间之差小于三分钟的次数。

数据

insert into user_time values(1,'2020-05-07 21:13:07');
insert into user_time values(1,'2020-05-07 21:15:26');
insert into user_time values(1,'2020-05-07 21:17:44');
insert into user_time values(2,'2020-05-13 21:14:06');
insert into user_time values(2,'2020-05-13 21:18:19');
insert into user_time values(2,'2020-05-13 21:20:36');
insert into user_time values(3,'2020-05-21 21:16:51');
insert into user_time values(4,'2020-05-16 22:22:08');
insert into user_time values(4,'2020-05-02 21:17:22');
insert into user_time values(4,'2020-05-30 15:15:44');
insert into user_time values(4,'2020-05-30 15:17:57');

1) 建表语句

create table user_time (
    user_id string,
    time datetime
);

2) 查询语句

WITH next_view AS (
    SELECT user_id, time, LEAD(time, 1) OVER (PARTITION BY user_id ORDER BY time) AS next_time
    FROM user_time),
view_diff AS (
    SELECT user_id, TIMESTAMPDIFF(SECOND, time, next_time) AS diff
    FROM next_view);

SELECT user_id, COUNT(*) 
FROM view_diff 
WHERE diff < 180
GROUP BY user_id;

上面查询语句不会显示次数为0的用户，如果要显示，最后一句查询语句修改如下：

SELECT user_id,
       COUNT(CASE WHEN diff < 180 THEN user_id ELSE NULL END) AS count
FROM view_diff 
GROUP BY user_id;

手写HQL第十三题

表名为score：用一条 SQL 语句查询出每门课都大于 80 分的学生姓名

name kecheng fenshu
张三语文 81
张三数学 75
李四语文 76
李四数学 90
王五语文 81
王五数学 100
王五英语 90

方法1：子查询

select distinct name
from score
where name not in
(
    select distinct name
    from score
    where fenshu <= 80
)

方法2: group by和having

select distinct name
from score
group by name
having min(fenshu) > 80;

手写HQL第十四题

学生表 student 如下:

自动编号学号姓名课程编号课程名称分数
1 2005001 张三 0001 数学 69
2 2005002 李四 0001 数学 89
3 2005001 张三 0001 数学 69

删除除了自动编号不同, 其他都相同的学生冗余信息

delete student where 自动编号 not in 
(
    select min(自动编号)
    from student
    group by 学号, 姓名, 课程编号, 课程名称, 分数
)

手写HQL第十五题

一个叫 team 的表，里面只有一个字段 name,一共有 4 条纪录，分别是 a,b,c,d,对应四个球队，现在四个球队进行比赛，用一条 sql 语句显示所有可能的比赛组合.

select a.name, b.name
from team a, team b
where a.name < b.name;

手写HQL第十六题

怎么把这样一个表

year month amount
1991       1             1.1
1991       2             1.2
1991       3             1.3
1991       4             1.4
1992       1             2.1
1992       2             2.2
1992       3             2.3
1992       4             2.4

查成这样一个结果

year m1 m2 m3 m4
1991 1.1 1.2 1.3 1.4
1992 2.1 2.2 2.3 2.4

查询语句如下：

select year,
(select amount from aaa m where aaa.year = m.year and m.month = 1) m1,
(select amount from aaa m where aaa.year = m.year and m.month = 2) m2,
(select amount from aaa m where aaa.year = m.year and m.month = 3) m3,
(select amount from aaa m where aaa.year = m.year and m.month = 4) m4
from aaa
group by year;

手写HQL第十七题

说明：复制表(只复制结构, 源表名：a 新表名：b)

SQL: where1=1，拷贝表结构和数据内容

select * into b from a where 1<>1;

ORACLE:

create table b as
select * from a where 1=2;

<>（不等于）(SQL Server Compact)：比较两个表达式；当使用此运算符比较非空表达式时，如果左操作数不等于右操作数，则结果为true；否则，结果为false

手写HQL第十八题

原表

courseid coursename score

1        java        70

2        oracle        90

3        xml        40

4        jsp        30

5        servlet        80

为了便于阅读,查询此表后的结果显式如下(及格分数为 60):

courseid coursename score mark

1 java 70 pass

2 oracle 90 pass 3 xml 40 fail

4 jsp 30 fail

5 servlet 80 pass

select courseid, coursename, score, if(score>=60,"pass","fail") mark
from course;

手写HQL第十九题

表名：购物信息

购物人      商品名称    数量

A           甲         2

B            乙          4

C            丙          1

A            丁          2

B           丙         5

……

给出所有购入商品为两种或两种以上的购物人记录

select *
from 购物信息
where 购物人 in
(
    select 购物人
    from 购物信息
    group by 购物人
    having count(*) >=2
);

手写HQL第二十题

info表

date result

2005-05-09 win

2005-05-09 lose

2005-05-09 lose

2005-05-09 lose

2005-05-10 win

2005-05-10 lose

2005-05-10 lose

如果要生成下列结果, 该如何写 sql 语句?

win lose

2005-05-09 2 2

2005-05-10 1 2

方法1：聚合函数+case when

select date, 
sum(case when result = "win" then 1 else 0 end) as "win",
sum(case when result = "lose" then 1 else 0 end) as "lose"
from info
group by date;

方法2：连接查询

select a.date, a.result, b.result
from 
(
    select date, count(*) result
    from info
    where result = 'win'
    group by date
) a
join 
(
    select date, count(*) result
    from info
    where result = 'lose'
    group by date
) b
on a.date = b.date

手写HQL第二十一题

有一个订单表 order。已知字段有：order_id(订单 ID), user_id(用户ID),amount(金额), pay_datetime(付费时间),channel_id(渠道 ID),dt(分区字段)。

1) 在 Hive 中创建这个表。

create external table order (
    order_id int,
    user_id int,
    amount double,
    pay_datetime timestamp,
    channel_id int
)partitioned by(dt string)
row format delimited fields terminated by '\t';

2) 查询 dt=‘2018-09-01‘里每个渠道的订单数，下单人数（去重），总金额。

select count(order_id), count(distinct (user_id)), sum(amount)
from order
where dt = '2018-09-01';

3) 查询 dt=‘2018-09-01‘里每个渠道的金额最大 3 笔订单。

select
	count(order_id),
	count(distinct(user_id)),
	sum(amount)
from order
where dt="2019-09-01"
select
	order_id,
	channel_id,
	channel_id_amount
from(
	select
		order_id
		channel_id,
		amount,
		max(amount) over(partition by channel_id),
		min(amount) over(partition by channel_id),
		row_number() over(partition by channel_id order by amount desc) ranks
	from order
	where dt="2019-09-01"
) t
where t.ranks<4;

4) 有一天发现订单数据重复，请分析原因

订单属于业务数据，在关系型数据库中不会存在数据重复hive 建表时也不会导致数据重复，

我推测是在数据迁移时，迁移失败导致重复迁移数据冗余了

手写HQL第二十二题

有一个订单表t_order，已知字段有：order_id(订单ID)，item_id(商品id)，create_time(下单时间)，amount(下单金额)

有一个商品表t_item，已知字段有：item_id(商品id)，item_name(商品名称)，category(品类)

有一个商品表t_item，已知字段有：item_id(商品id)，item_name(商品名称)，category_1(一级品类)，category_2(二级品类)

需求：

1) 最近一个月，销售数量最多的 10 个商品

select item_id, count(order_id)
from t_order
where datediff(creat_time,current_date) <= 30
group by item_id
order by count(order_id) desc
limit 10;

2) 最近一个月，每个种类里销售数量最多的 10 个商品 # 一个订单对应一个商品一个商品对应一个品类

with cte as (
    select order_id, item_id, item_name, category
    from t_order t1
    join t_item t2 on t1.item_id = t2.item_id
)
select order_id, item_id, item_name, category, count(item_id partition by category) item_count, 
from cte
group by category
order by item_count desc
limit 10;

手写HQL第二十三题

计算平台的每一个用户发过多少日记、获得多少点赞数

t1：10万行数据
uid(用户id) log_id(日记id)
uid1 log_id1
uid2 log_id2
uid3 log_id3
......

t2：1000万行数据（注：没有被点赞的日志此表不做记录）
log_id(日记id) like_uid(点赞的用户id)
log_id1 uid2
log_id1 uid3
log_id1 uid4
log_id3 uid2
......

结果如下：

uid(用户id)        log_cnt(发过多少日记)        liked_cnt(获得多少点赞)

uid1                         2                                         3

uid2                         1                                         1 ......

with cte as (
    select t1.uid, t1.log_id, t2.like_uid
    from t1
    left join t2 on t1.log_id = t2.log_id
)
select uid, 
count(log_id) over(partition by uid) log_cnt,
count(like_uid) over(partition by uid) liked_cnt
from cte;

手写HQL第二十四题

处理产品版本号，版本号信息存储在数据表中，每行一个版本号

版本号命名规则：产品版本号由三部分组成，如：v9.11.2

第一部分9为主版本号，为1-99之间的数字；第二部分11为子版本号，为0-99之间的数字；第三部分2为阶段版本号，为0-99之间的数字(可选)

已知t1表有若干个版本号：

version_id(版本号)

v9.9.9

v8.1

v9.9.2

v9.20

v31.0.1 ......

1、需求 A:找出 t1 表中最大的版本号

2、需求 B：计算出如下格式的所有版本号排序，要求对于相同的版本号，顺序号并列：

version_id(版本号) seq(顺序号)

v31.0.1 0

v9.20 1

v9.9.2 2

v9.9.2 2

v9.0.8 4 ......

手写HQL第二十五题

现在有三个表student（学生表）、course(课程表)、score（成绩单），结构如下：

create table student(
	id bigint comment '学号'，
	name string comment '姓名',
	age bigint comment '年龄');

create table course(
	cid string comment '课程号，001/002格式',
	cname string comment '课程名');

create table score(
	id bigint comment '学号',
	cid string comment '课程号',
	score bigint comment '成绩'
) partitioned by(event_day string);

数据

insert into table student values(1001,'wsl1',21);
insert into table student values(1002,'wsl2',22);
insert into table student values(1003,'wsl3',23);
insert into table student values(1004,'wsl4',24);
insert into table student values(1005,'wsl5',25);

insert into table course values('001','math');
insert into table course values('002','English');
insert into table course values('003','Chinese');
insert into table course values('004','music');

insert into table score values(1001,'004',10);
insert into table score values(1002,'003',21);
insert into table score values(1003,'002',32);
insert into table score values(1004,'001',43);
insert into table score values(1005,'003',54);
insert into table score values(1001,'002',65);
insert into table score values(1002,'004',76);
insert into table score values(1003,'002',77);
insert into table score values(1001,'004',48);
insert into table score values(1002,'003',39);

其中score中的id、cid，分别是student、course中对应的列请根据上面的表结构，回答下面的问题：

① 请将本地文件（/home/users/test/20190301.csv）文件，加载到分区表score的20190301分区中，并覆盖之前的数据

load data local inpath '/home/users/test/20190301.csv' overwrite into table score partition(event_day='20190301');

② 查出平均成绩大于60分的学生的姓名、年龄、平均成绩

select
   stu.name,
   stu.age,
   stu.avg_score
from student stu
join(
   select
       id,
       avg(score) avg_score
   from score
   group by id
) t1
on stu.id=t1.id
where avg_score>60;

③ 查出没有‘001’课程成绩的学生的姓名、年龄

select
   stu.name,
   t2.age
from student stu
join(
   select
   	id
   from score
   where cid != 001
   group by id
) t2
on stu.id=t2.id;

④ 查出有‘001’，’002’这两门课程下，成绩排名前3的学生的姓名、年龄

select
   stu.name,
   stu.age
from(
   select
   	id,
   	cid,
   	score,
   	rank() over(partition by cid order by score desc) rank
   from score
   where cid=001 or cid-002
) t1
join student stu
on t1.id=stu.id
where rank<=3;

⑤ 创建新的表score_20190317，并存入score表中20190317分区的数据

create table score_20190317 as select * from score where dt='20190317';

⑥ 如果上面的score表中，uid存在数据倾斜，请进行优化，查出在20190101-20190317中，学生的姓名、年龄、课程、课程的平均成绩

select
   stu.name,
   stu.age,
   cou.cname,
   t1.avg_score
from(
   select 
       id,
       cid,
       avg(score) avg_score
   from score
   group by id,cid
   where dt >= '20190101' and dt <= '20190317'
) t1
left join student stu on t1.id = stu.id
left join course cou on t1.cid = cou.cid;

⑦ 描述一下union和union all的区别，以及在mysql和HQL中用法的不同之处？

union会将联合的结果集去重，效率较union all差 union all不会对结果集去重，所以效率高 HQL中要求union或union all操作时必须保证select集合的结果相同个数的列，并且每个列的类型是一样的

⑧ 简单描述一下lateral view语法在HQL中的应用场景，并写一个HQL实例

比如一个学生表为：

学号姓名年龄成绩(语文|数学|英语)

001 张三 16 90,80,95

需要实现的效果：

学号成绩

001 90

001 80

001 95

create table student(
   id string,
   name string,
   age int,
   scores array)
row format delimited fields terminated by '\t'
collection items terminated by ',';

select
   id,
   score
from student
lateral view explode(scores) tmp_score as score;

手写HQL第二十六题

username month salary(消费记录)
A 2015-01 5
A 2015-01 15
B 2015-01 5
A 2015-01 8
B 2015-01 25
A 2015-01 5
A 2015-02 4
A 2015-02 6
B 2015-02 10
B 2015-02 5

1) 建表语句

create table t_consumer(
    username string,
    month string,
    salary int)
row format delimited fields terminated by ',';

load data local inpath '/home/hadoop/data/emp_salas.txt' into table t_consumer;

需求

1) 求出每人每月的消费金额

select
	username,
	month,
	sum(salary) as salary
from t_consumer
group by username,month;

2) 求出截止到当月每个人累计消费总额

select
	username,
	month,
	cnt,
	sum(cnt) over(partition by username order by month) as total_cnt
from(
    select 
        username, 
        month, 
        sum(salary) as cnt
    from(
        select 
            *
        from t_consumer
    ) as t1
    group by username, month
) as t2
order by username, month;

手写HQL第二十七题

现有图书管理数据库的三个数据模型如下：

图书（数据表名：BOOK）

序号	字段名称	字段描述	字段类型
1	BOOK_ID	总编号	文本
2	SORT	分类号	文本
3	BOOK_NAME	书名	文本
4	WRITER	作者	文本
5	OUTPUT	出版单位	文本
6	PRICE	单价	数值（保留小数点后2位）

读者（数据表名：READER）

序号	字段名称	字段描述	字段类型
1	READER_ID	借书证号	文本
2	COMPANY	单位	文本
3	NAME	姓名	文本
4	SEX	性别	文本
5	GRADE	职称	文本
6	ADDR	地址	文本

借阅记录（数据表名：BORROW LOG）

序号	字段名称	字段描述	字段类型
1	READER_ID	借书证号	文本
2	BOOK_D	总编号	文本
3	BORROW_ATE	借书日期	日期

（1）创建图书管理库的图书、读者和借阅三个基本表的表结构。请写出建表语句。

-- 创建图书表book
CREATE TABLE library_book(
	book_id string,
	SORT string,
	book_name string,
	writer string,
	OUTPUT string,
	price decimal(10,2));
	
INSERT INTO TABLE library_book VALUES ('001','TP391','信息处理','author1','机械工业出版社','20');
INSERT INTO TABLE library_book VALUES ('002','TP392','数据库','author12','科学出版社','15');
INSERT INTO TABLE library_book VALUES ('003','TP393','计算机网络','author3','机械工业出版社','29');
INSERT INTO TABLE library_book VALUES ('004','TP399','微机原理','author4','科学出版社','39');
INSERT INTO TABLE library_book VALUES ('005','C931','管理信息系统','author5','机械工业出版社','40');
INSERT INTO TABLE library_book VALUES ('006','C932','运筹学','author6','科学出版社','55');

-- 创建读者表reader 
CREATE TABLE library_reader(
	reader_id string,
	company string,
	name string,
	sex string,
	grade string,
	addr string);

INSERT INTO TABLE library_reader VALUES ('0001','阿里巴巴','jack','男','vp','addr1');
INSERT INTO TABLE library_reader VALUES ('0002','百度','robin','男','vp','addr2');
INSERT INTO TABLE library_reader VALUES ('0003','腾讯','tony','男','vp','addr3');
INSERT INTO TABLE library_reader VALUES ('0004','京东','jasper','男','cfo','addr4');
INSERT INTO TABLE library_reader VALUES ('0005','网易','zhangsan','女','ceo','addr5');
INSERT INTO TABLE library_reader VALUES ('0006','搜狐','lisi','女','ceo','addr6');

-- 创建借阅记录表borrow_log 
CREATE TABLE library_borrow_log(
	reader_id string,
	book_id string,
	borrow_date string);

INSERT INTO TABLE library_borrow_log VALUES ('0001','002','2019-10-14');
INSERT INTO TABLE library_borrow_log VALUES ('0002','001','2019-10-13');
INSERT INTO TABLE library_borrow_log VALUES ('0003','005','2019-09-14');
INSERT INTO TABLE library_borrow_log VALUES ('0004','006','2019-08-15');
INSERT INTO TABLE library_borrow_log VALUES ('0005','003','2019-10-10');
INSERT INTO TABLE library_borrow_log VALUES ('0006','004','2019-17-13');

（2）找出姓李的读者姓名（NAME）和所在单位（COMPANY）。

SELECT
	name,
	company
FROM library_reader
WHERE name LIKE '李%';

（3）查找“高等教育出版社”的所有图书名称（BOOK_NAME）及单价（PRICE），结果按单价降序排序。

SELECT
	book_name,
	price
FROM library_book
WHERE OUTPUT = "高等教育出版社"
ORDER BY price DESC;

（4）查找价格介于10元和20元之间的图书种类(SORT）出版单位（OUTPUT）和单价（PRICE），结果按出版单位（OUTPUT）和单价（PRICE）升序排序。

SELECT
	sort,
	output,
	price
FROM library_book
WHERE price >= 10 and price <= 20
ORDER BY output,price;

（5）查找所有借了书的读者的姓名（NAME）及所在单位（COMPANY）。

SELECT
	b.name,
	b.company
FROM library_borrow_log a
JOIN library_reader b
ON a.reader_id = b.reader_id;

（6）求”科学出版社”图书的最高单价、最低单价、平均单价。

SELECT
	max(price),
	min(price),
	avg(price)
FROM library_book
WHERE OUTPUT = '科学出版社';

（7）找出当前至少借阅了2本图书（大于等于2本）的读者姓名及其所在单位。

SELECT
b.name,
b.company
FROM(
	SELECT
		reader_id
    FROM library_borrow_log
    GROUP BY reader_id
    HAVING count(*) >= 2
) a
JOIN library_reader b
ON a.reader_id = b.reader_id;

（8）考虑到数据安全的需要，需定时将“借阅记录”中数据进行备份，请使用一条SQL语句，在备份用户bak下创建与“借阅记录”表结构完全一致的数据表BORROW_LOG_BAK.井且将“借阅记录”中现有数据全部复制到BORROW_1.0G_ BAK中。

CREATE TABLE library_borrow_log_bak as SELECT * FROM library_borrow_log;

（9）现在需要将原Oracle数据库中数据迁移至Hive仓库，请写出“图书”在Hive中的建表语句（Hive实现，提示：列分隔符|；数据表数据需要外部导入：分区分别以month＿part、day＿part 命名）

CREATE TABLE book_hive( 
    book_id string,
    SORT string, 
    book_name string,
    writer string, 
    OUTPUT string, 
    price DECIMAL(10, 2))
partitioned BY ( month_part string, day_part string )
ROW format delimited FIELDS TERMINATED BY '|' stored AS textfile;

（10）Hive中有表A，现在需要将表A的月分区　201505　中　user＿id为20000的user＿dinner字段更新为bonc8920，其他用户user＿dinner字段数据不变，请列出更新的方法步骤。（Hive实现，提示：Hlive中无update语法，请通过其他办法进行数据更新）

方式1：配置hive支持事务操作，分桶表，orc存储格式

方式2：第一步找到要更新的数据，将要更改的字段替换为新的值，第二步找到不需要更新的数据，第三步将上两步的数据插入一张新表中

参考资料：

hive sql 求所有用户和活跃用户的总数及平均年龄 - 代码先锋网

https://blog.51cto.com/u_13270164/3276437

数据分析工具——sql篇（面试题解析） - 知乎

经典Hive SQL面试题_serendipity-CSDN博客

你可能感兴趣的:(面试,hive,sql,算法)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Hive SQL 题目总结 - 尚硅谷

手写HQL第一题

​手写HQL第二题

​手写HQL第三题

手写HQL第四题

手写HQL第五题

手写HQL第六题

手写HQL第七题

手写HQL第八题

手写HQL第九题

手写HQL第十题

手写HQL第十一题

手写HQL第十二题

手写HQL第十三题

手写HQL第十四题

手写HQL第十五题

手写HQL第十六题

手写HQL第十七题

手写HQL第十八题

手写HQL第十九题

手写HQL第二十题

手写HQL第二十一题

手写HQL第二十三题

手写HQL第二十四题

手写HQL第二十五题

手写HQL第二十六题

手写HQL第二十七题

你可能感兴趣的:(面试,hive,sql,算法)

手写HQL第二题

手写HQL第三题