跟浩哥学大数据

常见大厂SQL笔试面试题总结

Hive 常见笔试题

一、累计次数

1.1、编写sql实现每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数

数据集
A,2015-01,5  
A,2015-01,15  
B,2015-01,5  
A,2015-01,8  
B,2015-01,25  
A,2015-01,5  
A,2015-02,4  
A,2015-02,6  
B,2015-02,10  
B,2015-02,5  
A,2015-03,16  
A,2015-03,22  
B,2015-03,23  
B,2015-03,10  
B,2015-03,11

最后结果展示:    
用户  月份      最大访问次数  总访问次数       当月访问次数  
A   2015-01     33          33        33  
A   2015-02     33          43        10  
A   2015-03     38          81        38  
B   2015-01     30          30        30  
B   2015-02     30          45        15  
B   2015-03     44          89        44 

step1:首先统计出每个用户每月的访问次数
step2:然后调用开窗函数，按照userid进行分许，按照month进行升序排序，结算截至当月的累计访问次数和最大访问次数

select id
          ,month
          ,visits  
          ,max(visits) over(partition by id order by month ) max_visits
          ,sum(visits) over(partition by id  order by month ) sum_visits
from 
       (select id
      	 ,month
       	 ,sum(visits) as visits
         from visits
         group by id,month
) t1;

注：over( order by )开窗范围 rows between unbounded preceding and current row

1.2 使用SQL统计出每个用户的累积访问次数

我们有如下的用户访问数据
    userId  visitDate   visitCount
    u01 2017/1/21   5
    u02 2017/1/23   6
    u03 2017/1/22   8
    u04 2017/1/20   3
    u01 2017/1/23   6
    u01 2017/2/21   8
    U02 2017/1/23   6
    U01 2017/2/22   4
要求使用SQL统计出每个用户的累积访问次数，如下表所示：
    用户id    月份  小计  累积
    u01 2017-01 11  11
    u01 2017-02 12  23
    u02 2017-01 12  12
    u03 2017-01 8   8
    u04 2017-01 3   3
    
step1:对时间进行处理，方便按照月份进行聚合
step2:统计每个用户，每月的访问次数
step3:调用over()开窗函数，按照userid 分区，按照月份进行升序排序，统计累计访问次数

数据准备：
 CREATE TABLE test_sql.test1 ( 
        userId string, 
        visitDate string,
        visitCount INT )
    ROW format delimited FIELDS TERMINATED BY "\t";
    INSERT INTO TABLE test_sql.test1
    VALUES
        ( 'u01', '2017/1/21', 5 ),
        ( 'u02', '2017/1/23', 6 ),
        ( 'u03', '2017/1/22', 8 ),
        ( 'u04', '2017/1/20', 3 ),
        ( 'u01', '2017/1/23', 6 ),
        ( 'u01', '2017/2/21', 8 ),
        ( 'u02', '2017/1/23', 6 ),
        ( 'u01', '2017/2/22', 4 );

查询SQL：
SELECT t2.userid,
       t2.visitmonth,
       subtotal_visit_cnt,
       sum(subtotal_visit_cnt) over (partition BY userid ORDER BY visitmonth) AS total_visit_cnt #step3:调用over()开窗函数，按照userid 分区，按照月份进行升序排序，统计累计访问次数
FROM
  (SELECT userid,
          visitmonth,
          sum(visitcount) AS subtotal_visit_cnt 
   FROM
     (SELECT userid,
             date_format(regexp_replace(visitdate,'/','-'),'yyyy-MM') AS visitmonth,
             visitcount
      FROM test_sql.test1
     ) t1  # step1:对时间进行处理，方便按照月份进行聚合
    GROUP BY userid,visitmonth
    )t2 
ORDER BY t2.userid,
t2.visitmonth #step2:统计每个用户，每月的访问次数

1.3求出每个栏目的被观看次数及累计观看时长

数据集
Uid  channle min
1	1	23
2	1	12
3	1	12
4	1	32
5	1	342
6	2	13
7	2	34
8	2	13
9	2	134
结果
channl count    min
1       5       421
2       4       194

select channl
          ,count(channl)
          ,sum(min)
from vedio
group by channl;

二、连续问题

2.1、编写连续7天登录的用户

数据集
Uid dt login_status(1登录成功,0异常)
1 2019-07-11 1
1 2019-07-12 1
1 2019-07-13 1
1 2019-07-14 1
1 2019-07-15 1
1 2019-07-16 1
1 2019-07-17 1
1 2019-07-18 1
2 2019-07-11 1
2 2019-07-12 1
2 2019-07-13 0
2 2019-07-14 1
2 2019-07-15 1
2 2019-07-16 0
2 2019-07-17 1
2 2019-07-18 0
3 2019-07-11 1
3 2019-07-12 1
3 2019-07-13 1
3 2019-07-14 1
3 2019-07-15 1
3 2019-07-16 1
3 2019-07-17 1
3 2019-07-18 1

step1:首先调用over开窗函数，按照userid分区按照时间升序排序，计算出排名
step2:将date-排名的到差值日期
step3:统计用户id,dt进行聚合，统计出count(*)>=7用户

select uid
from 
      (select uid 
                 ,date_sub(dt,rn) as dt
       from 
               (select uid
                          ,dt
                          ,row_number() over(partition by uid order by dt asc) rn 
                from login 
                where login_status=1 ) t1
) t2
group by uid,dt
having count(1)>=7;

2.2 给定一张用户签到表user_attendence，表中包含三个字段，分别是user_id,date，is_sign_in，0否1是。

 <问题1> 计算截至当前，每个用户已经连续签到的天数：要求输出用户ID【user_id】和连续签到天数【recent_continuous_days】
针对问题1，这里有一种非常巧妙的解法：只需要利用Max和datediff函数，也就是说只要找到用户最近一次没有签到的日期，计算和当前日期的差值即可。
# 求截止当前的连续签到天数
select user_id
         ,datediff('2021-09-23',max_date) as recent_continuous_days
from
(-- 找出当前用户最近一次没有签到的日期
        select user_id
                  , max(date) as max_date
       from user_attendence
       where is_sign_in=0
       group  by user_id
)

<问题2> 计算有史以来用户最大连续签到天数：要求输出用户ID【user_id】和最大连续签到天数【max_continuous_days】
针对问题2，用每行的签到日期减去序号，如果签到日期是连续的话，求得的值则是相同值，一旦日期不连续，将会求得一个新的相同值，这样的话，可以统计每个值的数量，进而判定最长签到天数。
# 求有史以来的最大连续签到天数（窗口函数）
select user_id
          ,max(continues_day) as max_continuous_days
from 
       (select user_id
                  ,count(*) as continues_day
       from 
              (select user_id
                          ,date_sub(date,rn) as dt
               from 
                       (select user⁯_id
                                 ,date
                                ,row_number() over(partition by user_id order by date ) as rn 
                        from user_attendence
                       where is_sign_in =1) a
        ) b
group by user_id,dt) c
group by user_id

2.3 求连续点击三次的用户数，而且中间不能有别人的点击

create table myschema.click(
   userid   VARCHAR (20)              NOT NULL,
   clickorder   int  not null
   );
   select * from myschema.click;
   
INSERT INTO myschema.click (userid,clickorder) values 
('g',10),('a',11),('c',12),('d',13),('d',14),
('a',15),('a',16),('a',17),('d',18),('e',19),('e',20),('e',21),('e',22);

step1:按时间排序 rank1 ：1 2 3 4 5 6
step2:按用户分组，按时间排序 rank2：1 2 1 1 2 3
step3:计算 rank1 - rank2，记为diff：0 0 2 3 3 3
step4:对userid,diff分组计数=3

select user_id
from       
(SELECT *,a.rank_1 - a.rank_2 as diff
FROM
   (select *
      ,row_number() over(order by clickorder) as  rank_1
      ,row_number() over(partition by userid order by clickorder) as rank_2
      from click
    ) a
) group by user_id ,diff having count(1)>=3;

2.4 求得所有用户和活跃用户的总数及平均年龄

日期 用户 年龄

11,test_1,23

11,test_2,19

11,test_3,39

11,test_1,23

11,test_3,39

11,test_1,23

12,test_2,19

13,test_1,23

1、-- 所有用户的总数及平均年龄
select
    count(*) sum_user,
    avg(age) avg_age
from
(
    select
        user_id,
        avg(age) age
    from test_five_active
    group by user_id
) t1;

-- 活跃人数的总数及平均年龄
select  -- （5）最外一层算出活跃用户的个数以及平均年龄
    count(*),
    avg(d.age)
from
(
    select --（4） 最后还需要以user_id分组,去重(防止某个用户在11,12号连续活跃,然后在14,15号又连续活跃,导致diff求出不一致,所以此用户会出现两次)
        c.user_id,
        c.age
    from
    (
        select --（3） 以用户和差值diff分组,看分组下的数据的个数是否大于等于2(连续两天登录),取出活跃用户的数据
            b.user_id,
            b.age,
            b.diff,
            count(*) flag
        from
        (
            select  --（2）用活跃日期减去排名,求出差值,看差值是否相等,相等差值的数据肯定是连续活跃的数据
                a.active_time,
                a.user_id,
                a.age,
                a.rank_time,
                a.active_time-a.rank_time diff
            from
            (
                select  --（1）以用户和活跃日期分组(去重,防止某个用户在同一天活跃多次),求出每个用户的活跃日期排名
                    active_time,
                    user_id,
                    age,
                    rank() over(partition by user_id order by active_time) rank_time

                from test_five_active
                group by active_time,user_id,age
            ) a
        ) b
        group by b.user_id,b.age,b.diff
        having count(*) >=2
    ) c
    group by c.user_id,c.age
) d;

三、TOPN

3.1、每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数

有50W个京东店铺，每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志，
访问日志存储的表名为Visit，访客的用户id为user_id，被访问的店铺名称为shop，数据如下：
                u1  a
                u2  b
                u1  b
                u1  a
                u3  c
                u4  b
                u1  a
                u2  c
                u5  b
                u4  b
                u6  c
                u2  c
                u1  b
                u2  a
                u2  a
                u3  a
                u5  a
                u5  a
                u5  a

step1:统计每个用户对于某一个店铺的访问总次数
step2:利用窗口函数按照店铺分区，访问次数降序排序
step3:取出排名小于等于3

SELECT t2.shop,
       t2.user_id,
       t2.cnt
FROM
  (SELECT t1.*,
          rank() over(partition BY t1.shop
                            ORDER BY t1.cnt DESC) rank
   FROM
     (SELECT user_id,
             shop,
             count(*) AS cnt
      FROM test_sql.test2
      GROUP BY user_id,
               shop) t1)t2
WHERE rank <= 3 ;

3.2 编写sql语句实现每班前三名，分数一样并列，同时求出前三名按名次排序的一次的分差

数据集
1 1901 90
2 1901 90
3 1901 83
4 1901 60
5 1902 66
6 1902 23
7 1902 99
8 1902 67
9 1902 87

create table if not exists stu(
stu_no string,
class string,
score int
)
row format delimited fields terminated by ' '
lines terminated by '\n'
stored as textfile
;
step1:调用开窗函数按照班级进行分区，按照分数进行降序排序。
step2:利用lag()函数计算前一名的分数，计算差值

select
class,
stu_no,
score,
num,
score-nvl(lag(score) over(distribute by class sort by num),0)
from
    (select
    stu_no,
    class,
    score,
    rank() over(distribute by class sort by score desc) num
    from stu) t1
where t1.num<4
;

注：NVL(exp1,exp2) 如果expr1为NULL，返回值为 expr2，否则返回expr1。
    LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值.第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

四、用户新增

4.1、统计每日新用户数量

网站用户活动表（User_Activities），表中包含字段UserId（用户编号）、Activity（用户活动，可取值login、orders、logout）、Date（活动日期），现需要编写一个查询语句，统计网站每日的新用户数量，即统计每日登录用户中首次登录网站的用户数。

step1:按照user_id 进行聚合，计算最早的登陆日期
step2:将step1作为临时表，按照登录日期进行聚合，分组统计每个login_date的用户数量

select login_date
	   ,count(UserId)as user_count
from(
    select UserId,min(Date)as login_date

    from User_Activities

    where Activity='login'

    group by UserId

)ua
group by login_date
order by login_date;

4.2 统计某月的新增用户数

step1:按照userid进行聚合
step2：使用having 挑选出最早登录日期为 2017-11 的
step3: 使用count 统计用户数

SELECT count(user_id)
FROM test_sql.test3
GROUP BY user_id
HAVING date_format(min(dt),'yyyy-MM')='2017-11';

4.3 分析用户行为习惯,找到每一个用户在表中的第一次行为

数据集
1,time1,read
3,time2,comment
1,time3,share
2,time4,like
1,time5,write
2,time6,like
3,time7,write
2,time8,read

create table if not exists user_action_log(
uid string,
time string,
action string
)
row format delimited fields terminated by ',';

select  t1.uid
          ,t1.time
          ,t1.action 
from  user_action_log t1
join 
(select  uid as uid
           ,min(time) as time
from user_action_log
group by uid)  t2
on t1.uid=t2.uid
and t1.time=t2.time
;

或者

select 
  *
from 
(select
          first_value(uid) over(partition by uid order by time asc) uid
          ,first_value(time) over(partition by uid order by time asc) time
          ,first_value(action) over(partition by uid order by time asc) action
from user_action_log) t1 
group by uid,time,action;

五、行列互换

5.1、订单及订单类型行列互换

数据源
order_id order_type order_time
111 N 10:00
111 A 10:05
111 B 10:10

是用hql获取结果如下：
order_id order_type_1 order_type_2 order_time_1 order_time_2
111 N A 10:00 10:05
111 A B 10:05 10:10

select *
from
      (select order_id
           ,order_type as type1
           ,lead(order_type) over(partition by order_id order by order_time) as type2
           ,order_time as time1
           ,lead(order_time) over(partition by order_id order by order_time) as time2
         from order_type 
        ) as t1
where t1.type2 is not null

六、其他

6.1 计算除去部门最高工资，和最低工资的平均工资

step1:使用rank(),按照部分分区，分别按照工资进行升序，降序排序
step2:将step1作为临时表，分别取出排名第一个高的最高工资，和排名第一低的最低工资
step3:按照部门聚合，求取平均工资
select a.deptno，avg(a.salary)
from  
 (
 select *
  ,rank() over( partition by deptno order by salary ) as rank_1
  ,rank() over( partition by deptno order by salary desc) as rank_2 
 from emp
 )  a 
where a.rank_1 >1 and a.rank_2 >1 
group by a.deptno

6.2 、某天每个直播间最大在线人数或者什么时候直播间人数达到峰值

一张表有如下字段：
1）直播间： live_id
2）用户:userid
3）时间戳:date_stamp
4）登陆类型:entry_type (登入和登出)
求直播间在某一天同一时间点的最大在线用户数？
step1:根据用户的进入和出去使用case when 进行类型判断，进入为1，出去为-1
step2:使用sum开窗，按照直播间进行分区，按照时间升序排序，某一时刻直播间的人数。
step3:使用row_number()，按照直播间进行分区，在线人数进行降序拍序，取第一个

select live_id
        ,date_stamp
	    ,sumflag
from	    
(select live_id
       ,userid
       ,date_stamp
       ,sumflag
       ,row_number()over(partiotion by live_id order by sumflag desc) rn
from       
    (select live_id
           ,userid
           ,date_stamp
           ,sum(flag) over (partiotion by live_id order by date_stamp) sumflag
     from
        (select live_id
                , userid
                , date_stamp as date_stamp
                , case when entry_type = 'enter' then 1
                  when entry_type = 'out' then -1 
                  else 0 end  as flag
          from live_tab lt1
        )a
    ) b
) c
  where rn=1;

七、你知道的排名函数有哪些？说一说它们之间的区别？

row_number() over()：没有并列，相同名次依顺序排
rank() over()：有并列，相同名次空位
dense_rank() over()：有并列，相同名次不空位


NVL(exp1,exp2) 如果expr1为NULL，返回值为 expr2，否则返回expr1。
LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值.第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）
Lead(col,n,DEFAULT) 用于统计窗口内往下第n行值.第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

C#：使用UDP协议实现数据的发送和接收妮妮学代码 c#UDP c#udp
UDP（UserDatagramProtocol）是一种无连接的、轻量级的传输协议，适用于对实时性要求较高的应用场景，如视频流、在线游戏等。与TCP不同，UDP不保证数据的可靠传输，但其传输效率更高。本文将详细介绍如何使用C#实现基于UDP协议的数据发送和接收，并结合代码示例解析其实现过程。1.概述UDP通讯的核心是UdpClient类，它封装了UDP协议的底层操作，提供了简单易用的接口。以下是U
js 创建对象写法 ---追溯狼魂豹速 javascript 前端开发语言
复制重新生成importSqlParaDTOfrom‘./SqlParamDTO’;exportdefault{create(funcSysId,jsonPara){//实例私有状态(每次create()调用独立)conststate={funcSysId:String(funcSysId||‘’),//强制字符串类型sqlId:‘’,modelName:undefined,queryColumn
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Vue.js 中常见的以 $ 开头的实例属性和方法遇见~未来 Vue.js vue.js javascript 前端
1.$data作用：包含Vue实例或组件的响应式数据对象。用法：通过this.$data访问组件的data数据。示例：exportdefault{data(){return{message:'Hello,Vue!'};},created(){console.log(this.$data.message);//输出:Hello,Vue!}};2.$el作用：指向Vue实例或组件的根DOM元素。用法：
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
mysql 统计同一字段不同值的个数 liudachu Mysql数据库 mysql
在一个项目中,制作呃echart图表的时候，遇到一个需求，需要从后端接口获取数据----售票员的姓名和业绩所以需要在订单表中，获取不同售票员的订单数量。订单表解决方案汇总MySQL统计一个列中不同值的数量需求：MySQL统计一个列中不同值的数量，其中origin是用户来源，其中的值有iPhone、Android、Web三种，现在需要分别统计由这三种渠道注册的用户数量。方案1:SELECTcount
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务 CSDN资讯腾讯云 mongodb 人工智能
2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
微信小程序检测滚动到某元素位置的计算方法萧寂173 微信小程序微信小程序小程序
wxml{{item}}回到顶部jsPage({data:{arr:['111','222','333','444','555','666','777','888','999','101010','111111','121212','131313','141414'],btnShow:false,//是否显示btntargetViewHeight:0//目标view的高度},onLoad(){th
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
echarts柱状图区间滚动没有天赋的搬砖者 echarts 前端 javascript
constxData=['00:00','01:00','02:00','03:00','04:00','05:00','06:00'];constbarData=[5,20,36,10,10,20];option={tooltip:{show:true,trigger:'axis',confine:true,formatter(item){consthtml=`${xData[item[0].d
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
深入解析 MySQL 数据库：隔离级别的选择幽兰的天空 MYSQL数据库数据库 mysql oracle
在数据库中，创建事务一般包含几个简单的步骤。以下是如何在MySQL中创建事务的基本指南，包括相关的SQL语句和操作流程：1.启动事务在MySQL中，你可以使用STARTTRANSACTION或BEGIN语句来启动一个新的事务。这表示你将开始执行一系列操作，这些操作要么全部成功（提交），要么全部失败（回滚）。STARTTRANSACTION;--或者使用BEGIN;2.执行操作在事务被启动后，你可以
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
MySQL- 索引下推青衫客36 数据库 mysql 数据库
索引下推（IndexConditionPushdown，简称ICP）是MySQL5.6引入的一项优化技术，它通过将部分查询条件“下推”到索引扫描阶段，从而减少不必要的行访问和回表操作，提高查询性能。1.索引下推的概念在传统的索引扫描过程中，MySQL会首先通过索引找到符合索引条件的记录，然后回表（即访问实际的表数据行）读取所需的列，最后再应用其他过滤条件（非索引条件）来判断这条记录是否符合查询要求
sql与html 就很对 sql html jvm
sql与htmlsqlite3sqlsql_callbacksql_dicthtmlhtml01ser02sersql_workhtml_ser03.htmlwebser06ser012.html011.html013.html015.html03.html04.html05.html06.htmlsqlite3sql//sqlite3_open//sqlite3_exec//sqlite3_cl
MySQL请求处理全流程深度解析：从SQL语句到数据返回 longdong7889 mysql sql adb
MySQL请求处理全流程深度解析：从SQL语句到数据返回一、MySQL架构全景图MySQL采用经典的C/S架构和分层设计，其核心模块协同工作流程如下：客户端连接管理器查询解析器查询优化器执行引擎存储引擎磁盘存储各层核心职责：连接层：管理客户端连接、权限验证服务层：SQL解析、优化、内置函数实现存储引擎层：数据存储与索引管理（如InnoDB）文件系统层：日志文件、数据文件存储二、请求处理七步详解步骤
table点击行事件，且点击行高亮爱吃玉米的兔子 vue.js javascript elementui
consttableData=[{id:1,date:"2025-03-20",name:"Tom",},{id:2,date:"2025-03-21",name:"Hom",},{id:3,date:"2025-03-22",name:"Rem",},];constselectedRow=ref(null);//储存选中的行//点击行操作事件constrowChange=(row)=>{sele
Beekeeper Studio：高颜值且免费的SQL开发工具开源项目精选 sql 数据库
BeekeeperStudio是一款免费开源的SQL开发和数据库管理工具，具有美观高效、简单易用的特点。BeekeeperStudio基于Vue.js开发，遵循MIT开源协议，支持Windows、Linux以及macOS平台。Stars数17842Forks数1170主要特点安全连接：除了正常的连接，也可以使用SSL加密连接或通过SSH隧道连接；SQL自动补全：代码编辑器支持语法高亮和表名自动补全
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
oracle当前耗时sql语句,查看Oracle最耗时的SQL weixin_39846553 oracle当前耗时sql语句
有很多种方法可以用来找出哪些sql语句需要优化，但是很久以来，最简单的方法都是分析保存在V$sql视图中的缓存的sql信息。通过V$sql视图，可以确定具有高消耗时间、CUP和IO读取的sql语句。1.查看总消耗时间最多的前10条sql语句select*from(selectv.sql_id,v.child_number,v.sql_text,last_load_time,v.PARSING_US
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

常见大厂SQL笔试面试题总结

Hive 常见笔试题

一、累计次数

1.1、 编写sql实现每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数

1.2 使用SQL统计出每个用户的累积访问次数

1.3求出每个栏目的被观看次数及累计观看时长

二、连续问题

2.1、编写连续7天登录的用户

2.2 给定一张用户签到表user_attendence，表中包含三个字段，分别是user_id,date，is_sign_in，0否1是。

2.3 求连续点击三次的用户数，而且中间不能有别人的点击

2.4 求得所有用户和活跃用户的总数及平均年龄

三、TOPN

3.1、每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数

3.2 编写sql语句实现每班前三名，分数一样并列，同时求出前三名按名次排序的一次的分差

四、用户新增

4.1、统计每日新用户数量

4.2 统计某月的新增用户数

4.3 分析用户行为习惯,找到每一个用户在表中的第一次行为

五、行列互换

5.1、订单及订单类型行列互换

六、其他

6.1 计算除去部门最高工资，和最低工资的平均工资

6.2 、某天每个直播间最大在线人数或者什么时候直播间人数达到峰值

七、 你知道的排名函数有哪些？说一说它们之间的区别？

你可能感兴趣的:(HIVE,sql,hive,big,data)

1.1、编写sql实现每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数

七、你知道的排名函数有哪些？说一说它们之间的区别？