HsuHeinrich

SQL系列（二）最常见的业务实战

本文将通过构建三张表，几个SQL实例带大家掌握最常见的业务需求，同时这些实例也覆盖了面试中80%的考点。

临时表概览

temp.hh_user_active：用户活跃信息表，存储了2021年每日活跃的用户ID。dt+uid为唯一值。

col_name	data_type	comment	sample
dt	string	活跃日期	2021-01-01
uid	string	用户ID	91

temp.hh_user_exercise：用户练习信息表，存储了2021年每日练习的用户数据。id为唯一值。

col_name	data_type	comment	sample
dt	string	练习日期	2021-01-01
uid	string	用户ID	77
id	string	练习ID	1
paperid	string	试卷ID	45

temp.hh_paper：试卷表，存储了所有的试卷内容。id为唯一值。

col_name	data_type	comment	sample
id	string	试卷ID	60
paper_info	string	试卷信息	`[{"questionids": "51,93,79,12,83,88,95,94,60,75,33,9,63,11,65,98,28,35,25,80", "course": "语文", "content": " です！このブーメランは360度なので、360度からわかってる角度を引いて求めることができます！ "}]`

以上数据来源于python构造的，如果有需要的同学可关注公众号HsuHeinrich，回复【SQL02】自动获取～

常见的业务SQL实例

汇总统计

计算每个用户的活跃天数、练习次数、在12月的活跃天数。并筛选出活跃天数高于60天的用户，降序选择100个样本。

知识点：汇总、去重汇总、有条件去重汇总以及一些基础语法（表关联、having等）

select
    ua.uid
    ,count(distinct ua.dt) as active_days -- 活跃天数
    ,count(exerciseid) as exercise_cnt -- 练习次数
    ,count(distinct if(trunc(ua.dt,'MM')='2021-12-01',ua.dt,null)) as active_days_in_12m -- 12月活跃天数
from
    (-- 用户活跃信息
        select
            dt
            ,uid
        from
            temp.hh_user_active
        where
            dt between '2021-01-01' and '2021-12-31'
    )ua 
left join
    (-- 用户练习信息
        select
            dt
            ,uid
            ,id as exerciseid
            ,paperid
        from
            temp.hh_user_exercise
        where
            dt between '2021-01-01' and '2021-12-31'
    )ue on ua.dt=ue.dt and ua.uid=ue.uid
group by
    ua.uid
having
    active_days >= 60
order by
    active_days desc
limit 100

查看用户活跃天数的分布

知识点：嵌套子查询

select
    active_days
    ,count(uid) as user_nums -- 用户数
from
    (-- 用户活跃信息
        select
            uid
        		,count(dt) as active_days
        from
            temp.hh_user_active
        where
            dt between '2021-01-01' and '2021-12-31'
        group by 
       		uid
    )ua 
group by 
	active_days

窗口函数的应用

计算每日练习次数、练习新用户数（以前未做过练习，今日开始做练习算作今日的练习新用户）、累积练习次数（每月单独汇总）、累积占比（每月单独汇总）
每日练习次数排名前三的试卷ID

知识点：三大窗口函数的应用、窗口函数在明细与汇总中的应用

select
    ex.dt
    ,exercise_cnt
    ,exercise_new_user_nums
    ,cume_exercisee_cnt
    ,cume_rate
    ,paperid_list
from
    (-- 每日练习数据
        select -- 窗口函数用于汇总
            dt
            ,sum(1) as exercise_cnt -- 练习次数
            ,count(distinct if(first_exercise_date=dt,uid,null)) as exercise_new_user_nums -- 练习新用户数
            ,sum(sum(1)) over(partition by trunc(dt, 'MM') order by dt) as cume_exercisee_cnt -- 累积练习次数
            ,sum(sum(1)) over(partition by trunc(dt, 'MM')) as toatl_exercisee_cnt -- 总练习次数
            ,sum(sum(1)) over(partition by trunc(dt, 'MM') order by dt)
                / sum(sum(1)) over(partition by trunc(dt, 'MM')) as cume_rate -- 累积百分比
        from
            (-- 窗口函数用于明细
                select
                    uid
                    ,dt
                    ,id
                    ,first_value(dt) over(partition by uid order by dt) as first_exercise_date -- 首次练习日期
                    ,paperid
                from
                    temp.hh_user_exercise
                where
                    dt between '2021-01-01' and '2021-12-31'
            )a 
        group by 
            dt
    )ex 
left join
    (-- 每日练习最多的试卷信息
        select
            dt
            ,collect_list(paperid) as paperid_list
        from
            (
                select
                    dt
                    ,paperid
                    ,count(1) as cnt
                    ,row_number() over(partition by dt order by count(1) desc) as rn -- 每日练习次数排名
                from
                    temp.hh_user_exercise
                where
                    dt between '2021-01-01' and '2021-12-31'
                group by 
                    dt
                    ,paperid
            )a 
        where
            rn<=3
        group by 
            dt
    )exp on ex.dt=exp.dt

正则、json、列传多行

在开始本实例之前，先普及下正则和json的相关知识

正则表达式具备强大的字符串模糊匹配能力，hive可以使用rlike、regexp、regexp_replace、regexp_extract进行正则匹配，日常业务中的Hive只需要掌握简单的正则基础知识即可。

元素	含义	示例
.	代表除换行字符之外的任何字符	fo.与foo、for等匹配
*	匹配零个或多个	fo*与f、fo、foo等匹配
+	匹配一个或多个	fo+与fo、foo等匹配
?	匹配零个或一个	fo?r与fr、for匹配
( )	圆括号中内容为一个实体	f(or)+d与ford、forord等匹配
[]	匹配方括号中任意字符	f[abc]r与far、fbr等匹配 f[abc]+r与faar、facr等匹配
[^]	匹配除方括号中任意字符	`f[^abc]r`与for等匹配
{m} {m,n} {m,}	匹配m次、至少m之多n次、至少m次	fo{2,}r与foor、fooor等匹配
\d	任何数字，同[0-9]	\d与1、13等匹配
\D	任何非数字，同`[^0-9]`	\D与a、abc等匹配
\w	任何字母数字，同[_A-Za-z0-9]	\w与a、a1等匹配
\W	任何非字母数字，同`[^_A-Za-z0-9]`	\W与!、&等匹配
\s	任意空白字符，包括空格、换行字符、制表符、非换行空格等	for\s与for you等匹配
\S	任意非空白字符	for\S与forever等匹配
^	表示一个字符串的开头	^(start)与start 123匹配
$	表示一个字符串的结尾	^(end)与123 end匹配
\	对关键字进行转义，也包括`\`本身
\t	匹配制表符
\n	匹配换行符
\r	匹配回车符
\|	匹配多种情况	a(b\|c\|d)m与abm、acm等匹配
*?	懒惰模式-匹配零个或多个，尽可能少的匹配	a.*?b在ammbbb匹配为ammb
+?	懒惰模式-匹配一个或多个，尽可能少的匹配
??	懒惰模式-匹配零个或一个，尽可能少的匹配
{n,m}? {n,}?	懒惰模式-至少m之多n次、至少m次，尽可能少的匹配

在hive中正则提取时，无法进行全局提取，即只能提取第一个与之匹配的子串。但是可以利用regexp_replace(str,pattern, '$1')剔除规则外字符（除尾部），再进行尾部之前的规则提取即可。

json的字符串常常以[{key,value}]或者{key,value}的形式。因此在提取json汇总的value时，常常以get_json_object(strin,'$[*].key')提取外层含有[]的json串，以get_json_object(strin,'$.key')提取外层无[]的json串。

列传多行常常会用到lateral view explode (split(ids,',')) t as id，其实际可理解为explode后的表t（该表只有一个字段）与原始表进行笛卡尔积。

提取所有的题目ID，以及对应的试卷，科目，图片信息

知识点：正则、json提取、列转多行

select
    questionid
    ,id as paperid
    ,course
    ,regexp_replace(content, '.*?)', '$1') as content1 -- 类似全局提取（但尾部规则外字符无法替换）
    ,regexp_extract(regexp_replace(content, '.*?)', '$1'), '.*(jpg>|jpeg>|png>)', 0) as content2 -- 剔除尾部规则外字符
    ,regexp_replace(regexp_extract(regexp_replace(content, '.*?)', '$1'), '.*(jpg>|jpeg>|png>)', 0),'>',',') as imgs -- 分隔符替换为逗号
from
    (
        select 
            id
            ,get_json_object(paper_info,'$[*].questionids') as questionids -- json提取questionids
            ,get_json_object(paper_info,'$[*].course') as course
            ,get_json_object(paper_info,'$[*].content') as content
        from 
            temp.hh_paper
    )a
lateral view explode (split(questionids,',')) t as questionid -- 列转多行

多维度聚合

统计每日各科目的练习次数，要求可以单独按照日期或者科目维度查看各自的练习次数。

知识点：group 强化

select
    coalesce(exercise_dt,'all') as exercise_dt
    ,coalesce(course,'all') as course
    ,count(distinct exerciseid) as exercise_cnt
from
    (
        select
            ua.uid
            ,coalesce(ue.dt,'未知') as exercise_dt -- 注意多维度聚合时，聚合的维度不应有null
            ,coalesce(p.course,'未知') as course
            ,exerciseid
        from
            (-- 用户活跃信息
                select
                    dt
                    ,uid
                from
                    temp.hh_user_active
                where
                    dt between '2021-01-01' and '2021-12-31'
            )ua 
        join
            (-- 用户练习信息
                select
                    dt
                    ,uid
                    ,id as exerciseid
                    ,paperid
                from
                    temp.hh_user_exercise
                where
                    dt between '2021-01-01' and '2021-12-31'
            )ue on ua.dt=ue.dt and ua.uid=ue.uid
        left join
            (
                select 
                    id as paperid
                    ,get_json_object(paper_info,'$[*].course') as course
                from 
                    temp.hh_paper
            )p on ue.paperid=p.paperid
    )a 
group by 
    exercise_dt
    ,course
with cube

日期计算

生成自2000-01-01后每一天的日期信息，包含但不限于年、月、日、月初、月末等

知识点：各类日期函数的应用

select
    dt
    ,from_unixtime(unix_timestamp(dt,'yyyy-MM-dd'),'yyyyMMdd') as dt2 -- 日期格式转换
    ,date_format(dt, 'yyyyMMdd') as dt3 -- 日期格式转换
    ,year(dt) as dt_year -- 年
    ,quarter(dt) as dt_quarter -- 季度
    ,month(dt) as dt_month -- 月
    ,day(dt) as dt_day -- 日
    ,year(date_sub(next_day(dt,'monday'),4))*100+weekofyear(dt) as year_week -- 年周
    ,trunc(dt,'YY') as year_first_day -- 年初
    ,date_add(add_months(trunc(dt,'YY'),12),-1) as year_last_day -- 年末
    ,datediff(dt,trunc(dt,'YY'))+1 as day_of_year -- 年的n日
    ,trunc(dt,'Q') as quarter_first_day -- 季度初
    ,date_add(add_months(trunc(dt,'Q'),3),-1) as quarter_last_day -- 季度末
    ,trunc(dt,'MM') as month_first_day -- 月初
    ,last_day(dt) as month_last_day -- 月末
    ,if(pmod(datediff(dt,'1990-01-01')+1,7)=0,7,pmod(datediff(dt,'1990-01-01')+1,7)) as week_day -- 周几 -- 19900101为周一
    ,date_add(next_day(dt,'MO'),-7) as week_first_day -- 周初
    ,date_add(next_day(dt,'MO'),-1) as week_last_day -- 周末
    ,if(ceil(day(dt)/10)>3,3,ceil(day(dt)/10)) as xun -- 旬
from
    (-- 构造自然日
        select
            date_add(begain_date,rn-1) as dt
        from
            (
                select
                    '2000-01-01' as begain_date
                    ,row_number() over(order by rand()) as rn
                from
                    temp.hh_user_active
            )a 
        where
            rn-1<10000
    )a

留存

计算每日活跃用户数、次日留存用户数、7日留存用户数、7日内留存用户数

select
    a.dt 
    ,count(distinct a.uid) as uv
    ,count(distinct if(re.dt=date_add(a.dt,1),a.uid,null)) as retention_1d -- 次日留存
    ,count(distinct if(re.dt=date_add(a.dt,7),a.uid,null)) as retention_7d -- 7日留存
    ,count(distinct if(re.dt between date_add(a.dt,1) and date_add(a.dt,7),a.uid,null)) as retention_in_7d -- 7日内留存
from
    (
        select
            dt
            ,uid
        from
            temp.hh_user_active
        where
            dt between '2021-01-01' and '2021-12-31'
    )a
left join
    (
        select
            dt
            ,uid
        from
            temp.hh_user_active
        where
            dt between '2021-01-01' and '2021-12-31'
    )re on a.uid=re.uid and re.dt>=a.dt
group by    
    a.dt

cohort

cohort也叫同期群分析，常用于观察同一时间段的新用户在未来一段时间的表现。根据用户活跃信息表计算出每月新用户的留存cohort

select
	dt_min
    ,max(if(date_diff=0,uv,0)) as d0
    ,max(if(date_diff=1,uv,0)) as d1
    ,max(if(date_diff=2,uv,0)) as d2
    ,max(if(date_diff=3,uv,0)) as d3
    ,max(if(date_diff=4,uv,0)) as d4
    ,max(if(date_diff=5,uv,0)) as d5
    ,max(if(date_diff=6,uv,0)) as d6
    ,max(if(date_diff=7,uv,0)) as d7
    ,max(if(date_diff=8,uv,0)) as d8
    ,max(if(date_diff=9,uv,0)) as d9
    ,max(if(date_diff=10,uv,0)) as d10
    ,max(if(date_diff=11,uv,0)) as d11
    ,max(if(date_diff=12,uv,0)) as d12
    ,max(if(date_diff=13,uv,0)) as d13
    ,max(if(date_diff=14,uv,0)) as d14
    ,max(if(date_diff=15,uv,0)) as d15
    ,max(if(date_diff>15,uv,0)) as `d15+`
from
    (-- 构造同期群+日期差数据宽表 可直接excel透视或pandas转化为宽表
        select
            dt_min
            ,date_diff
            ,count(uid) as uv
        from
            (
                select
                    dt
                    ,uid
                    ,first_value(dt) over(partition by uid order by dt) as dt_min -- 同期群分组 -- 首次活跃日期
                    ,datediff(dt,first_value(dt) over(partition by uid order by dt)) as date_diff -- 活跃日期差
                from
                    (-- 用户每日数据
                        select
                            dt
                            ,uid
                        from
                            temp.hh_user_active
                        where
                            dt between '2021-01-01' and '2021-12-31'
                    )a
            )a 
        group by 
            dt_min
            ,date_diff
    )a 
group by 
    dt_min

连续登陆问题

连续登陆是一类窗口函数应用的典型问题，如求连续登陆、连续消费等。常见的方法有三种：row_number、lag/lead、sum(if[exp])。其核心是按照日期排序，将连续的日期等换成同一分组。

计算每个用户最大连续登陆天数和最大沉睡天数

select
    uid
    ,max(continue_nums) as max_continue_nums
    ,max(max_sleep_nums) as max_sleep_nums
from
    (
        select
            uid
            ,continue_flag
            ,count(1) as continue_nums -- 连续登录天数
            ,max(sleep_nums) as max_sleep_nums -- 最大沉睡天数
        from
            (
                select
                    uid
                    ,date_diff
                    ,rn
                    ,date_diff - rn as continue_flag -- 连续登陆差值相同
                    ,coalesce(date_diff - lag_date_diff - 1,0) as sleep_nums -- 以date_diff作为日期的数值替换，相当于dt-lag(dt)
                from
                    (
                        select
                            uid
                            ,date_diff
                            ,row_number() over(partition by uid order by date_diff) as rn -- 排序
                            ,lag(date_diff) over(partition by uid order by date_diff) as lag_date_diff -- 上次活跃
                        from
                            (
                                select
                                    dt
                                    ,uid
                                    ,datediff(dt,'2000-01-01') as date_diff -- 构造与指定日期差(后续操作作为日期的等价数值)
                                from
                                    (-- 用户每日数据
                                        select
                                            dt
                                            ,uid
                                        from
                                            temp.hh_user_active
                                        where
                                            dt between '2021-01-01' and '2021-12-31'
                                    )a 

                            )a
                    )a
            )a 
        group by 
            uid
            ,continue_flag
    )a 
group by 
    uid

计算连续5日都在练习新试卷的用户数

只需在1的基础上构造出每日练习新试卷用户数据即可

-- 优化1的逻辑，减少嵌套
select
    count(distinct if(max_continue_nums>=5,uid,null)) as user_nums -- 连续5天做新试卷的用户数
from
    (
        select
            uid
            ,continue_flag
            ,count(1) as continue_nums -- 连续登录天数
            ,max(count(1)) over(partition by uid) as max_continue_nums -- 最大连续登陆天数
        from
            (
                select
                    dt
                    ,uid
                    ,datediff(dt,'2000-01-01') as date_diff -- 构造与指定日期差
                    ,row_number() over(partition by uid order by datediff(dt,'2000-01-01')) as rn -- 排序
                    ,datediff(dt,'2000-01-01')
                        - row_number() over(partition by uid order by datediff(dt,'2000-01-01')) as continue_flag -- 连续登陆差值相同
                from
                    (-- 构造每日练习新试卷用户数据
                        select
                            dt
                            ,uid
                            ,count(if(paper_first_date=dt,1,null)) as new_paper_exercise_cnt
                        from
                            (
                                select
                                    dt
                                    ,uid
                                    ,id as exerciseid
                                    ,paperid
                                    ,first_value(dt) over(partition by uid,paperid order by dt) as paper_first_date -- 每用户试卷首次练习日期
                                from
                                    temp.hh_user_exercise
                                where
                                    dt between '2021-01-01' and '2021-12-31'
                            )a
                        group by 
                            dt
                            ,uid
                        having
                            new_paper_exercise_cnt>0
                    )a
            )a 
        group by 
            uid
            ,continue_flag
    )a

如果用户从dateX开始，连续7日活跃，则返回dateX所在行的信息，一个用户可以有多条符合条件的记录。

知识点：其实lag/lead窗口函数也适用于连续登陆问题，且在指定的连续长度时逻辑更为简洁。

select
    uid
    ,dt
from
    (
        select
            uid
            ,dt
            ,lead(dt,6) over(partition by uid order by dt) as lead_dt_7d
            ,if(datediff(lead(dt,6) over(partition by uid order by dt), dt)=6,1,0) as if_continue
        from
            temp.hh_user_active
        where
            dt between '2021-01-01' and '2021-12-31'    
    )a 
where
    if_continue=1

计算用户最大连续登陆天数，且规定如果间隔一天也算连续。即1，2，4算作连续4天；1，2，5算作连续两天。

知识点：通过sum(if[exp])的窗口函数计算累积值，可以构造出连续分组，对于连续的定义更为灵活。

select
    uid
    ,max(continue_nums) as max_continue_nums -- 最大连续登陆天数
from
    (
        select
            uid
            ,group_id
            ,datediff(max(dt),min(dt))+1 as continue_nums -- 连续天数
        from
            (
                select
                    uid
                    ,dt
                    ,dt_lag
                    ,lag_diff
                    ,sum(if(lag_diff>2,1,0)) over(partition by uid order by dt) as group_id -- 当日期差大于2天，则另起一组（因为0的累积值不变）
                from
                    (
                        select
                            uid
                            ,dt
                            ,lag(dt,1) over(partition by uid order by dt) as dt_lag -- 日期滞后一天
                            ,datediff(dt,lag(dt,1) over(partition by uid order by dt)) as lag_diff -- 与上个日期的差值
                        from
                            temp.hh_user_active
                        where
                            dt between '2021-01-01' and '2021-12-31'    
                    )a 
            )a 
        group by 
            uid
            ,group_id
    )a 
group by 
    uid

建议

通过上述SQL实战，相信大家已经能够顺利地写出大多数业务需求了。不过有些约定俗成的建议给到各位：

良好的代码风格

SQL是一个非严格的格式化要求语言，因此一个优秀的数据分析师应该养成自己良好的代码风格。如果没有的话，可以参考笔者的SQL代码风格。笔者的代码风格也继承于入门的师傅，核心在于关键字小写、缩进美化、必要的注释。详见下图：

理解执行顺序

理解SQL的执行顺序有助于提高代码的正确率，避免进入逻辑误区。SQL执行的内部机制为：from->on->join->where->group by->count->having->select->union all->order by->limit。

主表思维

简单翻译一下就是不要使用right join。日常业务需求的经验沉淀告诉我们，每个需求都需要明确主要信息，附加信息以left join的形式增加到主表，构造一张大明细表（明细表中含维度和度量，维度在前，度量在后），在此基础上按所需维度向上汇总。

精简子查询

从上面的例子也能发现，Hive与MySQL在语法习惯上有不同。MySQL习惯于先关联再整体上筛选条件和字段，但在Hive中，习惯构造好一个个的子查询，然后再关联。这就要求对子查询尽量做到精简，能过滤的先过滤，能汇总的先汇总。

逻辑关联

简单翻译下就是尽量避免多对多关联。多对多容易造成逻辑理解混乱、数据重复等问题，也提升了数据校验的难度。不仅在局部上如此要求，在整体上也是如此，因为SQL的关联是按顺序从上到下的，因此如果前置的表在进行一对多或者多对一操作后，再与下表关联就容易出现多对多的情况。

总结

其实SQL是最考验分析师的逻辑能力的，火候够不够就看逻辑够不够清晰。有人可能就问了，那怎么知道自己逻辑够不够清晰呢？简单的一句话：当你知道如何最正确的使用count()和count(distinct)时，你的逻辑就是清晰的。

最后，给大伙出道简单的综合题吧：给定起始值和结束值（均为整数），构造步长为1的等差数组。如：

start	end	result
2	5	[2,3,4,5]
11	9	[11,10,9]

新的一年，祝大家升职加薪，到点下班不是梦～

共勉～

mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
You have an error in your SQL syntax； check the manual that corresponds to your MySQL server version 努力的菜鸟~ sql 数据库
YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear‘IDENTIFIEDBY‘123456’WITHGRANTOPTION’atline1在mysql5.7之前GRANTALLPRIVILEGESON*.*TO'root'@'%'I
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
鲲鹏 ARM 架构麒麟 Lylin v10 安装 Nginx (离线) 焚木灵 arm开发架构 nginx 服务器
最近做一个银行的项目，银行的服务器是鲲鹏ARM架构的服务器，并且是麒麟v10的系统，这里记录一下在无法访问外网安装Nginx的方法。其他文章：鲲鹏ARM架构麒麟Lylinv10安装Mysql8.3(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Node和NVM(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Pm2(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装P
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
MySQL事务隔离级别和MVCC 简书徐小耳
MySQL事务隔离级别和MVCC参考：https://mp.weixin.qq.com/s/Jeg8656gGtkPteYWrG5_Nw1.MVCC只对读已提交和可重复的读有效果，而未提交读和串行则无意义。2.每条记录都会有trx_id(事务修改记录的id）和roll_pointer是一个指针指向旧版本的undo日志链表（row_id不是必必要的，如果有主键存在就不需要了）3.版本链的头结点就是记
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
CentOS7 安装MySQL5.7.44 不要Null了 java centos mysql
1.下载mysql安装包，我放在百度网盘里(下方链接)链接：https://pan.baidu.com/s/1_Mn1XW_1mWdTV4mhnLG66A提取码：s31n2.首先看看以前是否安装过mysqlrpm-qa|grep-imysql如果已经安装过mysql会提示卸载mysqlrpm-emysql-…3.使用FinallShell或者Xftp进行上传放到/usr/local/mysql，没
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

SQL系列（二）最常见的业务实战

SQL系列（二）最常见的业务实战

临时表概览

常见的业务SQL实例

汇总统计

窗口函数的应用

正则、json、列传多行

多维度聚合

日期计算

留存

cohort

连续登陆问题

建议

良好的代码风格

理解执行顺序

主表思维

精简子查询

逻辑关联

总结

你可能感兴趣的:(数据分析,sql,数据分析)