SQL练习2:用户消费行为分析

  • 所需数据:ORDER_INFO_UTF.CSV、USER_INFO_UTF.CSV
  • 数据链接:https://pan.baidu.com/s/11ZtjKnv5-nwyf6cMyk_3JQ
  • 提取码:yu63

目录:
一、将数据导入数据库
二、SQL--用户消费行为分析
1-统计不同月份的下单人数
2-统计用户三月份的回购率和复购率
3-统计男女的消费频次是否有差异
4-统计多次消费的用户,第一次和最后一次消费时间的间隔
5-统计不同年龄段的用户消费金额是否有差异
6-统计消费的二八法则,消费的top20%用户,贡献了多少额度

一、将数据导入数据库

目的:将两份csv文件导入数据库
步骤:建表、导入数据
前面给出的数据较大,分别是10万和50万条数据,如果用数据库自带的导数工具比较缓慢,像WORKBENCH导入几千行数据就需要3分钟时间,这里可以用cmd命令行导入、或者用KETTLE进行抽取

建表

1、订单明细表

CREATE TABLE ORDERINFO  ( 
    ORDERID     varchar(10) NULL,--订单ID,主键
    USERID      varchar(10) NULL,--用户ID,可以和用户表进行关联
    ISPAID      varchar(10) NULL,--是否支付
    PRINCE      varchar(10) NULL,--订单价格
    PAIDTIME    varchar(10) NULL --订单支付时间
    )

2、用户表

CREATE TABLE YWUSER.USERINFO  ( 
    USERID  varchar(10) NULL,--用户ID,主键
    SEX     varchar(10) NULL,--性别
    BIRTH   varchar(10) NULL --出生日期
    )

导入数据

这里用KETTLE进行数据抽取,没用过KETTLE的同学可以用CMD命令行导入,可以参考秦路老师七周七成为数据分析师视频。

0、kettle转换过程

SQL练习2:用户消费行为分析_第1张图片
抽取用户表

如果在导入csv文件的时候乱码,可以添加 字段选择节点。
1、csv文件输入
SQL练习2:用户消费行为分析_第2张图片

2、字段选择

SQL练习2:用户消费行为分析_第3张图片

在csv文件输入的时候可能出现乱码的情况,可以通过字段选择修改数据类型,将encoding修改为UTF-8
3、表输出
SQL练习2:用户消费行为分析_第4张图片

上面是用户表的数据导入,导入订单明细表方法类似,更换文件路径、目标表即可。

二、SQL--用户消费行为分析

使用的是SQLSERVER数据库

分析问题:
1-统计不同月份的下单人数
2-统计用户三月份的回购率和复购率
3-统计男女的消费频次是否有差异
4-统计多次消费的用户,第一次和最后一次消费时间的间隔
5-统计不同年龄段的用户消费金额是否有差异
6-统计消费的二八法则,消费的top20%用户,贡献了多少额度
1-统计不同月份的下单人数
select substring(paidtime,1,4)+'-'+ substring(paidtime,6,2) MONTH_,count(distinct USERid) XDRS from YWUSER.ORDERINFO
where ISPAID = '已支付'
group by substring(paidtime,1,4),substring(paidtime,6,2)
SQL练习2:用户消费行为分析_第5张图片
1
2-统计用户三月份的回购率和复购率

复购率

--复购率是在本月消费中多少人消费一次以上的占比

select count(tt.USERID) '三月购买的总用户数',count(tt.USERID_count) '多次购买用户数'from
(select 
t.USERID USERID,
 case when t.USERID_count>1 then 1 else null end USERID_count
from 
(select  USERID  ,count(USERID)  USERID_count from YWUSER.ORDERINFO
where ISPAID = '已支付' and substring(paidtime,6,2) = '03'
group by USERID ) T
)tt

SQL练习2:用户消费行为分析_第6张图片
2

回购率

--回购率是三月份购买的人数四月份依旧购买

select substring(a.paidtime,1,7) '年月',count(distinct a.USERID) '本月消费的用户数量',count(distinct b.USERID)'本月回购的用户数' from
(select  userid,paidtime from YWUSER.ORDERINFO
where ISPAID = '已支付'
group by userid,paidtime) a
left join (select  userid,paidtime from YWUSER.ORDERINFO
where ISPAID = '已支付'
group by userid,paidtime) b on a.userid = b.userid and substring(a.paidtime,6,2) =  substring(b.paidtime,6,2)-1
group by substring(a.paidtime,1,7)

SQL练习2:用户消费行为分析_第7张图片
2
3-统计男女的消费频次是否有差异
--先统计每个用户的消费频次在统计,在统计男女的平均消费频次


select aa.sex '性别',round(avg(aa.PC_ORDERID),2) '消费频次'from 
(select a.USERID,b.sex,count(a.ORDERID) PC_ORDERID from 
YWUSER.ORDERINFO a
inner join (select * from YWUSER.USERINFO where SEX is not null)b on a.USERID = B.USERID
group by a.USERID,b.sex)aa
group by aa.sex
SQL练习2:用户消费行为分析_第8张图片
思路正确,结果有一点问题
4、统计多次消费的用户,第一次和最后一次消费时间的间隔
--(可以大概理解为生命周期、多次消费的用户:消费频次超过2次的用户;先求每个用户的第一次和最后一次的消费时间间隔,在求平均消费间隔)
select 
USERID,
ORDERID_CS,
convert(date,replace(paidtime_max,'/','-'),120) paidtime_max,
convert(date,replace(paidtime_min,'/','-'),120) paidtime_min,
datediff(dd,convert(date,replace(paidtime_min,'/','-'),120),convert(date,replace(paidtime_max,'/','-'),120)) '第一次最后一次消费时间差' from
(select  USERID,count(ORDERID) ORDERID_CS,max(paidtime) paidtime_max,min(paidtime) paidtime_min from YWUSER.ORDERINFO
where ISPAID = '已支付'
group by USERID having count(ORDERID)>1)aa
SQL练习2:用户消费行为分析_第9张图片
4
5-统计不同年龄段的用户消费金额是否有差异
select aa.NLD,round(avg(aa.PRINCE),2) avg_prince from
(select  a.ORDERID,A.USERID,cast(A.PRINCE as float) PRINCE,
case  when B.AGE between 10 and 19 then '10-19岁'  when B.AGE between 20 and 29 then '20-29岁' 
when B.AGE between 30 and 39 then '30-39岁' when B.AGE between 40 and 49 then '40-49岁' when B.AGE between 50 and 59 then '50-59岁' 
when B.AGE between 60 and 69 then '60-69岁'when B.AGE between 70 and 79 then '70-79岁'
else null end NLD,
B.AGE from 
(select * from  YWUSER.ORDERINFO where ISPAID = '已支付')a
inner join (select USERID,year(getdate())-left(BIRTH,4) age from YWUSER.USERINFO where BIRTH is not null) b on a.USERID = b.USERID
)aa group by aa.NLD having aa.NLD is not null
SQL练习2:用户消费行为分析_第10张图片
5
6-统计消费的二八法则,消费的top20%用户,贡献了多少额度
select sum(sum_prince) from --top20%用户贡献的总额度
(select *,row_number()over(order by sum_prince desc)as '排序' from 
(select  userid,round(sum(cast(prince as float)),2) sum_prince from  YWUSER.ORDERINFO where ISPAID = '已支付' group by USERID
) aa) tt
where 排序< (select  count(distinct USERID)* 0.2 from  YWUSER.ORDERINFO where ISPAID = '已支付')
SQL练习2:用户消费行为分析_第11张图片
6

如果有其他的分析方法欢迎大家留言,有不会的地方可以写到下面,看到一定回复大家。

关于SQL的练习可以参考我以前写的2篇文章:
1、导入数据时出现的3个问题:【SQL练习】经典SQL练习题
2、总结:SQL练习【SQL经典练习题】

你可能感兴趣的:(SQL练习2:用户消费行为分析)