视频路径:https://www.bilibili.com/video/BV1WZ4y1H7Eh?from=search&seid=7586957027441999328
将给到原始数据入库(已经给到建表sql语句,只要执行sql即可建表和插入数据),共三张表:
1、页面访问数据:page_visit_test_201909。
2、点击事件触发数据:event_visit_test_201909。
3、订单数据:order_test_201909。
题目:写sql语句,统计:每个客户,在签约订单前(不包含签约的当日),在每个页面的访问次数,在每个点击事件的触发次数。
提示和说明:
1) 所统计的是:客户在签约(购买)投顾服务订单之前所访问的各个页面的次数+在客户在签约(购买)投顾服务订单之前所点击的各个事件的次数。
2) 某人的页面访问次数的统计:在页面访问表(page_visit_test_201909)中的任意一条数据,代表某客户(“客户编号”字段)在某日(“页面访问的时间”字段)访问了某页面(“访问的页面”字段)1次,计数为1。
3) 某人点击事件次数的统计:在点击事件表(event_visit_test_201909)中的任意一条数据,代表某客户(“客户编号”字段区分)在某日(“事件发生时间”字段区分)点击了某事件(“事件名称”字段区分)1次,计数为1。
4) 最终展示将每个客户访问各页面的次数和点击各事件的次数同时展示在一个结果表中,展示形式如下图所示:
5) 上图中最后一个字段“是否购买”的判断条件是:如果在订单数据中能够找到对应的客户(编号),且“组合名称”不为空,则代表该客户签约(购买)了投顾服务(产品)。
6) 如果遇到重复购买的人,则第一次购买前的行为数据为:9月1日至第一次购买前的行为数据(统计);第二次购买前的行为数据为:第一次购买和第二次购买之间用户行为数据(统计);以此类推。
7) 上述sql完成后,需在mysql中能直接运行。
8) 提交的文档中除sql语句外,将应聘者跑出的结果截图附上。
解答的过程
1. 探索page数据表的基本结构
#初步看一眼
select * from page_visit_test_201909 limit 30;
2. 探索page有哪些页面类型
#探索页面类型
select `访问的页面`
from page_visit_test_201909
group by `访问的页面`;
3. 探索page有哪些时间
# 探索日期
select 页面访问时间
from page_visit_test_201909
group by 页面访问时间;
发现都是9月份的
4. 初步分类汇总这个界面
#汇总每种页面的数量
select 客户编号,
sum(if(访问的页面='互联网投顾首页', 1, 0)) as 互联网投顾首页,
sum(if(访问的页面='找投顾', 1, 0)) as 找投顾,
sum(if(访问的页面='投顾个人页', 1, 0)) as 投顾个人页,
sum(if(访问的页面='投顾组合评论页', 1, 0)) as 投顾组合评论页,
sum(if(访问的页面='投顾组合详情页', 1, 0)) as 投顾组合详情页,
sum(if(访问的页面='投顾观点列表', 1, 0)) as 投顾观点列表,
sum(if(访问的页面='投顾观点评论页', 1, 0)) as 投顾观点评论页,
sum(if(访问的页面='投顾观点详情页', 1, 0)) as 投顾观点详情页,
sum(if(访问的页面='选组合', 1, 0)) as 选组合
from page_visit_test_201909 p_table
group by 客户编号;
5. 探索order表的基本结构
select * from order_test_201909 limit 30;
6. 看看9月份之后发生多少真正的交易
# 探索9月份签约的用户
select * from
order_test_201909 o_table
where `签约日期` > '2019-08-31' and `签约日期` < '2019-10-01' -- 非9月份的不用考虑
and `组合名称` is not null
order by 客户姓名, 签约日期;
7.尝试不考虑重复的情况下,计算购买之前的page次数
# 先不考虑买两次的情况
select
a.客户姓名, a.签约日期, a.客户编号,
sum(if(b.访问的页面='互联网投顾首页' and b.`页面访问时间`
from
(select * from
order_test_201909 o_table
where `签约日期` > '2019-08-31' and `签约日期` < '2019-10-01' -- 非9月份的不用考虑
and `组合名称` is not null
order by 客户姓名, 签约日期) a -- 有用的订单信息
left join page_visit_test_201909 b -- 页面信息
on a.客户编号 = b.客户编号
group by a.客户编号,a.签约日期;
8. order表怎样标记上一次的交易时间
# 怎么把上一次的时间也搞进来
select
a.*,
if(@last_record_user_id=a.客户编号, @last_record_date, '2019-08-31') as prev_sign_date,
1 as mailema,
@last_record_date:=a.签约日期 as qianyueriqi_jilv,
@last_record_user_id:=a.客户编号 as bianhao_jilv
from
order_test_201909 a, (select @last_record_date:='2019-08-31', @last_record_user_id:=null) b
where `签约日期` > '2019-08-31' -- and `签约日期` < '2019-10-01' -- 非9月份的不用考虑
and `组合名称` is not null
order by 客户编号, 签约日期;
9. 最终解决问题。
# 最终答案
select
a.客户姓名,
-- a.签约日期,
-- a.客户编号,
a.买了吗,
sum(if(b.访问的页面='互联网投顾首页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 互联网投顾首页, sum(if(b.访问的页面='找投顾' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 找投顾, sum(if(b.访问的页面='投顾个人页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾个人页, sum(if(b.访问的页面='投顾组合评论页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾组合评论页, sum(if(b.访问的页面='投顾组合详情页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾组合详情页, sum(if(b.访问的页面='投顾观点列表' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾观点列表, sum(if(b.访问的页面='投顾观点评论页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾观点评论页, sum(if(b.访问的页面='投顾观点详情页' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 投顾观点详情页, sum(if(b.访问的页面='选组合' and b.`页面访问时间`
=a.prev_sign_date, 1, 0)) as 选组合 from
(select
a.*,
if(@last_record_user_id=a.客户编号, @last_record_date, '2019-08-31') as prev_sign_date,
@last_record_date:=a.签约日期 as qianyueriqi_jilv,
@last_record_user_id:=a.客户编号 as bianhao_jilv,
1 as 买了吗
from
order_test_201909 a, (select @last_record_date:='2019-08-31', @last_record_user_id:=null) b
where `签约日期` > '2019-08-31' -- and `签约日期` < '2019-10-01' -- 非9月份的不用考虑
and `组合名称` is not null
order by 客户编号, 签约日期) a -- 有用的订单信息而且包含了上一次的信息
left join page_visit_test_201909 b -- 页面信息
on a.客户编号 = b.客户编号
group by a.客户编号,a.签约日期;
工具的相关知识
navicat破解版的安装
https://zhuanlan.zhihu.com/p/111880971
如果需要运行大的sql文本,需要右键数据库来执行:
数据的基本结构
python基础
1、请不要运行代码,直接回答出以下代码运行结果
1."4.0"==4#F
2.bool("1") #T
3.bool("0") #T
4.bool(-1) #t
5.bool("")#F
6.int("3.42") #T
7."wrqq">"acd"#T
8."ttt"=="ttt "# F
(1)请总结bool(x),x为什么时出值为False
x是数值0,或者空对象或者空字符串时为False
(2) 第7问的字符串之间比较的是什么?
字典序
(3) 第6问存在什么问题?
报错:ValueError: invalid literal for int() with base 10: '3.42'
2、请自己造数据 用append分别对 list、pd.Series 、 pd.DataFrame进行操作。(变量名分别为a/b/c)
例如:
b = pd.Series()
b.append(pd.Series(1))
(1) 现在要求不同类型的append都需成功加入新数据到对应变量当中。
对于list
In [28]
list1 = [1,3,5,7,None];
list1
list1.append([22,44,66])
list1
Out[28]:
[1, 3, 5, 7, None, [22, 44, 66]]
list在append的时候会把后面的东西作为一个整体放在后面,而且append是直接修改原list
对于Series
In [20]:
s2 = pd.Series([12, 14,17])
s2
a = s.append(s2)
a
Out[20]:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
0 12.0
1 14.0
2 17.0
dtype: float64
Series的append是合并两个Series,不会修改第一个Series,需要用一个新的变量来“接收”append之后的结果。
对于dataframe
In [14]:
df2
df1.append(df2)
Out[14]:
0123
02.132240-1.065565-0.272990-0.583156
1-0.187449-1.4677040.0092710.193308
2-1.173036-0.3377390.993527-0.173590
31.7100911.747361-0.0021460.599004
4-0.7135300.313513-1.738293-0.254594
50.5284460.370375-0.0212910.774840
00.7471800.328049-0.831812-1.385509
对于dataframe跟series类似。原来的df不会变,需要用一个新的变量接收返回值。
(2)问:他们之间有什么区别?
1.是否把新append进来的元素作为一个整体
2.list就地修改,df和series不会就地修改
python进阶
3、如何用append实现DataFrame的拼接(有两种方式),请举例说明。
df1.append(df2)
df1.append(df2, ignore_index = True) #ignore_index的时候会自动分配新的index,忽略原来的index
4、如何查看python的变量内存地址(或id)?比如 a = “123456”,此时 a的变量内存地址是什么?
id(a) 可以查看,id(a)==id(b)表示他们指向的是同一个对象
5、多个变量如何引用同一个内存地址?
如果是小整数【-5,256】,或者短字符串,那么两个变量就会是同一个内存地址。
感觉是编译期间能算出来相同的对象就会被优化使用同一个内存地址;不能在编译器算出来,需要运行时算出来的时候就不会指向同一个地址。
长字符串不会被优化。
6、什么是可变对象?什么是不可变对象?哪些数据类型是可变对象,哪些是不可变对象?
https://blog.csdn.net/as480133937/article/details/87305247
可变对象:对象引用的内存里面的东西不可以修改的,如int float string tupple
可变对象:对象引用的内存可以被修改,如list dict
7、结合上述知识点,请观察 题目2的内存地址变化情况,请输出打印到本题。
list
series
dataframe
操作系统知识(选做)
1、什么是多进程?为什么要用进程?
多个程序之间,处理不同的事情,基本很少通信的时候一般都是多进程。多进程可以更充分的利用电脑资源。
2、什么是多线程?为什么要用线程?
内存上下文都一样,只是处理的时间线多了几条。多线程是一般更充分的利用cpu时间。
3、它们之间区别是什么?
多线程的粒度更小,在内存等资源上还是可以共享的。多进程则隔离的更明显。
4、什么时候用多进程、什么时候用多线程?
彼此比较密切,需要频繁通信的时候使用多线程比较合适。