好久没写,一是因为最近618太忙了(没时间摸鱼),二是基础知识到了一定阶段,很多小坑或者小方法都是比较常见,倒没什么能写得出手的东西了,实在不会就去翻原 API 看函数语法,虽然还是不能解决额问题,但大部分再结合数据尝试基本可以得到想要的了。
所以后来有想记录每周数分岗位的做的一些事情,但是仅在脑中打了个草稿,实在没啥精力和时间记录下来。
最近一段时间应该不会太忙了,先写个昨天做的东西,给大家参考下。
618过完,客户想要看下活动前和活动后用户的成长值(用每个用户的累计金额进行换算)变化。
首先从库里 group by 得到两个时间点的每个用户的累计金额。
hxsc620['620分组']=pd.cut(hxsc620['sum(pay_amount)'],bins=[0,1,500,1800,1800000],right=False)
hxsc524['524分组']=pd.cut(hxsc524['sum(pay_amount)'],bins=[0,1,500,1800,1800000],right=False)
hxsc_m=pd.merge(hxsc524,hxsc620,left_on='receiver_phone',right_on='receiver_phone',how='right')
然后将两个时间点的用户的金额分组联接起来,得到每个用户的前后两个分组,接着构造画图所需要的的源数据格式。
第一列为一级节点名称,第二列为二级节点的名称,第三列为每个节点到每个节点的值。
hxsc_m_gr=hxsc_m.groupby(['524分组','620分组'])['receiver_phone'].count().reset_index()
构造节点变量
nodes=[]
for i in range(2):
for j in hxsc_m_gr.iloc[:,i].unique(): #分别对每一级节点进行构造
dic={}
dic['name']=j
nodes.append(dic)
构造流量变量
links=[]
for i in hxsc_m_gr.values:
dic={}
dic['source']=i[0]
dic['target']=i[1]
dic['value']=i[2]
links.append(dic)
最后就可以通过pyecharts包进行画图
from pyecharts.charts import Sankey
from pyecharts import options as opts
#图表变量名字为自定义
pic=( #链式调用
Sankey().add(
'',#图例名称
nodes,#传入节点数据
links,#传入边和流量数据
#设置透明度、弯曲度、颜色
linestyle_opt=opts.LineStyleOpts(opacity=0.3,curve=0.5,color='source'), #color为source颜色为节点的颜色
#标签显示位置
label_opts=opts.LabelOpts(position='right',color='black'),
#节点之间的距离
node_gap=30,
)
.set_global_opts(title_opts=opts.TitleOpts(title='华西商城用户去向'))
)
最后可以直接在jupyterbook里直接画也可以直接生成文件,发给客户
pic.render_notebook()
pic.render('test2_hxsc.html')