一、项目介绍
1.1 项目背景及需求
在实现第一阶段的目标后,公司希望能够更好的发挥数据的作用。因此,要求数据部门和业务部门沟通需求,罗列有关指标并形成可视化看板,使业务人员能够进行自主分析并对有关情况作出判断。
1.2 项目流程框架
mysql数据源→和业务部门沟通,确定需要的指标→利用Python获取数据,并做数据处理→Linux服务器部署代码→powerbi制作可视化看板→powerbi面板部署上线
1.3 项目解决方案思路和构架
二、数据自动化处理流程
- 和数据处理有关的三个py文件
1.1 dw_order_by_day.py文件,从mysql数据库获取ods_sales_orders订单明细表并按日期分组聚合,得到每日销量和每日销售额。读取日期维度表,与上表合并,以便在powerbi中做时间维度分析。计算每日环比,并将聚合后的dw_order_by_day每日环比表存回数据库。
该表格主要用于在面板中展示订单量、销售额等指标,并且对连续多日销售趋势展示提供数据支持。
具体如下:
1.2 dw_order_diff.py文件,根据上一步得到的dw_order_by_day每日环比表,聚合当前时间维度下和去年同期维度下相同字段。如今年和去年今天的销售额,今天和去年今天的销售量。最终,计算不同时间维度的销售量、销售额、平均客单价环比,形成dw_amount_diff当日维度表存入数据库。
该表格主要在powerbi面板中对不同时间维度、不同指标的同比信息提供数据支持。
具体如下:
1.3 update_sum_data.py文件,获取ods_sales_orders订单明细表和ods_customer表并连接。按照订单日期/产品名/产品子类/产品类别/所在区域/所在省份/所在城市分组聚合。获取dim_date_df日期维度表,与上表连接得到dw_customer_order时间地区产品聚合表存回数据库。
该表格主要在powerbi中对产品和地区维度提供数据支持。
具体如下:
- 实现上述三个文件定时执行
2.1 schedule_job_test.py
利用schedule_job_test.py,在文件中调用schedule模块,设定分别在每天6点,6.15,6.30执行上述三个py文件。
2.2 nohup
利用nohup,将schedule_job_test.py一直挂在Linux服务器后台运行。
具体代码:nohup python3 schedule_job_test.py > python3 schedule_job_test.log 2>&1 &
查看是否成功挂在后台运行: ps aux | grep schedule_job_test.py
通过上述两步,实现每天数据自动更新
三、DashBoard面板展示及布局思路
点击跳转面板展示
布局原则及思路:
- 图中红色部分的切片器及页面跳转控制按钮,放在边上方便控制操作,也不会拆散需要展示的内容。
- 图中蓝色方块部分为主要数字类型的指标,放在同一个区域以便观察。
- 图中紫色方块部分为产品维度内容,放在相近的位置。
- 图中绿色部分为地区维度内容,因为需要展示的范围比较大,所以放在右下角并且占用比较多的空间。
- 21日趋势图,将可以展现趋势的指标放在同一页,方便观察。
- 区域详情图,将切片器放在左侧方便筛选,右边集中展示重要内容。
四、部分新的知识点
nunique()
sales_customer_order = sales_customer_order[['sales_order_key', 'create_date', 'customer_key',
'english_product_name', 'cpzl_zw', 'cplb_zw', 'unit_price',
'chinese_territory', 'chinese_province', 'chinese_city']]
sum_customer_order = sales_customer_order.groupby(['create_date', 'english_product_name', 'cpzl_zw', 'cplb_zw',
'chinese_territory', 'chinese_province','chinese_city']). \
agg({'sales_order_key': pd.Series.nunique, 'customer_key': pd.Series.nunique, 'unit_price': 'sum'}).reset_index(). \
rename(columns={'sales_order_key': 'order_num', 'customer_key': 'customer_num', 'unit_price': 'sum_amount',
'english_product_name': 'product_name'})
在agg聚合时,可直接传入pd.Series.nunique计算去重后的总数。
schedule模块
if __name__ == '__main__':
schedule.every().day.at('06:00').do(job1)
schedule.every().day.at('06:15').do(job2)
schedule.every().day.at('06:30').do(job3)
while True:
schedule.run_pending()
time.sleep(10)
print("wait", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
以上代码,通过while True死循环和schedule.run_pending(),实现程序一直保持运行。
如果你去掉while True这个死循环的话,schedule.run_pending()是没有办法持续运行的,那么schedule.run_pending()是什么呢?
schedule其实就只是个定时器。在while True死循环中,schedule.run_pending()是保持schedule一直运行,去查询上面那一堆的任务,在任务中,就可以设置不同的时间去运行。