Dashboard看板

一、项目介绍

1.1 项目背景及需求

在实现第一阶段的目标后,公司希望能够更好的发挥数据的作用。因此,要求数据部门和业务部门沟通需求,罗列有关指标并形成可视化看板,使业务人员能够进行自主分析并对有关情况作出判断。

1.2 项目流程框架

mysql数据源→和业务部门沟通,确定需要的指标→利用Python获取数据,并做数据处理→Linux服务器部署代码→powerbi制作可视化看板→powerbi面板部署上线

1.3 项目解决方案思路和构架

二、数据自动化处理流程

  1. 和数据处理有关的三个py文件

1.1 dw_order_by_day.py文件,从mysql数据库获取ods_sales_orders订单明细表并按日期分组聚合,得到每日销量和每日销售额。读取日期维度表,与上表合并,以便在powerbi中做时间维度分析。计算每日环比,并将聚合后的dw_order_by_day每日环比表存回数据库。
该表格主要用于在面板中展示订单量、销售额等指标,并且对连续多日销售趋势展示提供数据支持。
具体如下:



1.2 dw_order_diff.py文件,根据上一步得到的dw_order_by_day每日环比表,聚合当前时间维度下和去年同期维度下相同字段。如今年和去年今天的销售额,今天和去年今天的销售量。最终,计算不同时间维度的销售量、销售额、平均客单价环比,形成dw_amount_diff当日维度表存入数据库。
该表格主要在powerbi面板中对不同时间维度、不同指标的同比信息提供数据支持。
具体如下:


1.3 update_sum_data.py文件,获取ods_sales_orders订单明细表和ods_customer表并连接。按照订单日期/产品名/产品子类/产品类别/所在区域/所在省份/所在城市分组聚合。获取dim_date_df日期维度表,与上表连接得到dw_customer_order时间地区产品聚合表存回数据库。
该表格主要在powerbi中对产品和地区维度提供数据支持。
具体如下:


  1. 实现上述三个文件定时执行

2.1 schedule_job_test.py
利用schedule_job_test.py,在文件中调用schedule模块,设定分别在每天6点,6.15,6.30执行上述三个py文件。

2.2 nohup
利用nohup,将schedule_job_test.py一直挂在Linux服务器后台运行。
具体代码:nohup python3 schedule_job_test.py > python3 schedule_job_test.log 2>&1 &
查看是否成功挂在后台运行: ps aux | grep schedule_job_test.py

通过上述两步,实现每天数据自动更新

三、DashBoard面板展示及布局思路

点击跳转面板展示

主页面布局图

21日趋势图

区域详情图

布局原则及思路:

  1. 图中红色部分的切片器及页面跳转控制按钮,放在边上方便控制操作,也不会拆散需要展示的内容。
  2. 图中蓝色方块部分为主要数字类型的指标,放在同一个区域以便观察。
  3. 图中紫色方块部分为产品维度内容,放在相近的位置。
  4. 图中绿色部分为地区维度内容,因为需要展示的范围比较大,所以放在右下角并且占用比较多的空间。
  5. 21日趋势图,将可以展现趋势的指标放在同一页,方便观察。
  6. 区域详情图,将切片器放在左侧方便筛选,右边集中展示重要内容。

四、部分新的知识点

nunique()
sales_customer_order = sales_customer_order[['sales_order_key', 'create_date', 'customer_key',
'english_product_name', 'cpzl_zw', 'cplb_zw', 'unit_price',
'chinese_territory', 'chinese_province', 'chinese_city']]
sum_customer_order = sales_customer_order.groupby(['create_date', 'english_product_name', 'cpzl_zw', 'cplb_zw',
'chinese_territory', 'chinese_province','chinese_city']). \
agg({'sales_order_key': pd.Series.nunique, 'customer_key': pd.Series.nunique, 'unit_price': 'sum'}).reset_index(). \
rename(columns={'sales_order_key': 'order_num', 'customer_key': 'customer_num', 'unit_price': 'sum_amount',
'english_product_name': 'product_name'})

在agg聚合时,可直接传入pd.Series.nunique计算去重后的总数。

schedule模块
if __name__ == '__main__':
    schedule.every().day.at('06:00').do(job1)
    schedule.every().day.at('06:15').do(job2)
    schedule.every().day.at('06:30').do(job3)



    while True:
        schedule.run_pending()
        time.sleep(10)
        print("wait", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

以上代码,通过while True死循环和schedule.run_pending(),实现程序一直保持运行。
如果你去掉while True这个死循环的话,schedule.run_pending()是没有办法持续运行的,那么schedule.run_pending()是什么呢?
schedule其实就只是个定时器。在while True死循环中,schedule.run_pending()是保持schedule一直运行,去查询上面那一堆的任务,在任务中,就可以设置不同的时间去运行。

你可能感兴趣的:(Dashboard看板)