一、明确分析要求
1、分析报告的背景:
2019年12月业务组组长需要向领导汇报2019年11月自行车销售情况,为精细化运营提供数据支持,能精准的定位目标客户群体。
2、分析目的:
2.1、如何制定销售策略,调整产品结构,才能保持高速增长,获取更多的收益,占领更多市场份额,是公司最关心的问题。
2.2、报告通过对整个公司的自行车销量持续监测和分析,掌握公司自行车销售状况、走势的变化,为客户制订、调整和检查销售策略,完善产品结构提供依据。
3、数据来源与表名,基础表存于Mysql数据库
数据库名:adventure_ods
dw_customer_order 产品销售信息事实表
ods_customer 每天新增客户信息表
dim_date_df 日期表
ods_sales_orders 订单明细表
二、使用Jupter Notebook进行数据处理
1、载入数据
使用pymysql和sqlalchemy.create_engine从服务器的mysql数据库中导入数据
import pandas as pd
import numpy as np
import pymysql
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine
engine = create_engine("mysql://user:password@ip:port/database?charset=utf8")
datafrog=engine
gather_customer_order=pd.read_sql_query('select * from dw_customer_order',con=datafrog)
观察导入的数据(head,info,describe),再从dw_customer_order(产品销售信息事实表)中筛选出种类为自行车的销售信息
df_CUSTOMER = pd.read_sql_query("select customer_key,birth_date,gender,marital_status from ods_customer where create_date < '2019-12-1'",con = datafrog)
df_sales_orders_11 = pd.read_sql_query("select * from ods_sales_orders where create_date>='2019-11-1' and create_date<'2019-12-1'",con = datafrog)
导入用户信息表和11月的订单明细表
使用apply(lambda x:x.strftime('%Y-%m'))将日期转化为“年-月”字符串
2.整体销售表现
from datetime import datetime
from datetime import timedelta
from datetime import date
使用 筛选出不同种类自行车订单(山地、公路、旅游) 按月份进行分组groupby('create_year_month') 并求和订单数和销售金额agg({'order_num':'sum','sum_amount':'sum'}) 使用pct_change()计算每月订单数和销售金额环比 存储数据to_excel('.\数据存储\整体表现.xlsx') 筛选出10-11月订单isin(['2019-10','2019-11']) 再对地域和月份进行分组groupby(['chinese_territory','create_year_month']),并求和 使用unique()得出地域列表 对地域列表for循环,使用pct_change()得到各地域10-11月销量和销售金额环比,循环写入空列表中 使用pd.Series(order_num_diff)将列表导入DataFrame中 存储数据to_excel('.\数据存储\地域表现.xlsx') 销售信息表,11月,按城市分组,求和 使用sort_values('order_num',ascending=False)['chinese_city'].head(10).unique()得到销量前十城市列表 isin(city_amount_top10_list)筛选出销量前十城市10-11月销量和销售金额数据 同样循环+pct_change()方法计算出环比 储存数据to_excel('.\数据存储\Top城市表现.xlsx') 先得到1-11月自行车销售信息表 按月份,子类分组,求和订单量customer_order_bike_1_11_zl 按月份分组,求和订单量customer_order_bike_1_11_group_month 两表用月份连接,得到子类销量和总和销量,便可计算每月子类销量占比 存储数据to_excel('.\数据存储\细分市场销量.xlsx') 筛选出公路自行车,按月份、产品名分组,求和出产品销量 按月份分组,求和出总销量 两表连接,求出产品销量占比 pct_change()求出销量环比 to_excel('.\数据存储\公路自行车细分市场整体表现.xlsx') 将三种自行车细分表现放在一张表中 pd.concat([a,b,c],axis=0) 筛选出11月信息 销量排序sort_values('order_num_x',ascending=False,inplace=True) customer_order_all_bike_11_zl_merge.head(10).to_excel('./数据存储/Top10销量热品.xlsx') 环比排序customer_order_all_bike_11_zl_merge.sort_values('order_num_diff',ascending=False,inplace=True) customer_order_all_bike_11_zl_merge.head(10).to_excel('./数据存储/Top10增速热品.xlsx') 将自行车销售订单表与用户信息表连接 计算年龄: bike_sales_orders_customer['age']=2019-bike_sales_orders_customer['birth_date'].str[:4].apply(lambda x:np.NaN if pd.isnull(x) else int(x)) 年龄分区间: pd.cut(bike_sales_orders_customer['age'],bins=[30,35,40,45,50,55,60,65],right=False,labels=["30-34","35-39","40-44","45-49","50-54","55-59","60-64"]) 按年龄层分组 计算年龄占比 to_excel('./数据存储/全国年龄分布.xlsx') 重新分区间 pd.cut(bike_sales_orders_customer['age'],bins=[30,40,150],right=False,labels=["30-39",">=40"]) 按年龄区间,子类划分,求占比 to_excel('./数据存储/年龄段消费群分析.xlsx') 按性别划分,计算占比 按子类、性别划分,计算占比 按婚姻划分,计算占比 按子类、婚姻划分,计算占比3.地域销售表现
3.1 按地域划分 10-11月 销售量 销售金额 环比
3.2 Top10城市表现
4.产品销量表现
4.1 细分市场销量表现
4.2 公路自行车细分市场表现(旅游、山地同理)
5.热品销售分析
6.用户行为分析
6.1 年龄细分
6.2 性别分析
6.3 婚姻分析