背景描述
CDNow曾经是一家在线音乐零售平台,后被德国波泰尔斯曼娱乐集团公司出资收购,其资产总价值在最辉煌时曾超过10亿美元。
数据说明
本次分析数据来源CDNow网站的用户在1997年1月1日至1998年6月30日期间内购买CD交易明细。
数据集一共有用户ID,购买日期,订单数,订单金额四个字段。
问题描述
进行用户消费分析
因为没有一个完整的指标体系,
使用指标分级法对该数据集边构建边进行分析。
CDNow是一个网站,其商业模式为电子商务。
而作为电子商务模式的公司,我认为它的第一关键指标永远是GMV(营销收入)。
使用power BI 将数据集的GMV可视化。日期分组为月。
从折线图中可以看到自97年4月后销售额骤降60%,此后一直保持该水平。
对GMV指标下降的分析:
首先从大环境分析,利用PEST分析法,分析政治、经济、社会、科技这四方面对公司(网站)经营的影响。据悉因科技的发展,音乐播放软件的出现打破了传统CD唱片的市场独占性,以及Amazon这个不惜亏损也要圈用户的潜在竞争者的入场。这些原因造成了CDNow业务唱片销售的腰斩。
其次,利用公式分解推导。GMV=用户数客单价,在该数据集下课具体为GMV=用户唱片数量唱片价格,从这两方面分析造成GMV变化的原因所在。具体分析放在后面指标分级构建中进行。
客单价=GMV/用户数,该数据集的客单价影响因素有订单数量(销量)和唱片平均价格。
先对每月客单价进行可视化分析。
建立新度量值:客单价= DIVIDE(‘cdnow’[金额汇总],‘cdnow’[非重复用户基数])
其中[金额汇总]为根据月汇总的销售额度量值,[非重复用户基数]为根据月汇总的非重复用户数 度量值
再对用户数进行可视化分析。
对比发现用户数变化趋势与销售额变化趋势几乎相同。在这里给3个变量做一个相关系数分析。
因为不清楚power BI怎么求相关系数,用python
首先根据年月分组统计出月销售额、月用户数(非重复)、月客单价如下:
接着利用numpy里的corrcoef函数计算两两之间的相关系数
可以得知月销售额(GMV)的变化与用户数量的变化最相关(越接近1越正相关),因此,造成销售额下降的最大原因是用户数量的下降。
因为造成影响的因素主要是用户数,继续对用户数变化做可视化分析。
用户数的分析从用户活跃、获取、留存方面进行。
影响用户数量变化的因素有,用户新增数和用户留存率。
新建列新老客户,根据用户ID和购买时间划分是否为"首单"或"非首单"
再根据新老客户建立新度量值新增客户数
对每月新增客户数可视化
由于数据并非是从网站最初的数据开始,所以开始几个月的新增客户数比较多,但在97年3月后基本为0(除了11月的2位新客户),这代表着在97年3月-98年6月为止的销售数据里,用户都是老用户而没有新客户流入。没有新客户流入是非常严重的问题。
因为不会在power BI中求留存率,将数据导入sqlserver中进行处理
使用如下语句获取次月留存率
select e.date_1,e.月新增,f.次月留存,(convert(varchar,round(100*f.次月留存/e.月新增,2)) + '%')as 次月留存
from
(
select date_1,COUNT(distinct user_id)as'月新增'
from cdnow_3 where user_new='新客'
group by date_1
) e
inner join
(
select convert(varchar(7),dateadd(m,-1,a.date),120) as 'date_1',count(distinct USER_ID)as '次月留存' from cdnow_3 a
where a.USER_ID in (select USER_ID from cdnow_3 b where DATEDIFF(M,b.date,a.date)=1 and b.user_new='新客')
group by convert(varchar(7),dateadd(m,-1,a.date),120) )f
on e.date_1=f.date_1
结果如下
因为新增用户只有4个月有,且97年11月的新增用户全部流失,所以只有3个月的新增用户留存率。这三个月的新增用户次月留存率在15%左右,根据留存率的40-20-10原则,30日留存位置在10%以上是较好的水平,但问题在于新增用户的断层,因此将决策中心放在新用户的获取上。
利用RFM模型,通过用户R(最近一次购买时间时间间隔)、F(一段时间内购买次数)、M(一段时间内的购买金额)这三个指标分类用户,将用户分层做分析,并针对不同类型用户做出决策。
利用用户id和购买时间来新增用户最后一次购买时间列
末次消费日期 = MAXX(FILTER(‘cdnow’,‘cdnow’[用户ID]= EARLIER(‘cdnow’[用户ID])), ‘cdnow’[购买日期])
再利用末次消费时间求出R:数据日期截止到98年6月30号
R = DATEDIFF(‘cdnow’[末次消费日期],DATE(1998,6,30),DAY)-1
一次得出F、M
F = COUNTAX(FILTER(cdnow,‘cdnow’[用户ID]= EARLIER(‘cdnow’[用户ID])),‘cdnow’[用户ID])
M = CALCULATE( SUM(‘cdnow’[订单金额]),FILTER(‘cdnow’,‘cdnow’[用户ID]= EARLIER(‘cdnow’[用户ID])))
消费表内用户ID存在重复值,新建RFM表得到唯一值
RFM = SUMMARIZE(‘cdnow’,‘cdnow’[用户ID],‘cdnow’[R],‘cdnow’[F],‘cdnow’[M])
根据R、F、M的平均值队R\FM分级,大于平均值为高,反之为低。
R值 = IF( ‘RFM’[R]<= AVERAGE(‘RFM’[R]), “高”,“低”)
F值 = IF( ‘RFM’[F]>= AVERAGE(‘RFM’[F]), “高”,“低”)
M值 = IF( ‘RFM’[M]>= AVERAGE(‘RFM’[M]), “高”,“低”)
进而得出RFM终值
RFM终值 = ‘RFM’[R值] & ‘RFM’[F值] & ‘RFM’[M值]
根据RFM终值分类用户
会员分组 =
SWITCH(‘RFM’[RFM终值],
“低低低”,“一般挽留”,“低低高”,“重要挽留”,
“低高低”,“一般保持”,“低高高”,“重要保持”,
“高低低”,“一般发展”,“高低高”,“重要发展”,
“高高低”,“一般价值”,“高高高”,“重要价值”)
接下来队RFM表进行可视化,进行客户价值分析
分析观察到一般挽留用户占整体用户的50%以上。
重要用户(重要价值、重要挽留、重要保持、重要发展)大概占25%。
1、根据这批数据分析,该阶段最重视的事情应该是重新开始新用户的获取,因为自97年4月之后基本没有新用户的流入。后续全靠老客户维持网站经营。可通过活动让老客推荐新客购买分发利润来进行病毒传播用户增长。
2、制定用户生命周期管理计划:维护好重要客户(基本都是老客)避免流失从而延长客户的生命周期。