轰轰烈烈的“双十一大战”刚刚落下帷幕。作为电商行业一年一度的“大战”,各家电商和品牌方都在摩拳擦掌,火力全开。作为品牌方,想要在电商大战中拔得头筹,那么,对消费者的洞察就必不可少。品牌方对消费者的购买行为了解地越透彻,就越能有效地帮助企业更有针对性地开展市场营销活动。
今天,我们就借助文献Sakar, C.O., Polat, S.O., Katircioglu, M. et al. Neural Comput & Applic (2018) 中的一份公开样本数据,结合JMP软件来对网购用户购买行为做一些有趣的探索性数据分析。
原始数据来源
原始数据的获取,可以通过以下网址下载csv格式原始数据到本地,并通过JMP打开:
https://archive.ics.uci.edu/ml/machine-learning-databases/00468/
也可以直接利用JMP的网页读取功能,直接获取网页端数据。(JMP操作:文件-> 从internet打开 ->网页)
数据介绍
该数据集包含12,330 名网购用户一年内在该网站的购买行为,以及对应的17个用户特征记录和最终交易结果。
17个特征记录,包括10个数值型特征,7个分类型特征。
@No.1 基本信息
管理类网页,管理类停留时间,信息类网页,信息类停留时间,产品类网页,产品类停留时间,表示用户在不同类型网页上的打开数量及停留时间总和;
@No.2 跳出率
跳出率表示从某个特定路径进入网站页面,有多少百分比的用户什么都没有做,就直接离开了网站,它既可作为衡量整个网站的度量,也可作为衡量页面的度量。
@No.3 退出率
退出率表示对某一个特定页面而言,从这个页面离开网站占所有访问到这个页面的百分比,一般作为衡量页面的度量;
@No.4 页面价值
页面价值表示用户在完成交易之前访问过的网页的平均值;
@No.5 特殊日
特殊日表示站点访问时间与特定特殊日子的间隔;
@No.6 其他
此外还包括用户使用的操作系统、浏览器、区域、流量类型、访客类型,是否为周末以及一年中的月份信息。
跳出率的好坏(高低)关系到网络营销的成功与否
客户仅仅查看单个页面后退出,让品牌方很难有机会说服消费者购买产品,毕竟他们只浏览了一页。让我们来查看下跳出率的情况吧。(JMP操作:分析-> 分布)
从图上可以看出,90%客户的跳出率低于6%,所有用户的平均跳出率只有2%,是不是很完美?请先不要着急高兴。它可能是不准确的,或许是网站的分析跟踪代码如何集成到站点出现了技术问题。因为根据以往经验,“正常”跳出率在 40%-60% 之间,低于 40% 是非常罕见的,高于 70% 是令人担忧的,并且是需要赶紧采取行动的。
当前跳出率超出预期范围并且看起来“好得令人难以置信”,应该是网站中的某个地方重复的分析代码造成的。
用户数值型特征的多元探索
在做购物行为分析的时候,用户的数值型特征可能维度很多,借助JMP的多元分析方法,可以快速发现各个维度之间的关系,并有可能实现降维操作,为后续的特征监控减少不必要的资源浪费(JMP操作:分析 -> 多元方法 ->多元)。
基于当前数据,用户在各个不同类型网页上的打开数量和停留时间成正相关, 这个很好理解。跳出率和退出率因为计算公式相似也成明显正相关,此外,没有发现明显的数值特征相关。
用户上网方式对销售的影响
通过下图卡方检验的统计结果,我们可以捕捉到完成交易与否与客户的操作系统、浏览器类型和流量类型之间的关系。(JMP操作:分析->以X拟合Y)
就操作系统而言,不同操作系统,用户完成交易的比例是不一样的。
通过图形也能看出,操作系统是“2”的时候略高,而“1”和“3”则偏低,这可能意味着网站页面对这些操作系统的支持不够友好,如果要提升这部分的收益转化,则需要做出相应的改进。同理,对浏览器类型和流量类型,我们也看到了他们对用户完成交易比例的统计学影响,说明网站在这方面也有改进空间。
新老客户和工作日/周末对销售的影响
借助2.3部分卡方检验的方法,我们也能快速发现一些新老客户和工作日/周末对销售的规律,但这里尝试另一种数据表汇总的方法(JMP操作:分析-> 消费者研究 -> 分类)。
结合上面的图形和数据,能清楚地看到:
老客户是网站访问的主力,说明网站在客户维系上做得很好;
但是我们也看到,不管是在平日(13.2% vs 26.1%)还是在周末(16.5% vs 21.9%),新客户的完成交易的比例都要高于老客户,这说明网站可以在老客户的转化率上做出些改进。
比如老客户在购买商品的时候可以通过介绍新客户的方式来享受更大的折扣,这样既调动了老客户的购买热情,也为网站增加了更多的新客户。
多样分析结果的集中展示
如果想把各种分析图表以报表的形式集中展示, 可以通过JMP的脚本功能,就可以一键实现报表链接数据的实时更新,节省大量的重复性手动操作(JMP操作:文件 -> 新建 -> 应用程序)。
以上是一些探索性数据分析的结果。下面,我们来进一步尝试用数据挖掘的方法对上面提到的用户主要特征与交易结果建立量化的统计模型。
通过决策树,筛选影响销售的关键特征
决策树是一种有监督学习方法,能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,结果解释方便,在各个行业和领域都有着广泛的应用(JMP操作:分析 -> 预测建模 -> 分割)。
从图中我们可以观察决策树的各个阶段,从上到下显示影响交易结果的最重要的特征。
其中最重要的是网页价值,网页价值低于0.067和高于0.067的成交比率分别为3.85%和56.4%,差距明显。后面还有些比较重要的特征参数也都一并列出,比如跳出率,月份和产品相关页面等,这些信息都是驱动交易结果的重要因素,现在可以快速被挑选展示出来,从而让品牌方有了一个更清晰的改进优化重点。
优中选优,更多数据挖掘方法的尝试
除了决策树,JMP还提供了诸如神经网络、随机森林、提升树和支持向量机等多种数据挖掘的方法,并且可以轻松完成模型算法之间的比较,实现优中选优。
通过JMP Pro 16 全新的模型筛选来对多种数据挖掘方法一次性完成比较,在这之前,为了防止构建的模型过拟合,可以先按照训练集,测试集,验证集 6:2:2的比例对原始数据进行拆分,生成验证列(JMP操作:分析->预测建模 ->生成验证列)。
如下图所示,一次输入特征参数和交易结果,平台会同时构建多个算法模型,并自动筛选出当前的最佳建模方法为随机森林,模型在测试集上的表现,也就是对将来新数据的预测能力R方达到了0.6,预测准确性达到了90.7%。
精确的预测模型可以帮助品牌方尽早了解每一个用户可能的交易结果,尤其是预测交易失败的情况,提早做出应对和补救,比如打折,比如在客户退出页面前弹出挽留界面等(JMP操作:分析 -> 预测建模 ->模型筛选)。
看了今天的分析,是不是让你在以后的“电商大战”中更有信心了呢?
对品牌方而言,提供个性化的产品与服务,并针对个别需求做出一对一的营销,是网络营销相对于传统营销的一个巨大优势。结合JMP数据分析软件,通过对网购用户消费行为的深入分析,可以帮助企业设计出更能满足目标顾客群需求的特色网页,并及时针对发现的潜在问题,做出相应的改进,从而为企业带来更大的收益。
如果你也想在JMP中自己动手试试看的话,可免费下载JMP试用。