有需要本项目的源码以及全套文档和相关资源,可以私信博主!!!
在数字化和互联网技术飞速发展的推动下,消费者的购买能力和消费观念呈现不断升级和变迁的趋势。用户消费数据的爆炸式增长,为我们提供了寻找潜在价值信息的机会。
本研究使用了阿里巴巴提供的淘宝用户行为数据集,含近400万条记录。对于数据集中存在的一些异常数据,我们利用Python进行了预处理,获取了清晰、有效的信息。通过构建用户行为与商品信息的结构化分析并实施可视化探索,我们对PV、UV等流量指标,以及用户对商品的偏好、用户行为模式和流量标准等进行了详细的可视化解析。我们采用了电商分析的主要思路,如漏斗模型、日ARPPU、日ARPU、付费率、复购率和留存率等电商关键指标。基于这些分析结果,我们为商家和平台提供了具有实用价值的策略,以推动有效的市场营销活动。
我们采用了K-Means聚类和RFM模型用户等级划分的方法,把用户划分为新客户、明星客户、次要客户、流失客户四个类别。针对这四类客户,我们实施了不同的市场营销策略,以进一步优化我们的市场营销计划和电商方案。最后,我们把用户的四种行为(点击、收藏、加入购物车和购买)拓展为四个数据指标。最终,我们采用了机器学习中的逻辑回归模型,对用户的购买行为进行预测分析。模型在准确率上达到了98%的优秀表现,显示了良好的预测效果。
1.1研究意义
互联网技术进步的脚步不停,带动全球电子商务得以突飞猛进,此种趋势也使电子商务成为人们采购物品的主要选择。淘宝,作为中国电子商务巨头之一,其覆盖人群广泛,用户规模庞大,因此对其用户行为数据的搜集与剖析对改进淘宝业务决策极其重要。
此处省略......
1.2研究目的
(1)分析淘宝用户行为数据
(2)探究用户行为与商品销售之间的关系
(3)提供深入的用户画像和商品销售趋势分析
(4)为淘宝提供业务决策支持
此处省略......
1.3研究意义
(1)提高平台用户体验
(2)优化商品策略
(3)优化推荐系统
(4)为淘宝提供决策支持
(5)推动电商产业的发展
此处省略......
2.研究过程
2.1总体研究路线
图 1 本文总研究路线图 |
2.2数据介绍
本文研究数据选取的是,基于阿里巴巴天池大赛提供的一个开源数据集,可作为大数据用户行为可视化分析问题的研究,也可以用于大数据结构化分析和数据分析算法的实践数据。
其中包含所有的用户行为数据:用户ID,商品ID,商品类目ID,行为类型,时间戳。
本数据集包含了2017年11月25日至2017年12月3日之间的,但是存在少量的脏数据,在设计结构化分析系统的时候需要进一步的对数据集进行预处理和清洗,保证数据集可以便于后续的结构化分析与数据分析算法实现。
表 1 数据字段属性介绍
字段值 |
说明 |
用户ID |
整数类型,序列化后的用户ID |
商品ID |
整数类型,序列化后的商品ID |
商品类目ID |
整数类型,序列化后的商品所属类目ID |
行为类型 |
字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
时间戳 |
行为发生的时间戳 |
pv |
商品详情页pv,等价于点击 |
buy |
商品购买 |
cart |
将商品加入购物车 |
fav |
收藏商品 |
传统的数据分析软件和编程语言有Excel、SQL、R、SAS以及Python,其中不同的工具额编程语言适用于不同的业务场景,此处省略......
2.3数据预处理
在进行数据分析之前,通常需要进行数据预处理。数据预处理是指对原始数据进行清洗、转换、集成和归约等处理,使得数据更加适合进行后续分析。数据预处理可以消除数据中的错误、缺失、异常和重复等问题,提高数据质量,减少误差,为后续数据分析提供更可靠的基础。
此处省略......
图 2 数据缺失值和异常值探索
在检查完数据的缺失值和异常值之后,需要对数据有一个时间维度上的把控,因为本研究的一个重要的数据分析思维,就是通过时间上的一些指标探索不同时间下的行为,流量指标的分布等情况。
图 3 时间维度扩充代码实现 |
利用Pandas的to_datetime()方法对时间戳转换为实际的时间数值,然后我们就需要对其进行数据字段的一个扩充了,因为时间它是一个包含多种信息的字段,我们可以分解为年、月、日、周、小时、分钟等字段。
然后按照year字段进行分组,对用户ID进行聚合统计数量查看是否存在偏移的时间维度下的数据。
图 4 时间维度分布探索
本身选取的数据是2017年的数据集,其中包括11月25-12月3日的行为数据,这时候发现存在不在范围内的时间数据,这时候需要自己进行一个约束处理,将时间范围约束到这个周期内,方便后续的一个分析与实现
图 5 数据天数分布情况
发现都是正常的之后,我们对数据的一个基本的预处理也就完成了,这样有利于后续我们分析的一个准确率和可解释性,不会给我们的分析过程造成过多的干扰。
2.4用户数据分析与实现
2.4.1用户整体行为分析
此处省略......
图 6 用户整体行为分析可视化 |
此处省略......
2.4.2用户每日行为分析
分析2017-11-25 00:00:00~2017-12-03 23:59:59期间的用户每一天的行为,设计PV、UV以及均值、人均访问次数、人均访问次数均值、付费率、付费率均值、人均购买次数、人均购买次数均值。
图 7 用户每日行为可视化 |
自进入12月开始,访问次数和人数逐渐上升,且在12-02,当天达到峰值,访问次数约48w次、人数约3.5W人,购买量1w件左右;此外,在进入12之后,每日的数据基本上大于等于均值。
付费率=付费人数/总人数,此处省略......
图 8 当日点击&购买的付费率 |
在这一阶段的时期,用户不仅仅点击了和浏览了商品而且还购买了商品此处省略......
2.4.3用户每时行为分析
这里我们通过时间维度进行一个用户的探索,旨在利用一天中小时数据进行聚合操作,对同一个时间维度下的进行对应的分析展示,其中包括每日分析的指标。
图 9 用户每时行为分析可视化 |
05-10点:人们逐渐醒来开始上班,利用路程时间访问app,访问人数和次数都在持续上升;10-17点:人们工作时间,利用空闲时间访问app,访问人数和此处省略......
2.4.3用户对商品品类的选择
根据淘宝用户行为数据分析,不同商品类别的浏览量和购买量存在明显的差异。一些热门的商品类别,如服装、鞋包配饰、手机数码等,拥有较高的浏览此处省略......
图 10 用户行为对商品类目的分布情况 |
2.4.4用户行为每日分布
这里选取了收藏、加购物车、购买的行为,按照每日的一个分布情况进行可视化探索。
图 11 每日行为数据分析[收藏、加购物车、购买] |
这里将点击行为没有加入对比中,原因是点击数量比此处省略......
2.4.5总访问量和总成交量对比(每日)
在以小时为单位的访问量成交量时间变化图中,此处省略......
图 12 总访问量和总成交量对比(每小时)可视化 |
2.4.6一周内pv、uv变化
周内周一到周四pv、uv数量增加,周此处省略......
图 13 一周内PV、UV可视化 |
2.4.7日ARPPU、日ARPU
日ARPPU指的是日均付费用户收此处省略......
图 14 日ARPPU、日ARPU
图 15 每日付费率可视化 |
2.4.8复购时间消费间隔次数
复购时间、消费间隔和次数是衡量一个电商此处省略......
图 16 复购时间间隔天数可视化 |
图 17 复购频率可视化 |
通过上述的可视化,我们可以大致的了解用户复购的频率在3次左右,那么应该针对性的对复购率比较低的用户进行精准的营销推荐。
2.4.9留存率指标
留存率是指在某此处省略......
图 18 留存率指标可视化 |
可以看到留存率较好,这期间留存率几乎在70+%;次日留存率、25/26/30日留存率之间没有太大的差距;双十二活动能带来短暂的留存率升高。
2.5商品偏好分析
2.5.1不同行为top10商品
用户每天都会浏览大量的商品,其中每一个商品都会有一个对于ID字段,我们对不同行为下的商品ID进行可视化分析之后,可以把握好此处省略......
图 19 不同行为下的top10商品ID可视化 |
2.5.2不同行为的top20商品类目
通过对不同的类目的商品,这里就不是商此处省略......
图 20 不同行为下商品类目热度分布
2.6数据分析算法探索
2.6.1漏斗模型
漏斗模型是一种在电子商务分析中使用的数据分析技术,它旨在帮助电子商务公司了解用户的购买行为,并通过改进它们的网站及推广活此处省略......
图 21 4种行为的漏斗模型可视化 |
用户产生点击后可能进行的操作分别为:点击->加购物车、点击->收藏、加购物车->支付、收藏->支付,可以明显的看出用户的流失率比较大此处省略......
图 22 独立访客下的漏斗模型可视化 |
这里是独立访客下的漏斗模型可视化,通过结果展示,我们可以发现从点击到加购物车行为的转换率比较高的,从加购物车到支付行为发生这一阶段的转换率也比较高。
2.6.2 RFM数据分析算法
RFM算法是一种通过分析客户的消费此处省略......
图 23 RFM算法用户群体标签 |
由于本次用户行为中,没有具体的交易数量,所以这里将RFM变换为RF计算方法,将交易金额固定下来。
图 24 RF数据分析用户划分 |
占比最多的是重要发展客户此处省略......
2.6.3聚类算法实现用户分层
通过用户所发生的行为数据,以及透视数据下的各种新增的维度字段,比如最近的购买次数,最近一次的购买时间,我们可以采用Kmeans聚类算法对用户群体进行聚类,根据得出的聚类数目,采用RFM模型对其进行深入的划此处省略......
图 25 手肘法与轮廓系数值 |
通过轮廓系数和拐点以及最开始通过RFM划分的用户群体数目,确定最佳的聚类数目是4类。
图 26 用户聚类可视化 |
将用户划分为4类,消费新鲜度频率以及消费时间间隔来确定出不同的类型用户。0类用户的消费时间间隔相对于比较短,也就是但是消费频率不是很高,可以划分为重要发展客户;此处省略......
2.6.4用户购买预测模型
逻辑回归是一种常见的分类算法,它的原理基于线性回归,并使用逻辑函数将连续的输出转换为离散的概率预测。在逻辑回归中,将输入特征和权重进行线性组合,然后将结果输入到逻辑函数中,逻辑函数将输出值映射到[0, 1]区间内的概率值。这个概率值表示输入特征属于某个类别的概率大小。
此处省略......种领域中广泛应用于分类任务。
进行前面的基本数据统计分析和业务分析模型搭建之后,这里我们采用机器学习的思想,将用户的行为扩充为多个维度字段,其中购买行为作为目标预测列,引入逻辑回归模型进行预测,最终预测精度达到98%。
图 27 逻辑回归准确率展示 |
2.7可视化大屏设计及展示
可视化大屏是一种通过将数据可视化呈现在大屏幕上的方式来帮助人们更好地理解和解释数据的工具。相比于传统的数据报此处省略......
图 28 可视化大屏展示 |
3.总结
3.1研究特点
本研究通过选取大数据集,此处省略......
3.2研究缺点
由于选取的开源数据,数据的维度和数据的数量都有所限制,后续研究可以通过网络爬虫的手段对其行为进行捕捉,其次在业务分析模型中增加过多的时间维度上的分析。
3.3未来展望
随着电商平台用户数此处省略......
当你觉得自己很迷茫的时候,不如尝试放下,重新起航