淘宝用户行为分析——通过excel分析

文章目录

  • 一、需要解决的问题
  • 二、理解数据
  • 三、数据处理
    • 1.数据抽取
    • 2.数据清洗
  • 四、数据分析
    • 1.每日的浏览量
    • 2.时间的变化与购买之间的关系
    • 3.一周内用户行为分析
    • 4.描述统计
  • 五、总结

一、需要解决的问题

每日的浏览量,访客量以及时间维度的用户行为分析

二、理解数据

阿里云天池数据:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
数据集包含了2017年11月25日至2017年12月3日之间的所有行为(行为包括点击、购买、加购、喜欢)。本数据集包含用户数量约100万,商品数量约 400万件,商品类目数量涉及9000多项,所有行为数量约为1亿条。

字段名 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳

三、数据处理

1.数据抽取

因为数据量大,我们先采用Python,pandas进行读取csv文件,并从中抽取100万条行为数据,再进行excel的分析。

import pandas as pd;
#读取csv文件
data=pd.read_csv(r'D:\download\UserBehavior.csv')
#抽取100万条数据
data=data.sample(n=1000000,replace=True,axis=0)
data.to_csv(r"D:\download\user.csv")
#查看数据信息
data.head()# 读取头五行数据
data.info()# 查看数据信息

淘宝用户行为分析——通过excel分析_第1张图片
如上图,100万的数据大约有40-60M左右的大小,数据是经过脱敏处理。

2.数据清洗

淘宝用户行为分析——通过excel分析_第2张图片
其中的用户行为通过替换转化为中文,行为包括点击’pv’, 购买’buy’, 加购’cart’, 喜欢’fav’。
如下图,数据量较大,因此需要单独选中用户行为这一列替换效率更快。
淘宝用户行为分析——通过excel分析_第3张图片
时间格式使用的是时间戳(秒)所以需要进行公式的转化,遇到毫秒还要进制转换。
公式为: TEXT((TIMESTAMPS+83600)/86400+70365+19,“yyyy-mm- dd hh:mm:ss”)
如下图:
淘宝用户行为分析——通过excel分析_第4张图片
公式处理之后,将值进行复制,选择性粘贴(选择粘贴格式:数值,运算:加),进入新的一列,将格式设为时间格式:yyyy/m/d h:mm:ss, 如下图:
淘宝用户行为分析——通过excel分析_第5张图片
因为数据集时间是在2017年11月25日至2017年12月3日之间,所以以防万一,需要通过筛选功能进行排除这个时间之外的数据, 如下图:
淘宝用户行为分析——通过excel分析_第6张图片
剔除了部分数据, 如下图:
图7
导入新的文件保存,用于之后的分析。

四、数据分析

通过数据透视图功能进行分析,点击菜单栏插入-数据透视图,则可生产透视图,根据需求进行字段显示。

1.每日的浏览量

淘宝用户行为分析——通过excel分析_第7张图片
如上图,将用户行为分别拖入列和值区域,时间拖入行区域,则可以显示每日的浏览量。用户的点击行为即是浏览数,12月2-3日的浏览量稍微高了些,应该是商家活动和放假引起,11月25日至26日,虽然也为周末但是和之后的时间点不是一个周期,不能考虑在内。 如下图:
淘宝用户行为分析——通过excel分析_第8张图片

2.时间的变化与购买之间的关系

右键点击时间的行区域,选择组合,只选择小时维度则可显示图表,88%的购买行为都发生在9点上班之后至,在21点左右逐渐减少;只有3%的夜猫子在1点至5点还在购物, 如下图:
淘宝用户行为分析——通过excel分析_第9张图片
通过百分比查看四种行为的关系,看出4种行为的趋势都是一样的,主要用户活跃主要集中在10-23点,19点至21时有小幅度提升,处于下班时间,可配合秒杀活动提升购买量, 如下图:
淘宝用户行为分析——通过excel分析_第10张图片

3.一周内用户行为分析

11月27日至12月3日即为一个星期,可以看出周一至周五用户行为较为平稳,在周六日明显活跃起来,周末放假加上活动,提升用户活跃度, 如下图:
淘宝用户行为分析——通过excel分析_第11张图片

4.描述统计

点击时间-组合,以天为单位,选择购买列,进行描述统计,点击数据-数据分析,双击其中的描述统计即可查看, 如下图:
淘宝用户行为分析——通过excel分析_第12张图片

综合统计信息,因为商品经过脱敏看不出各种商品的差别,只从时间维度进行分析。因为周末放假,用户活跃度高,可配合活动提升购买量;一日内在9点之后,用户较为活跃,下班后的19点至23点较为活跃,夜晚因为处在睡眠阶段,活跃度低很正常。

五、总结

明确数据清洗流程,对数据分析做准备,可以减少错误的分析,使数据分析结果更可靠,通过Excel的透视图功能分析,能更清晰的认识到数据的内在关联。

你可能感兴趣的:(数据分析)