淘宝用户行为分析项目——MySQL数据分析+Tableau可视化

目录

1.项目描述

1.1项目数据

1.2项目目标

1.3分析思路

2.数据预处理

2.1观察数据

2.2处理字段

2.3处理值

2.3.1去空

2.3.2去重

2.3.3去异常

3.数据分析

3.1【人】

3.1.1获客情况(PV,UV,PV/UV)

3.1.2留存情况(留存率,跳失率)

3.1.3行为分析(时间,用户转化率【漏斗模型】,行为路径)

3.1.4用户定位(RFM模型)

3.2【货】

3.2.1热门品类分析

3.2.2热门商品分析

3.2.3商品四象限分析

3.3【场】

3.3.1平台功能分析

4.结论


1.项目描述

1.1项目数据

本项目数据是从阿里巴巴天池下载的一份淘宝用户行为的数据集,用于隐式反馈推荐问题的研究。

数据链接:数据集-阿里云天池 (aliyun.com)

此数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第1张图片

 其中,用户行为类型共有四种,它们分别是

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第2张图片

 数据集大小如下,总数据数超过一亿条:淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第3张图片

注:隐式反馈为不能明确反映用户喜好的行为,如浏览、点击、加入购物车等。相反显式反馈为用户明确表示对物品喜好的行为,如评分、评级等。显式和隐式反馈为推荐系统中用户对物品的两种反馈模式,显性反馈数值代表偏好程度,隐性反馈数值代表置信度。

隐式反馈的作用:显著提高推荐系统的预测准确率,体现着用户的兴趣爱好,对隐式反馈信息的挖掘有助于提高推荐系统的效果,以更好地设计推荐系统,提高推荐接受率。

1.2项目目标

总体目标:为客户提供更精准的隐式反馈推荐。

从数据集出发,我们的目标可从三个角度进行分析:
从网站角度:提高网站交叉销售能力,提高成交转化率,达到精准营销、提高转化率、降低弃购率、最终实现提高客户终身价值的目的。

从商家角度:提高用户忠诚度,帮助用户快速找到商品,推荐其真正感兴趣的商品,最终达到提高成交转化率、提高销售额的目的。

从消费者角度:对于消费者来说,为其精准推荐感兴趣的商品,使其能够快速找到需要的产品并下单购买是最终目标。

1.3分析思路

首先进行数据清洗,之后采用【人货场】模型对数据集进行分类分析,具体思维导图如下:淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第4张图片

2.数据预处理

2.1观察数据

数据集共5个字段,user_id,item_id,item_category,buy_type,time,均是有用字段,不需要剔除。

2.2处理字段

处理字段可从字段名,字段类型,字段约束三方面入手。

观察发现本数据集中时间戳字段需要转换成时间日期字段,使用函数from_unixtime()进行转换

alter table retailers_trade_user 
add column date_time datetime null;
update retailers_trade_user
set date_time=from_unixtime(time);

增加日期、时间单独字段以便后续分析调用

-- 增加列dates只包含日期
alter table retailers_trade_user add column dates char(10) null;
update retailers_trade_user set dates=date(date_time);
-- 再加一列时间times
alter table retailers_trade_user add column times char(8);
update retailers_trade_user set times=time(date_time);

2.3处理值

2.3.1去空

select * from retailers_trade_user where user_id is null

每一字段都写上运行一次,发现没有空值。

2.3.2去重

为后期调用不改变原数据且方便,建临时表temp_trade,同时去除重复值:

create table temp_trade like retailers_trade_user;
insert into temp_trade select distinct  * from retailers_trade_user;

2.3.3去异常

因为本数据集有时间范围为2017年11月25日至2017年12月3日之间,因此先检查一下是否有时间异常值:

select max(date_time),min(date_time) from temp_trade;

发现存在异常,删除异常值:

delete from temp_trade
where date_time < '2017-11-25 00:00:00' or date_time > '2017-12-04 00:00:00';

3.数据分析

3.1【人】

3.1.1获客情况(PV,UV,PV/UV)

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第5张图片

以日期作为分组,筛选每日PV,UV,PV/UV ,使用Tableau可视化如下:淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第6张图片

数据时间范围内,访问量和独立访客数总体呈现平稳后上升的趋势,其中11.25-12.1保持平稳,12.2-12.3日有明显上升,上升幅度均可达30%,查询日期可知这两日为周末,但11.25 ~26同为周末,结合时间特征,可能是双十二活动预热成果显著。

Pv/uv一直保持在13左右,上下浮动不超过0.4,表明平均点击次数较高,且保持稳定。

3.1.2留存情况(留存率,跳失率)

留存率:用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是留存用户,这部分用户占当时新增用户的比例即是留存率。是判断用户黏性的重要指标。

受数据时间限制,只分析次日留存率,创建视图提取当日uv及次日留存数:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第7张图片

 创建新表计算并保存次日留存率:淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第8张图片

 使用Tableua进行可视化:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第9张图片

11月底次日留存率保持在77-79%之间,12月前两日攀升至98%,表明用户黏性好,淘宝用户忠诚度较高。商品对用户很有吸引力,也说明双十二活动预热取得良好效果。

跳失率:是指显示顾客通过相应入口进入,只访问了一个页面就离开的访问次数占该页面总访问次数的比例。跳失率可以反映用户对APP\网站内容的认可程度,或者说网站\APP是否对用户有吸引力。

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第10张图片

查询结果只有2个人,说明淘宝对用户的吸引力很高,商品内容、推荐机制等对用户有比较强的针对性。

综合留存率跳失率来看,淘宝APP的用户忠诚度较高,且内容质量高,可以吸引用户持续使用APP。所以在获取新用户的同时,对老客的忠诚度维系十分重要。要重视用户关系,做好售后服务,同时实行老客VIP政策,给与优惠券等会员福利,并不断保持与老客的联系,进一步培养用户忠诚度。也可以鼓励用户写评价,适当培养UGC模式,提高用户的参与感。

3.1.3行为分析(时间,用户转化率【漏斗模型】,行为路径)

①时间序列分析分为日间分析与日内分析

日间分析:以天为尺度淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第11张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第12张图片 

 加购、收藏及购买数与浏览量同步变化。11月末呈现平稳态势,可能是双十一过后购买力下降,12月初达到新高峰,可能由于到达双十二预热期,预热会使购买前置动作的收藏与加购行为量出现增长。

日内分析:以小时为尺度淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第13张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第14张图片淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第15张图片

浏览量、加购量和收藏量在每日20-22点达到最高峰,2-5点呈现最低值,与国民作息规律相符。但是,日内购买率在10-11点达到最高峰,20-22点反而呈现下降趋势,表明人们更容易在上午而不是晚上冲动购买商品。

因此可以考虑在20~22点做一些力度较大的优惠活动以提高转化率,而在白天10-11点时多进行商品投放,在制定运营策略时也可以考虑在这两个时间段进行直播带货、商品宣传、拼单促销等活动。

②用户行为转化率分析(漏斗模型)

数据集中用户行为包括浏览、收藏、加购、购买,是单向的用户行为流程,非常适合使用漏斗模型进行分析。由于收藏和加购同属于购买前置行为,本研究中将数据简化成浏览-收藏加购-购买的漏斗模型。

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第16张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第17张图片

点击-收藏加购转化率:9.50%

点击-支付转化率:2.22%

收藏加购-支付转化率:23.41% 

但是用户并非一定收藏加购后再购买,因此收藏加购-支付转化率并不准确。我们在此继续细分用户行为:分别取用户购买某商品行为前的4个行为,并将行为连接,以此作为字段计数分析:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第18张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第19张图片 最终选用排名前十的行为路径进行可视化:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第20张图片

结合行为路径分析,发现购买转化自收藏加购的占比并不大,而绝大部分来自于点击-直接购买。虽然受到数据本身时间范围限制,但是数据范围内仅浏览至购买的量占到总购买量的85%,足以说明点击-购买率远高于收藏加购-购买率。

结合前文计算得到PV/UV=13,可推断大部分用户在购买前不会对商品进行大量比对,而是冲动消费占比较高,少部分用户在进行比对后才会产生购买意向,最后进行购买。所以精准推荐是提升重点,APP可以从推荐机制入手,以用户日常行为为依据,尽量精准推荐,并且需要匹配相关度更高的关键词,完善商品关键词设置制度和搜索算法,减少用户寻找商品的时间成本。

从商家的角度,一方面要拓展流量,加大获客力度,增加点击量;另一方面可以多举办限时促销活动,以及优化商品图片、标题、商品详情页入手,突出产品的特点和优势,提高用户对商品的兴趣,促使用户尽快下单。

3.1.4用户定位(RFM模型)

因数据有限,只采用R F两组数据进行分析

R表示最近一次购买日期,1天记为5,;2-3天记为4;4-5天记为3;6-7天记为2;7天以上记为1。

F表示购买次数,1次记为1;2-5次记为2;6-10次记为3;11-20次记为4;20次以上记为5。

R和F均已平均值作为分隔标准。

R F均大于平均值,为高价值用户;

F大于平均值,R小于平均值,为重要保持用户

F小于平均值,R大于平均值,为重要发展用户

F R均小于平均值,为重要挽留用户

以R指数计算为例的SQL代码:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第21张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第22张图片

 建表存储RF值,以平均值为标准。淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第23张图片

 在RFM表中插入用户分类淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第24张图片

 最后建rfm_result表,存储数据淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第25张图片

可视化结果: 

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第26张图片

各类用户特性:
1)高价值用户是最优质的用户群体,应重点关注,既要保持其粘性,又要继续引导消费,可为这类用户提供vip服务;
2)重要发展用户的特点是近期有消费但频次不高,策略是提高其消费次数,具体措施有促销活动提醒和优惠券活动等;
3)重要保持用户的特点是消费频次高但有一段时间没有消费,策略是重新唤醒,通过app消息推送,以及站外广告营销吸引其注意力,促进复购;
4)重要挽留用户近期没有消费且频次不高,若不加以挽留,会有流失的可能, 对于这类用户一方面需要保持曝光量,持续推送活动和优惠信息;另一方面需要进一步研究其兴趣和需求,才能采取有效的运营策略。

本数据中重要发展、重要挽留用户较多,可分别采取针对性措施。观察数据发现F对数据分类力度更大,客户平均购买次数2-5次,重要发展用户和重要挽留用户基本上购买次数都为1。因此,可从提高曾购买1-2次的老客购买次数角度入手。对于这类用户一方面需要保持曝光量,持续推送活动和优惠信息,或提供vip专属服务;另一方面需要进一步研究其兴趣和需求,才能采取有效的运营策略。

3.2【货】

3.2.1热门品类分析

共有7800个商品品类,共销售165465件,平均每个类目21件。最多销售2991件。

查询浏览量及销量前十的商品品类

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第27张图片

 可视化结果:图1为浏览量排行榜,图2为销售量排行榜

 淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第28张图片淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第29张图片

结合商品品类浏览量和销售量,发现浏览量第一的品类销售量排在第五,应重点提高这个品类的点击-销售转化率。另外,浏览量第3, 4, 6的商品购买率也较低,也应重点提升。 

3.2.2热门商品分析

共有1419398件商品,总购买量165465,平均每种商品卖出0.12件,有107258件商品有购买记录,平均购买量1.54件。

查询浏览量及销量前十的商品品类

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第30张图片

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第31张图片

 可视化结果:

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第32张图片淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第33张图片

 结合商品浏览量,发现浏览量较高的前六名购买量均不高,因此应重点提升这部分购买转化率。另外,加大对销量前几名的商品的宣传力度,增大点击量。

总体而言,商品购买量与浏览量的相关性比较差,具体改如何对不同商品进行精准的优化手段,还需要进一步将商品按照浏览量与销售量两个维度进行定量分析。

3.2.3商品四象限分析

由于对商品笼统的浏览量、销售量排名难以明确,因此对商品从浏览量和销售量两个维度进行定量分析。在这里我们使用与上文RF模型相同的逻辑。

浏览量指数以浏览1000次及以上记为5;500次以上记为4;200次及以上记为3;1次及以上记为2;0次记为1.

销售量指数以30次及以上记为5;10次及以上记为4,;5次及以上记为3;1次及以上记为2;0次记为1

但是计算结果表明两个维度平均值均为1+,表明此计分标准科学性不足,但足以表示商品特性。

pv大于平均值,购买量大于平均值,高价值商品

pv大于平均值,购买量小于平均值,高发展商品

pv大于平均值,购买量小于平均值,高性价商品

pv大于平均值,购买量小于平均值,高潜力商品

SQL语句部分与RF模型相同,这里直接放可视化结果:右边依次为高价值商品、高潜力商品和高性价商品。

淘宝用户行为分析项目——MySQL数据分析+Tableau可视化_第34张图片

高发展商品占绝大多数,这部分为浏览次数大于1次但没有购买的商品,这种商品占大多数符合常理。这类商品问题可以从以下几个方面分析:

①目标人群送达:可能是商品本身的宣传非常有吸引力,但是指向性不够明确,导致很多非目标用户点击商品,但是没有进行购买

②商品定价:商品定价过高,同类可替代的高性价比商品太多,用户就会转向其他同类商品

③商品详情页、客服及评论区:用户无法从详情页和客服得到需要的商品详细信息,或者商品评论有比较扎眼的差评,导致用户退出购买

④购买流程:可能是优惠券使用方式复杂,商品凑单购买流程复杂,让用户放弃购买。

因此对于这部分商品要进一步挖掘问题所在之处,并根据结果进行相应的优化。如精准推送商品、适当调整定价、提高产品详情页面的吸引力等,以达到提升商品的竞争力,提高总体转化率的目的。

高价值商品也较多,表明这一部分产品能得到消费者的认可,需要继续提高此类商品的曝光量,平台加大推荐力度。

 高性价商品销量高,但是浏览量低,说明该类商品①属于垂直领域,有特定受众会直接进行性购买,用户的购买目标明确②商品本身转化率应该较高,但是曝光量过少,商家宣传力度小,用户接触到该类商品的渠道较少。因此需要分析商品特征与用户画像,收集该类商品的个性化信息和用户特征,分析该商品是否属于垂直刚需商品,是否存在特定的消费群体。

①若存在,商家可以针对该类用户推测出特定活动,做到精准推送,或建立该类商品受众的专属社群,提供用户交流平台,进一步增加用户粘性。

②若不存在,则商家应该加大宣传力度,多做宣传,增加商品权重,设置高频率搜索关键词,设计亮眼的宣传图等,增加用户的浏览量,销量也会随之提升。

对于浏览量和销量均较低的高潜力商品来说,问题可能出在流量入口和商品本身两方面。可以先尝试加大对商品的宣传力度,提高曝光量;如果效果并不显著,可能是商品本身不是用户需要的,在同类商品中不占优势,可以考虑直接优化掉。

3.3【场】

3.3.1平台功能分析

淘宝是国民购物平台,从日内分析中用户行为可直接反应国民作息规律就可见一斑。本数据中体现出平台的收藏加购功能使用率并不乐观,绝大多数购买者是浏览后直接购买。因此应加大力度引导用户使用收藏加购功能,可在商品详情页或商品点击页面显示收藏加购的优惠之处,并紧密结合淘宝平台的优惠活动,以优惠为突破点吸引顾客。重点提升点击进入详情页的用户的收藏加购使用率。

4.结论

本次从人货场三个角度分析了来自淘宝用户行为的一亿多条数据,得到结论如下:

1.淘宝的用户忠诚度较高,用户黏性较好,可以吸引用户持续使用APP。在获取新用户的同时,对老客的忠诚度维系十分重要。可以从重视用户关系,做好售后服务,同时实行老客VIP政策,给与优惠券等会员福利入手,并不断保持与老客的联系,进一步培养用户忠诚度。也可以鼓励用户写评价,适当培养UGC模式,提高用户的参与感。

2.淘宝是国民级购物平台,时间序列行为变化与国民作息规律相符。

从日间分析来看,用户行为在周末有所增加,但主要还是受到大型活动的影响(如双十二购物节),可以以更大尺度的时间数据为单位进行环比分析,标注出各个比较大的购物节,重点关心购物节前后的用户行为数量变化,并在购物量激增的时间制定相应的运营策略。
日内分析中,浏览量、加购量和收藏量在每日20-22点达到最高峰,日内购买率则在10-11点达到最高峰。因此可以考虑在20~22点做一些力度较大的优惠活动以提高转化率,而在白天10-11点时多进行商品投放,在制定运营策略时也可以考虑在这两个时间段进行直播带货、商品宣传、拼单促销等活动。

3.购买行为绝大部分来自于点击-直接购买,可推断大部分用户在购买前不会对商品进行大量比对,而倾向于冲动消费。所以精准推荐是提升重点,APP可以从推荐机制入手,以用户日常行为为依据,尽量精准推荐,并且需要匹配相关度更高的关键词,完善商品关键词设置制度和搜索算法,减少用户寻找商品的时间成本。

4.通过对用户群体进行划分,可以对不同类别的用户采取不同的运营策略。本研究中用户购买频次是重要分类指标,重要发展用户和重要挽留用户这类购买次数为1的客户占据绝大部分。因此,可从提高曾购买1-2次的老客购买次数角度入手。对于这类用户一方面需要保持曝光量,持续推送活动和优惠信息,对用户进行召回,或提供vip专属服务;另一方面需要进一步研究其兴趣和需求,才能采取有效的运营策略。

5.商品购买量与浏览量的相关性比较差,浏览次数大于1次但没有购买的高发展商品占绝大多数,因此没有必要一味提高浏览量, 销量并不会随之增加。对于这部分商品可以从目标人群送达、商品定价、商品详情页、客服及评论区、购买流程等方面探索出路。此外,平台应多推荐高价值商品;对高性价商品和高潜力商品适当提高曝光量,并根据情况采取下一步措施。

6.本数据中体现出淘宝平台的收藏加购功能使用率并不乐观,绝大多数购买者是浏览后直接购买。因此应加大力度引导用户使用收藏加购功能,可在商品详情页或商品点击页面显示收藏加购的优惠之处,并在收藏和购物车页面配合提醒功能,以增加购买转化率。同时紧密结合淘宝平台的优惠活动,以优惠为突破点吸引顾客。并尝试探索更多玩法。

参考资料:

【MySQL实战】基于100万真实电商用户的1亿条行为数据分析_哔哩哔哩_bilibili

淘宝APP的销售量数据分析 - 知乎 (zhihu.com)

MySQL数据项目分析实战——淘宝用户行为分析_深瀬桃的博客-CSDN博客_mysql数据分析实战

人货场到底是啥? - 知乎 (zhihu.com)

你可能感兴趣的:(mysql,数据分析)