数据分析入门毕业项目:电商购物平台母亲节礼品特征分析

本文是数据分析入门课程的毕业项目,我选的题目是电商购物平台母亲节礼品特征分析。

前言

  1. 分析背景
    不知道大家有没有感觉到给老人送礼是个难事,也是门学问。出于好奇心和孝心,想对电商购物平台母亲节礼品的购买数据进行分析,找出一些数据指标,比如:价格,销量,类别等。从而找到大家买得较多较好的礼品类目,指导未来为老人送礼的购买决策。

  2. 所需解决的问题

    • 主要有哪几类经常送老人的礼物?
    • 在某一个大类产品中,可以细分为哪些具体的产品?
    • 销量前十的产品有哪些?
    • 销量前十的产品的品牌有哪些?
    • 销量和价格是否存在一定的关系?

数据集描述

本项目使用的数据都是通过八爪鱼抓取的天猫上的数据。这里选取了三类商品,分别是老人按摩类商品、老人医疗及健康服务类商品、老人手机。因此数据集由这三类商品构成。收集了商品的标题、价格、品牌、月销量、累计评价、商品名称等信息。
遇到的问题:天猫对爬虫软件有限制,导致无法一次抓取到全部数据。最后采用了一个workaround,因为八爪鱼里第二页搜索结果抓不全(似乎天猫的防抓取规则是通过计时间来完成的),重新从第二页开始抓取数据(指定打开的网页从第二页开始)。八爪鱼的使用不在本文的讨论范围。

方法论

做这个毕业项目,主要的方法论是根据Tiger提供的数据分析(Data Analytics)套路。

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第1张图片
360截图20170629155224203.jpg

项目步骤

  1. 数据获取:通过八爪鱼抓取天猫的数据。
  2. 数据清洗:整理数据,将不规范的数据规范化,缺失的数据补齐。
  3. 数据分析和可视化:确定数据指标,并将分析结果可视化。
  4. 商业洞察和最终的分析报告。

数据清洗

因为抓取的按摩产品数据包括很多商品,比如:按摩椅、腿部按摩器等。而标题并不能完全反映出商品名称,手动处理,添加商品名称列。产品名称和型号个人感觉作用不大,抓取的数据很多有误,决定抛弃这两列数据。
其他数据清洗包括:去掉重复数据,填充数据。

df = pd.read_excel(data, 'All')
df.drop_duplicates()

# 填充空值
df['促销价格'] = df['促销价格'].fillna(df['价格'])
df['价格'] = df['价格'].fillna(df['促销价格'])
df['累计评价'] = df['累计评价'].fillna(0)

数据分析和可视化

  • 按摩类产品之按摩椅
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第2张图片
按摩椅价格直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第3张图片
按摩椅累计评价直方图.jpg

按照累计评价降序排列,找出前十个产品:

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第4张图片
累计评价前十产品.jpg

按照月销量降序排列,找出前十个产品:

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第5张图片
月销量前十产品.jpg

结论:大部分按摩椅的价格小于10000。10000-50000之间占很小的部分。最高价格接近50000。其中,价格在5000左右的占比最高。
大部分按摩椅的累计评价也就是累计销量都小于1000。1000-4000的数量非常少。

  • 按摩类产品之按摩床垫
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第6张图片
按摩床垫价格直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第7张图片
按摩床垫累计评价直方图.jpg

按照累计评价降序排列,找出前十个产品:


数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第8张图片
累计评价前十.jpg

按照月销量降序排列,找出前十个产品:

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第9张图片
月销量前十.jpg

结论:按摩床垫价格比较便宜,大部分价格小于275。价格在200-212之间占比最高。大部分按摩床垫的累计销量都小于2000,大于10000的很少。

  • 其他按摩产品
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第10张图片
其他按摩产品的价格直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第11张图片
其他按摩产品的累计评价直方图.jpg

按照累计评价降序排列,找出前十个产品:

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第12张图片
累计评价前十.jpg

按照月销量降序排列,找出前十个产品:

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第13张图片
月销量前十.jpg

结论:其他按摩产品的大部分价格都小于750,价格小于125的占比最高。大部分累计销量小于2000。

  • 按摩类产品总的分析
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第14张图片
按摩产品分类饼图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第15张图片
其他按摩产品分类饼图.jpg

结论:最受欢迎的按摩产品是按摩椅,数量占总数据量的65.69%,其次是其他类按摩产品,数量占总数据量的28.43%。在其他类按摩产品中,最受欢迎的是腿部按摩器,数量占总数据量的34.48%, 其次是手持按摩器,数量占总数据量的22.41%,第三是脚步按摩器,数量占总数据量的20.69%。

  • 医疗健康类产品之体检卡
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第16张图片
体检卡的价格直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第17张图片
体检卡的累计评价直方图.jpg

按照累计评价降序排列,找出前十个产品


数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第18张图片
累计评价前十.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第19张图片
累计评价前十的机构饼图.jpg

按照月销量降序排列,找出前十个产品


数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第20张图片
月销量前十.jpg

结论:体检卡的价格大部分小于1500,最多集中在1000左右。1500-2500的较少,大于2500的更少。累计销量大部分小于250。累计评价前十的体检卡机构瑞慈占50%,普惠和爱康国宾占20%,慈铭占10%。

  • 医疗健康类产品之其他产品
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第21张图片
其他产品的价格直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第22张图片
其他产品的累计评价直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第23张图片
细分其他产品饼图.jpg

结论:医疗健康类产品之其他产品的价格大部分小于100,累计评价大部分小于10。从饼图中可以看出高血压慢性病管理服务占60%,心理咨询占40%。

  • 手机
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第24张图片
手机价格的直方图.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第25张图片
手机累计评价的直方图.jpg

按照累计评价降序排列,找出前十个产品

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第26张图片
累计评价前十.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第27张图片
累计评价前十的老人手机品牌饼图.jpg

按照月销量降序排列,找出前十个产品

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第28张图片
月销量前十.jpg
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析_第29张图片
价格和累计评价散点图.jpg

结论:老人手机大部分价格小于1000,价格更多集中在小于500的范围内。累计销量大部分小于25000。从饼图中看出,累计销量前十的老人手机品牌,第一的是尼凯恩,占30%,第二是小米,占20%,纽曼、诺基亚、中兴、天语、优思各占10%。从散点图中看出,销量较好的手机价格都小于1000。但并不能看出销量和价格之间确定的关系。

分析结论

  1. 按摩产品受欢迎程度:按摩椅 > 腿部按摩器 > 手持按摩器 > 脚步按摩器
    如果为老人选购按摩产品的话,首选是按摩椅。具体买哪一种按摩椅可以参考按累计评价排名前十的按摩椅。而参考月销量排名前十的按摩椅可以看到近期的一个趋势。

  2. 医疗健康类产品中体检卡的销量不高,说明人们还是很少在电商购物平台购买这类产品。其中健康服务类:高血压慢性病管理服务和心理咨询的销量就更少。这是新兴的网购产品,高血压在老人中还是非常普遍的。也许未来可以扩大医疗健康类产品的市场,人们在电商购物平台可以方便地购买各类产品将成为一个趋势。
    几个体检机构瑞慈,普惠,爱康国宾和慈铭也可以指导我们在线下的购买体检卡的决策。

  3. 受欢迎的老人手机价格比较便宜,受欢迎的有这几个品牌:尼凯恩,小米,纽曼,诺基亚,中兴,天语,优思。非智能手机依然占有很大的比重。智能手机厂家也可以努力开拓老人智能手机市场。未来智能手机成本越来越低,必将占领老人手机市场。
    个人认为送老人手机也是个不错的选择。具体买哪一种手机可以参考按累计评价排名前十的手机。

其他思考

  1. 对爬虫工具的使用不熟练,导致数据选取得较少。但是按照销量选取了排名靠前的数据,基本反应了真实的情况。有些数据无法抓取到,比如商品评分。
  2. 数据分析经验的缺乏会导致对数据的解读不够深刻。

主要参考资料

  1. Tiger数据分析入门课程的资料和作业
  2. 余博文章:独家!完整到爆的数据分析流程剖析

感谢

首先要感谢Tiger和余博的帮助,以及社群中其他朋友的帮助。这个社群为大家营造了积极向上的学习数据分析的环境,牛人很多,我也学到了很多。如果没有之前的积累,没有认真上课和做作业,这个项目也无法完成。
感谢张洁同学参与了项目选题的讨论。

你可能感兴趣的:(数据分析入门毕业项目:电商购物平台母亲节礼品特征分析)