目录
一、熟悉数据
二、分析方法论
三、数据分析突破点
四、数据预处理
数据清洗
数据加工
五、具体分析
数据集是商店的信息,支付宝用户的支付日志和用户浏览日志(从2015.07.07-2016.10.31)。:商店id以及所在城市内的地址id、 用户平均支付价格、用户给商店评分,用户评价的数量、口碑等级评价、用户购买的食品类别(一二三级分类)。
(然而此次分析的问题很简单,这几个方面几乎没有什么影响)
基于数据情况,pest分析法,政治环境、经济环境、技术环境、社会环境。
政治环境:《国务院关于大力发展电子商务加快培育经济新动力的意见》、《国务院办公厅关于加快众创空间发展服务实体经济转型升级的指导意见》等,都为互联网经济、移动支付的发展提供了良好的契机。
经济环境:2015年中国经济持续处于下行压力中,但全年运行平稳。随着国民收入进一步提高,我国消费升级将从商品消费驱动转向服务消费驱动,从传统消费驱动转向新兴消费驱动。新技术催生新消费热点、新理念带动服务消费增加。随着收入水平提高,必需品消费占比不断下降,新兴消费逐渐兴起比如交通通信、医疗保健、教育文化娱乐消费占比明显上升。消费结构升级趋势:从低端到高端,从生存型到服务型,从低层单一型到奢实用型。
技术环境:支付宝增添了许多功能,技术逐步完善富有竞争力,同时与三星、苹果多公司合作,与国内外金融机构合作。
社会环境:社会稳定繁荣发展,医疗、生态、文化建设良好,为经济的繁荣发展提供了条件。
1.不同城市、地域用支付宝店数量与支付价格:反映移动支付发展情况,可在一定程度上反映经济发展情况。
2.用户平均支付的价格与用户给予的评分之间的关系:是否价格适中评分更高?
3.用户的评分与评价数量、口碑评价关系:用户评分与口碑评分、评价数量有无相关性?
4.购买食品类别与地域的关系:南北差异?菜系差异?
5.用户购买食品主要的类别:哪些是大众偏好的食物,能够为商店提供的产品或服务提供参考。
重复数据,无(商店id各不相同)。
缺失数据,缺失的是用户的评分和评价的数量,按照省会,非省会进行数据补充,对于某城市缺失百分比的打算采用平均值代替(以孝感为例,这两项缺失达到50%,用平均值代替,但可能产生较大误差,影响准确性),对于某城市缺失百分比小的打算删除。一些特例,某些省的非省会城市(比如共有20条数据,缺失的8条分散在各个城市),为了城市的完整性则参考省内相近的城市计算;对于内蒙古、贵州省,仅有一条数据且缺失,用中部地区、经济情况相近的城市平均值代替。最终删掉了87条数据,其余补充完整。
字段匹配:针对要反映不同地域的移动支付状况、经济情况。分别按省划分、按经济带划分:东部沿海地区、中部内陆地区、西部边远地区。东部沿海地区(北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南、重庆、大连、宁波、厦门、青岛、深圳)、中部内陆地区(山西、内蒙古、吉林、黑龙江、安徽,江西、河南、湖北、湖南)、西部边远地区(四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆)、按秦岭淮河一线划分南北(由于江苏部分处于南方,部分北方,此省数据在做饮食规律时不再考虑)。
另外,由于数据量仅有1900余条,又分布到各城市,因此没有考虑抽取样本。
总体来说,删掉87条数据,增加了对城市的所在省、经济带、是否省会的、处于南北方的匹配,补充了缺失的部分值
问题一:
以城市为横轴,以商店数量和支付均价格做纵轴作图 :
以上是典型长尾数据,后面城市很多而且参考起来意义不大。
考虑到将长尾合并一下:重庆以后的城市列为“其他城市”。
采用线性趋势线,相关系数r为0.026,相关性很差。
接下来,按照三条经济带分组考察:
支付的均值从地域来看几乎无差异,而商店的数量从三条经济带来看差异明显:东部经济发达,移动支付发展繁荣,中部和西部则发展的较差,另外,东部省会城市贡献率较低为63.4%,而中西部贡献率较高超过80%,说明中西部的非省会城市要加大经济建设力度。
问题二:
将价格与用户给予的评分均值比较,发现评分均值都处于2.389-2.874之间波动,难以发现关系,于是想到用方差去描述评分的情况。如下图:
横轴是购买价格,可以看出,①价格适中(9-15)时,用户的评价数量较多,反映出用户的购买数量较多;②评分的方差较小,说明此时评分较集中,用户普遍比较满意;③口碑评分均值高,更能体现出次价格区间的商品普遍受到青睐。④口碑的评价较于用户评价更准确些,购买商品时的参考价值更高。
从上图来看,我想用正态分布或者偏态分布去做一条拟合曲线,能力有限....下图只做了正态分布曲线。并考察了拟合程度。
用JB统计量检验拟合程度:计算偏度系数S=0.000656687,K=2.511259274,JB=0.19905,概率为0.9。拟合程度良好。
问题三:
从零散用户购买商品第一级分类来看:
那么,以下主要从食品与超市便利店来分析
可能由于移动支付的发展原因或是经济发展原因,北方的购买记录数量远少于南方:
第二级分类 |
计数 |
第三级分类 |
计数 |
北 |
318 |
北 |
228 |
南 |
1334 |
南 |
991 |
但是,从各项产品的购买百分比来看,南北的情况并没有显出很大差异:
考虑到这只是零散用户对于零食饮品等的小额购买,可能对于差异的显示不明显。
由此,从整体上考察零散用户购买超市类与美食类的偏好情况:
从上图不难看出,对于第三级分类进一步考察时,快餐、超市、休闲茶饮、便利店、小吃、休闲食品是主要部分:
快餐总的比重较大,超市、便利店商品排第二、第三,每个类下的一些小类中尤其西式快餐、其它小吃、奶茶、休闲食品占比重较大(超市、便利店以外),这为商品的零售方提供了有力的数据支持。
另外,想考虑有无菜系分布,然而数据太少,又都是小额的支付,看不出菜系的特色,比如川菜没有在重庆,成都分布。而且随着经济、文化的交流都有点难以看出差别,中西餐也是这样难以发现规律。
注:对于正态分布可用JB值检验:JB统计量;《谁说菜鸟不会数据分析》给我这菜鸟指导意义较大。