最近正值“618活动”,阿里、拼多多、京东等都在发力,商品的价格也下降了不少。我打开某宝首页,顿时想对某些商品的评论进行一次爬取分析。
一提到爬取,我们肯定先想到python,那可真的是利器,不过我提醒一句,不允许爬的千万不要碰。python虽然爬取简单,但是做可视化分析需要费不少力气,虽然有 Matplotlib 和 Seaborn 两个包就足够了。
如果只调用基本的函数可能做出来的图会比较简陋,要达到好看的效果还是需要很多的精力和代码的,不适用于零基础小白。
所以我想到了当下最火的BI分析工具,有了数据,直接拖拽就能得到可视化分析,完全就是零代码,python+BI在手,打遍无敌手。原理也很简单,数据获取是通过Python进行的,然后得到Excel表,BI可以直接连接数据源,负责最后应用层的数据处理、加工和可视化。
那分析什么呢?想来想去,我选择了女性的内衣。
不要想歪,不要怀疑,这就是一个数据可视化项目,纯属娱乐,大家看看就行,重要是我分析的过程,如果能学到东西我就更开心了,我只用了13分钟。
话不多说,进入主题。
一、数据获取
数据来自python爬虫获取,淘宝约50个文胸商品的20W条评论数据,原始数据是txt格式,为了方便处理,这边转为Dataframe~
由于篇幅的限制,这里只放部分代码,感兴趣的可以到文末。
二、分析目的
这里先给大家做一个科普,对于很多只知道A/B/C的绅士们,我们在看数据之前可能先得了解点知识,内衣是有上围和下围的区分的。
通过上围与下围的差值,我们就可以确定大小了。
虽然我没买过,但是对分析维度还是了解的:
颜色与肤色的对比
款式
尺码大小
评价分析
三、数据可视化
虽然获取到的数据数量不是很大,才20W,但是Excel分析这个体量,肯定是会卡死的,而且Excel的可视化图表简直一言难尽,还需要各种函数...
上面说到BI工具,那市面上这么多BI工具,怎么去挑选呢?市面上知名的有Tableau、FineBI等,这两个也是在知乎最受好评的工具,我从下面几个方面简单给你们讲一下。
部署安装:都是基于浏览器端即可使用的工具
学习教程:FineBI更全面
使用体验(上手难度)和需求符合度:FineBI更适合小白
产品功能:Tableau更占优一点,但有些功能并不是国内企业所看重的,FineBI能做复杂报表
报价和服务:FineBI的性价比很高,Tableau很贵
所以我选择FineBI进行这次可视化分析,先通过下面这个来了解一下:
不要单纯的以为它只是个可视化工具,它的本质是数据分析工具,能通过数据对业务产生指导:
1、评论里出现最多的关键词
可以看见,内衣的颜色和肤色还是有很大关系的,不过据数据统计,妹子喜欢黑色占大多数,因为在人的印象里,好像粉色、紫色都有点怪怪的?
知道给自己女朋友/老婆买什么颜色了吗?不对,你们不一定有....
2、哪个尺寸的妹子最多?
D的数量很少,符合我们的认知。B的数量等于A+C的总和,这数据应该是准确的,穿B不代表就是B,就像你买衣服也喜欢宽松的,自己体会。
3、具体大小受什么影响?
我从上下围两个角度来分析A/B/C/D的分布,这个应该是迄今为止最全面的内衣分析了,想说的都在图里。
4、她们喜欢什么时候买内衣?
高峰期在上午和晚上,这也可以理解,大家都在玩手机,但是夜里3点买的人,我想问问,你图啥?
5、内衣的评价如何?
图片来自于网络
这是词云图,字越大,代表占的比重就越大,FineBI也能做,方法也是一样,有了数据直接拖拽,然后选择合适的图表类型即可。
内衣毕竟是衣服,女性关注的点肯定是效果与舒适度,男性的话我就不知道了。
关于代码和数据可视化工具,关注我,并转发该文章,回复“内衣”即可获得!!!
各位绅士,你们怎么看?