震惊!C杯的你,已经超过85%的人了!

  女票觉得自己胸小,凭空安慰不了,只好找数据说话。

本次爬取了京东商城5000余种bra,共计24万评论。(爬取步骤在文末)

得出以下结果:

一、只要是C杯就超过了85%的人!

震惊!C杯的你,已经超过85%的人了!_第1张图片
罩杯比例图

1)B杯人数占了近70%,人群庞大,所以B杯的妹子不要自卑,你是千千万人群中的一个,该自卑的应该的A(斜眼)

震惊!C杯的你,已经超过85%的人了!_第2张图片

2)D杯以上只占了4%,所以电视电影里标配的D估计和标配20CM一样稀有。

震惊!C杯的你,已经超过85%的人了!_第3张图片

3)其实罩杯大并不代表大,那什么是大呢?

震惊!C杯的你,已经超过85%的人了!_第4张图片


震惊!C杯的你,已经超过85%的人了!_第5张图片


震惊!C杯的你,已经超过85%的人了!_第6张图片

不用我多说了吧



二、bra最受欢迎的7种配色,黑色最流行!

震惊!C杯的你,已经超过85%的人了!_第7张图片

1)在24万评论中,我们筛选出了数量超过1万的配色,其中黑色以56295拔得头筹。当然并不是纯黑色bra,因为有这些款式:

震惊!C杯的你,已经超过85%的人了!_第8张图片

2)其他6色势均力敌,粉色和红色很多可能是一个阵营的。

震惊!C杯的你,已经超过85%的人了!_第9张图片

3)其实以上7大配色只占了60%,剩下40%有以下配色,这些配色销量为什么还辣么多。。

震惊!C杯的你,已经超过85%的人了!_第10张图片

4)所以!根据数据显示,我决定做以下这款bra,肯定能卖进福布斯(手动斜眼)


震惊!C杯的你,已经超过85%的人了!_第11张图片


注:1)样本小,2)尺码大的女士可能会更加倾向于实体店购,3)只买不评论等原因,数据不够准确,仅供娱乐。





能看到这里的帅哥美女,我告诉你这篇文章真正的标题的是:

Scrapy框架爬取京东商城商品评论

一、爬取目的

爬取京东商城内衣-文胸频道前85页商品评论

二、主要思路

1)设置起始页(按照销量排序),遍历到85页,每页60个商品信息,共计5100个。

2)因为评论最多只是显示100页(10个/页),85页后的商品评价已经很少了,所以估算评论会在30万左右

3)找到加载评论的js,选择本商品评论,以及时间排序

震惊!C杯的你,已经超过85%的人了!_第12张图片

4)接口JS里,找到最大页,构造并遍历请求

震惊!C杯的你,已经超过85%的人了!_第13张图片

5)输出到MYSQL

震惊!C杯的你,已经超过85%的人了!_第14张图片


三、遇到的一些问题

1)输出缺少输出数据

震惊!C杯的你,已经超过85%的人了!_第15张图片

解决:css遍历需要选定了所有需要遍历的标签

震惊!C杯的你,已经超过85%的人了!_第16张图片


2)存储到数据库的数据有重复

震惊!C杯的你,已经超过85%的人了!_第17张图片

一步步排查

震惊!C杯的你,已经超过85%的人了!_第18张图片

输出并无问题

震惊!C杯的你,已经超过85%的人了!_第19张图片

解决:原来是数据插入mysql时重复,应该是Twisted异步操作太快,浅拷贝还么来得及插入就被替换了,将写入步骤修改为深拷贝,问题解决

震惊!C杯的你,已经超过85%的人了!_第20张图片

3)评论输出少了第一页

解决:因为两次scrapy.Request相同的网址,导致去重机制生效,把其中一项去掉用不到的参数。

震惊!C杯的你,已经超过85%的人了!_第21张图片

github地址:https://github.com/GuoBinxs

你可能感兴趣的:(震惊!C杯的你,已经超过85%的人了!)