爬取 20W 猫猫数据,来了解一下喵喵~

爬取 20W 猫猫数据,来了解一下喵喵~_第1张图片

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

来日绮窗前,寒梅著花未?

前言

最近知道身边有许多朋友都养了猫,于是对猫猫有点兴趣了,于是找到了一个专门交易猫猫的网站-猫猫交易网:

http://www.maomijiaoyi.com/

从此网站上爬取 20W 条猫猫交易数据,以及爬取了猫猫品种介绍的数据,以此来了解一下猫猫。

爬取 20W 猫猫数据,来了解一下喵喵~_第2张图片

获取数据后小编从以下维度进行探索性分析:

1、猫猫都有哪些品种,词云图

2、原产地,世界地图

3、体型占比,圆环图

4、外观描述词云

5、交易猫猫分布地图

6、交易品种占比树状图

7、每种品种平均价格排名,条形图

8、浏览次数是否跟价格成正比,散点图

9、年龄分布,柱状图

10、价格是否与年龄有关,箱型图

11、价格是否与预防有关,箱型图

12、价格是否与异地运费有关,箱型图

13、价格是否与是否纯种有关,箱型图

14、价格是否与能否视频有关,箱型图

数据获取

打开猫猫交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:

爬取 20W 猫猫数据,来了解一下喵喵~_第3张图片

但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。

品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:

爬取 20W 猫猫数据,来了解一下喵喵~_第4张图片

爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:

爬取 20W 猫猫数据,来了解一下喵喵~_第5张图片

以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:

爬取 20W 猫猫数据,来了解一下喵喵~_第6张图片

滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,小编使用多进程只爬取了 20W:

爬取 20W 猫猫数据,来了解一下喵喵~_第7张图片

当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:

爬取 20W 猫猫数据,来了解一下喵喵~_第8张图片

由于数据,太多,小编分开爬取的,先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。

数据探索

在这之前呢,小编对猫猫的品种不是很清楚,只知道几个经常听见布偶猫,橘猫这些。

小编于是画个词云,来直观的瞅一瞅猫猫还有哪些品种:

爬取 20W 猫猫数据,来了解一下喵喵~_第9张图片

了解了猫猫品种后,小编想知道这些品种的猫猫原产地都是来自哪里,看了看数据,除了橘猫是世界各地都有的,其他品种的猫猫大多分布在这些国家呢:

爬取 20W 猫猫数据,来了解一下喵喵~_第10张图片

加拿大,美国,英国,古埃及,泰国,阿富汗这些国家是大多数猫猫品种们的原产地呀。

那猫猫品种的体型分布如何呢,我们一起来看看呗:

爬取 20W 猫猫数据,来了解一下喵喵~_第11张图片

在所有品种中,大型的只有一个品种,小编把数据选出来看了看,原来是布偶猫呀,其他品种都是中小型的类型,那以后看见体型比较大的,可以先联想到布偶猫咯~

猫猫们很多品种都很可爱呀,大家一般都喜欢从什么角度形容猫猫呢:

爬取 20W 猫猫数据,来了解一下喵喵~_第12张图片

从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;性格方面,对人友善;观看角度方面从侧面看,后面看最合适。

接下来对猫猫品种有一定了解后,一起来看看猫猫交易的数据吧~

首先来看看猫猫交易主要分布在哪些区域呢:

爬取 20W 猫猫数据,来了解一下喵喵~_第13张图片

四川,重庆,广东是猫猫交易最多的省份呀,或许是这些省份的人更喜欢猫猫吧,当然只是小编猜的哈~

那么在交易的猫猫中,主要都是哪些品种在交易呢:

爬取 20W 猫猫数据,来了解一下喵喵~_第14张图片

橘猫最多呀,看来之前原产地说橘猫分布在世界各地,换句话可以理解为橘猫数量最多,还是有原因的呀~

其次是咖啡猫,布偶猫,英短蓝白猫。。。。。

买猫当然还是得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握吧:

爬取 20W 猫猫数据,来了解一下喵喵~_第15张图片

布偶猫名列前茅啊,在它之上还有一个缅因猫均价更高一些,小编不太了解这猫,不过布偶猫倒是觉得非常可爱。

这些猫猫一般猫龄是多大呢?一起来看看吧:

爬取 20W 猫猫数据,来了解一下喵喵~_第16张图片

主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪呀,一般这种小猫咪是最可爱的时候呢。

那在这些数据中,影响猫猫价格的因素到底是哪些呢?是否存在一些因素与价格相关呢?

小编先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:

爬取 20W 猫猫数据,来了解一下喵喵~_第17张图片

从结果上看浏览次数与价格并不存在相关性。

那时候跟猫猫年龄有关呢?通过箱型图来查看一下:

爬取 20W 猫猫数据,来了解一下喵喵~_第18张图片

可以看到年龄与价格是相关的,是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。

在确定与年龄有关后,是否与预防针次数有关呢?

爬取 20W 猫猫数据,来了解一下喵喵~_第19张图片

预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。

是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:

爬取 20W 猫猫数据,来了解一下喵喵~_第20张图片

爬取 20W 猫猫数据,来了解一下喵喵~_第21张图片

爬取 20W 猫猫数据,来了解一下喵喵~_第22张图片

所以影响价格的因素猫猫价格的相关因素有年龄,预防次数,邮费,是否纯种,能否看猫猫视频。

------------------- End -------------------

往期精彩文章推荐:

  • 解决安装Pycharm后在C盘下生成大文件的问题

  • 一篇文章教会你使用Django根据现有数据库反向生成models

  • 手把手教你使用Django如何连接Mysql

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

你可能感兴趣的:(数据挖掘,python,数据分析,数据可视化,nagios)