爬虫软件爬取公开网络数据案例(以大众点评为例)

爬虫软件爬取公开网络数据案例(以大众点评为例)_第1张图片

大数据在规划行业被炒的热火朝天,但是大多数人还是处于不知所以然的程度,应用于日常和工作更是遥遥无期。

关键的大数据被互联网巨头、手机运营商、政府机构所垄断,获取难之又难。

再看网上免费的数据接口,比如聚合数据,阿里数据,大部分都是收费的,想用于非商业的研究用途,大部分人还是用不起的。

所以,想要获取有质量并且还要保证数量的数据就要靠我们自己了。

当然如果编程能力强的话可以自己写程序来爬取,我这里就偷个懒,直接用人家写好的了。。。

这里我使用的是火车采集器的免费版,我以爬取大众点评的数据为例。

下面是我爬取到的一些数据

爬虫软件爬取公开网络数据案例(以大众点评为例)_第2张图片

一、网站分析

首先我们要分析大众点评的URL

首页 :http://www.dianping.com/

选择邯郸: http://www.dianping.com/handan

点击美食:http://www.dianping.com/handan/food

选择任意商业区:http://www.dianping.com/search/category/27/10/r12577

选择一个商户:http://www.dianping.com/shop/22057739

我们发现这些URL都是非常有规律的,这些规律将帮助我们爬取数据!

我们再来审查任意页面的源码

爬虫软件爬取公开网络数据案例(以大众点评为例)_第3张图片

我们观察每个部分的分布位置,会缩小我们的爬取范围,加快爬取速度。

二、网址采集

打开火车采集器软件。

新建任务。

爬虫软件爬取公开网络数据案例(以大众点评为例)_第4张图片

我们发现第一步就是设置网址采集规则,这是很重要的一步,这将会关系到我们采集到数据的数量。

我们发现我们爬取的数据都在商户详情页面:

爬虫软件爬取公开网络数据案例(以大众点评为例)_第5张图片

所以,我们要想办法到达这个页面!

这里我选择分商业区进行爬取(这样可以细化数据,还可以根据行政区,商户类型,甚至不选择条件进爬取)

我们选择一个商业区作为起始爬取地址。

爬虫软件爬取公开网络数据案例(以大众点评为例)_第6张图片

这里写图片描述

我们会发现,这个页面上有15个商户!

爬虫软件爬取公开网络数据案例(以大众点评为例)_第7张图片

每个商户会对应一个连接,如果我们是选择单一连接,我们只会爬取到15条数据,所以我们要想办法解决分页的问题。

我们观察第二页,第三页的连接:

http://www.dianping.com/search/category/27/10/r12593p2

http://www.dianping.com/search/category/27/10/r12593p3

很明显,前面的 http://www.dianping.com/search/category/27/10/r12593p 是唯一不变的,而后面的页码是在变化的。

点击 向导添加 >> 批量网址

![这里写图片描述](https://img-blog.csdn.net/20170405224521903?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQxNDk4MDU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

将页码设置成地址参数,选择从2开始,每次递增1次,共14项。

我们在下面的阅览就能看到我们想看到的链接。

点击网址采集测试,就会得到以下的结果:

爬虫软件爬取公开网络数据案例(以大众点评为例)_第8张图片

我们采集了15个页面,每页采集到了15条数据。这就是我们所想要的!

三、内容采集

第二部我们要设置内容采集规则。

这里我们要采集的数据是:经度,纬度,商户名称,位置信息,口味,环境,服务,点评数量,人均消费。分别进行设置。

我们首先观察每个部分在源码中的特征,然后填入开头字符串,结尾字符串即可。

注意我们最好要保证开头字符串是唯一的,否则将选取第一个进行截取。

我们先看这一段JS包括了大部分的数据。

![这里写图片描述](https://img-blog.csdn.net/20170405232735770?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQxNDk4MDU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

经度


爬虫软件爬取公开网络数据案例(以大众点评为例)_第9张图片

## 商户名称


爬虫软件爬取公开网络数据案例(以大众点评为例)_第10张图片

## 位置信息

爬虫软件爬取公开网络数据案例(以大众点评为例)_第11张图片

再来看下面几处比较有特点的源码

![这里写图片描述](https://img-blog.csdn.net/20170405233054266?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQxNDk4MDU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

口味


爬虫软件爬取公开网络数据案例(以大众点评为例)_第12张图片

点评数量


爬虫软件爬取公开网络数据案例(以大众点评为例)_第13张图片

## 人均消费


爬虫软件爬取公开网络数据案例(以大众点评为例)_第14张图片

这里内容采集规则基本设置完成了,我们来测试一条数据:

爬虫软件爬取公开网络数据案例(以大众点评为例)_第15张图片

测试成功!

四、内容发布

内容发布就是将采集好的数据导出来,这里免费版的只支持导出到txt。

为了转成excel方便,我们设置如下规则:

标签建均以英文逗号分隔,每一条数据加一个换行。

爬虫软件爬取公开网络数据案例(以大众点评为例)_第16张图片

爬虫软件爬取公开网络数据案例(以大众点评为例)_第17张图片

基本设置完成,点击右下角保存并退出。

开始数据采集并导出!

爬虫软件爬取公开网络数据案例(以大众点评为例)_第18张图片

txt转换成excel

下面是我们导出得到的txt数据

爬虫软件爬取公开网络数据案例(以大众点评为例)_第19张图片

看起来杂乱无章,也不方便使用,所以我们将它保存成excel

打开excel,点击打开文件,选择所有文件,找到我们的txt

选择 分隔符 >> 逗号分隔

![这里写图片描述](https://img-blog.csdn.net/20170405234628147?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQxNDk4MDU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![这里写图片描述](https://img-blog.csdn.net/20170405234651507?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzQxNDk4MDU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

点击完成,就得到我们想要的数据格式!

爬虫软件爬取公开网络数据案例(以大众点评为例)_第20张图片

有了这些数据,我们就可以开始我们的数据可视化之旅了!
爬虫软件爬取公开网络数据案例(以大众点评为例)_第21张图片

你可能感兴趣的:(gis)