不用代码玩转爬虫实例（2） - 抓取天眼查企业基本信息

背景

很多朋友应该都用过天眼查这个网站来进行企业信息的查询，今天这篇文章来分享一下使用web scraper来实现天眼查这个网站企业基本信息的抓取。

例如，在天眼查里搜索关键词pcb，筛选条件为：广东省深圳市福田区注册资本在200-500万

可以搜索到非常多的企业。

随意点击一家企业的链接进去，就可以看到企业的一些基本信息。

需求分析及配置

我们的目的是需要爬取并保存这所有的企业信息。通过观察，我们发现：

1、企业列表分成了多页，需要进行翻页爬取。每一页的网址都不一样，这个在起始页通过设定规律网址即可实现。（规律网页翻页如何设置？）

2、需要点击企业名称url进去新的页面后，才能进行企业信息的抓取。这里需要设置link类型的选择器，选择企业名称位置的标签。（需要点击url的二级页面如何设置？）

3、企业的基本信息内容则比较简单了，直接配置text类型的选择器，鼠标点击对应位置的信息即可。

整体的一个结构图就是这样：

效果展示

通过上面的三个简单配置，就可以把搜索的所有企业基本信息都爬取下来，爬取的结果如下：

- 有朋友可能会问了，如果换一个关键词，又需要另外再重新配置一下吗？

- 当然不用！！！

比如说，这次我需要搜索关键词为水果，设置筛选条件如下：

接着把网址复制一下，将原来的起始url替换一下，注意翻页的地方要记得进行修改

其他的不用更改，直接运行程序即可获得新关键词下的企业信息。

这样的话，你完全也可以自己爬取想要的关键词信息，是不是感觉很方便？

如果你感兴趣的话，永恒君准备好了整个sitemap文件，联系我即可获取（看主页），使用方法在这篇文章末尾介绍过。

之前的整理的教程文章可以看这里：

1、Web Scraper 使用教程（一）- 安装

2、Web Scraper 使用教程（二）- 基本用法之安装、配置、运行

3、Web Scraper 使用教程（三）- 基本用法（常用选择器类型）

4、Web Scraper 使用教程（四）- 进阶用法（同一个页面爬取多个类型内容）

5、Web Scraper 使用教程（五）- 进阶用法（爬取向下滚动加载页面）

6、Web Scraper 使用教程（六）- 进阶用法（网址有规律变化进行翻页）

7、Web Scraper 使用教程（七）- 进阶用法（点击「翻页器」进行翻页）

8、Web Scraper 使用教程（八）- 进阶用法（点击「更多」进行翻页）

9、Web Scraper 使用教程（九）- 进阶用法（动态加载进行翻页）

10、Web Scraper 使用教程（十）- 爬取二级页面的内容

欢迎交流！