前面我们尝试了用爬虫框架scrapy来更加快速、高效的爬取网站的信息,不难发现,在爬去静态网页时,scrapy可以轻松胜任,但是遇到动态网页时,我们别会束手无策。今天我给大家推荐一个可以配合scrapy使用的、用来爬取动态网页信息的工具——PhantomJS。
这个工具包含在selenium中,前文我们使用过selenium爬取动态网页,它内部的PhantomJS工具则可以搭配scrapy框架进行动态网页爬虫。 关于它,有以下几点需要说明:
(1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。
(2)提供javascript API接口,即通过编写js程序可以直接与webkit内核交互,在此之上可以结合java语言等,通过java调用js等相关操作,从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。
(3)提供windows、linux、mac等不同os的安装使用包,也就是说可以在不同平台上二次开发采集项目或是自动项目测试等工作。
在使用scrapy进行爬虫时,当引擎从调度器中取出request进行请求的时候发送给下载器之前会先执行当前的爬虫中间件,在中间件里使用selenium,请求这个request,拿到动态网站的数据 然后将请求返回给spider爬虫对象。
接下来我们了解一下它的安装和使用:
1. 去官网下载压缩包,下载链接:http://phantomjs.org/download.html,打开网页后下载自己对应系统的的版本。
2. 下载完成后,将压缩包拖拽至Python的安装目录中(为了方便管理),比如我便将其解压在Pycharm的同级目录中。
3. 成功解压后,便是最重要的一步——配置环境变量。具体操作为:打开我的电脑->右键属性->高级系统设置->高级标签->环境变量,在系统变量里找到Path,在其末尾写上分号;然后将你的phantomjs完整路径添加到环境变量里,最后一次点确定即可,为了确保成功,不妨注销或重启电脑。
4. 配置完环境变量之后, 打开PyCharm编写一个小程序,如下图所示,若不报错即表明安装成功。