动态网页爬取selenium+photomjs

动态网站的抓取静态网站困难一些,主要涉及ajax和html,传统的web应用,我们提交一个表单给服务器接受请求返回一个页面给浏览器,这样每次用户的交互都需要向服务器发送请求。同时对整个网页进行刷新,这样会浪费网络宽带影响用户体验。

怎么解决?{l55l59o6o9o}大数据挖掘小能手

Ajax--异步JavaScript和xml。是JavaScript异步加载技术、xml及dom还有xhtml和css等技术的组合。他不必刷新整个页面只需要页面的局部进行更新。Ajax只取回一些必要数据,使用soap、xml或者支持json的web service接口。这样提高服务器的响应减少了数据交互提高了访问速度。

Dhtml动态html,他只是html、css、和客户的的一宗集合,一个页面有html、css、JavaScript制作事事变换页面的元素效果的网页设计。

如何分辨?

最简单的就是看有没有“查看更多”字样,也可以使用response访问网页返回的response内容和浏览器的内容不一致时就是使用了动态技术。这样我们也无法提取有效数据

如何提取?

1直接在JavaScript中采集的数据分析

2使用采集器中加载好的数据

为什么使用Phantomjs?

Ajax请求太多并加密,手动分析每个ajax请求无疑愚公移山,phantomjs直接提取浏览器渲染好的结果不进行ajax请求分析,其实phantomjs就是基于webkit 的服务端JavaScript api。支持web而无需浏览器支持运行快,支持各种web标准:dom、css、json、canvas、svg。常用于页面自动化、网络监测、网页截屏、无界面测试。

安装?15515906090大数据挖掘小能手

下载http://phantomjs.org/download.html解压设置环境变量phantomjs -v测试安装

使用

页面加载:分析创建网页对象的呈现

代码:使用webpage模块创建一个page对象,通过page对象打开url网址,如果状态为success通过render方法将页面保存。

代码评估:利用evaluate执行沙盒它执行网页外的JavaScript代码,evaluate返回一个对象然后返回值仅限对象不包含函数

屏幕捕获:

网络监控:

页面自动化:

常用模块和方法?

Phantom,webpage,system,fs

图形化?

Selenium将Python和phantomjs紧密结合实现爬虫开发。Selenium是自动化测试工具,支持各种浏览器,就是浏览器驱动可以对浏览器进行控制。并且支持多种开发语言phantomjs负责解析JavaScript,selenium负责驱动浏览器和Python对接。

安装

pip install selenium===3.0.1 或者 https://pypi.python.org/pypi/selenium#downloads 下载源码解压python setup.py install selenium3然后下载https://github.com/SeleniumHQ/selenium/浏览器补丁解压到指定目录, 将geckodriver所在目录配置到环境变量。

动态网页爬取selenium+photomjs_第1张图片
图片发自App

你可能感兴趣的:(动态网页爬取selenium+photomjs)