爬虫动态渲染页面爬取Selenium基础篇

一 介绍

JavaScript动态渲染的页面不止Ajax这一种。

比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。

比如ECharts的官方实例(详见http://echarts.baidu.com/demo.html#bar-negative),其图形都是经过JavaScript计算之后生成的。

比如淘宝这种页面,它即使是Ajax获取的数据,但是其Ajax接口含有很多加密参数,我们难以直接找出其规律,也很难直接分析Ajax来抓取。

为了解决这些问题,我们可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的JavaScript用了什么算法渲染页面,不用管网页后台的Ajax接口到底有哪些参数。

Python提供了许多模拟浏览器运行的库,如Selenium、Splash、PyV8、Ghost等。

Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。

二 安装ChromeDriver

1 查看版本

点击Chrome菜单“帮助”→“关于Google Chrome”,即可查看Chrome的版本号。

这里版本 71.0.3578.98

爬虫动态渲染页面爬取Selenium基础篇_第1张图片

2 下载ChromeDriver

1 配套关系

http://chromedriver.storage.googleapis.com/2.45/notes.txt

每个版本都有相应的支持Chrome版本的介绍,请找好自己的Chrome浏览器版本对应的ChromeDriver版本再下载,否则可能无法正常工作。

2 镜像下载地

http://npm.taobao.org/mirrors/chromedriver/

3 具体下载

针对71.0.3578.98

这里具体下载地为:http://npm.taobao.org/mirrors/chromedriver/2.45/

爬虫动态渲染页面爬取Selenium基础篇_第2张图片

4 环境变量配置

在Windows下,建议直接将chromedriver.exe文件拖到Python的Scripts目录下。

爬虫动态渲染页面爬取Selenium基础篇_第3张图片

三 测试

1 代码

from selenium import webdriver
browser = webdriver.Chrome()

2 结果

运行后弹出一个空白的Chrome浏览器。

爬虫动态渲染页面爬取Selenium基础篇_第4张图片

四 安装Selenium

(venv) E:\WebSpider>pip install selenium

五 基本使用

1 代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
    input = browser.find_element_by_id('kw')
    input.send_keys('Python')
    input.send_keys(Keys.ENTER)
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))
    print(browser.current_url)
    print(browser.get_cookies())
    print(browser.page_source)
finally:
    pass
    #browser.close()

2 结果

运行代码后发现,会自动弹出一个Chrome浏览器。浏览器首先会跳转到百度,然后在搜索框中输入Python,接着跳转到搜索结果页。

爬虫动态渲染页面爬取Selenium基础篇_第5张图片

搜索结果加载出来后,控制台分别会输出当前的URL、当前的Cookies和网页源代码。

我们得到的当前URL、Cookies和源代码都是浏览器中的真实内容。

所以说,如果用Selenium来驱动浏览器加载网页的话,就可以直接拿到JavaScript渲染的结果了,不用担心使用的是什么加密系统。

 

 

 

 

你可能感兴趣的:(python,爬虫)