一 介绍
JavaScript动态渲染的页面不止Ajax这一种。
比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。
比如ECharts的官方实例(详见http://echarts.baidu.com/demo.html#bar-negative),其图形都是经过JavaScript计算之后生成的。
比如淘宝这种页面,它即使是Ajax获取的数据,但是其Ajax接口含有很多加密参数,我们难以直接找出其规律,也很难直接分析Ajax来抓取。
为了解决这些问题,我们可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的JavaScript用了什么算法渲染页面,不用管网页后台的Ajax接口到底有哪些参数。
Python提供了许多模拟浏览器运行的库,如Selenium、Splash、PyV8、Ghost等。
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。
二 安装ChromeDriver
1 查看版本
点击Chrome菜单“帮助”→“关于Google Chrome”,即可查看Chrome的版本号。
这里版本 71.0.3578.98
2 下载ChromeDriver
1 配套关系
http://chromedriver.storage.googleapis.com/2.45/notes.txt
每个版本都有相应的支持Chrome版本的介绍,请找好自己的Chrome浏览器版本对应的ChromeDriver版本再下载,否则可能无法正常工作。
2 镜像下载地
http://npm.taobao.org/mirrors/chromedriver/
3 具体下载
针对71.0.3578.98
这里具体下载地为:http://npm.taobao.org/mirrors/chromedriver/2.45/
4 环境变量配置
在Windows下,建议直接将chromedriver.exe文件拖到Python的Scripts目录下。
三 测试
1 代码
from selenium import webdriver
browser = webdriver.Chrome()
2 结果
运行后弹出一个空白的Chrome浏览器。
四 安装Selenium
(venv) E:\WebSpider>pip install selenium
五 基本使用
1 代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
input = browser.find_element_by_id('kw')
input.send_keys('Python')
input.send_keys(Keys.ENTER)
wait = WebDriverWait(browser, 10)
wait.until(EC.presence_of_element_located((By.ID, 'content_left')))
print(browser.current_url)
print(browser.get_cookies())
print(browser.page_source)
finally:
pass
#browser.close()
2 结果
运行代码后发现,会自动弹出一个Chrome浏览器。浏览器首先会跳转到百度,然后在搜索框中输入Python,接着跳转到搜索结果页。
搜索结果加载出来后,控制台分别会输出当前的URL、当前的Cookies和网页源代码。
我们得到的当前URL、Cookies和源代码都是浏览器中的真实内容。
所以说,如果用Selenium来驱动浏览器加载网页的话,就可以直接拿到JavaScript渲染的结果了,不用担心使用的是什么加密系统。