selenium模拟用户使用浏览器行为,爬取京东商品数据

一、安装selenium

pip install selenium

二、安装浏览器驱动

在使用selenium时,需要有对应的浏览器驱动器文件在python安装目录下,否则会出现异常。

以Chrome为例:

1.查看本机浏览器版本信息

打开chrome浏览器,地址栏输入:

chrome://settings/help

selenium模拟用户使用浏览器行为,爬取京东商品数据_第1张图片

2.查看驱动器版本信息

https://chromedriver.storage.googleapis.com/LATEST_RELEASE_ + 浏览器版本信息

# 例如

https://chromedriver.storage.googleapis.com/LATEST_RELEASE_75.0.3770.100

selenium模拟用户使用浏览器行为,爬取京东商品数据_第2张图片

 (注:不知道是不是我浏览器问题,查到的版本没变化)

3.下载驱动器

下载地址:

https://chromedriver.storage.googleapis.com/index.html?path=75.0.3770.100/

(注意:最后要带上斜杠/)

selenium模拟用户使用浏览器行为,爬取京东商品数据_第3张图片

发现没有此版本驱动,点继 Parent Directory 回到父目录

找到 75.0.3770.90 文件夹,点击进入选择相应的系统进行下载。

4.配置驱动器

将驱动器解压缩后发现只有一个 chromedriver.exe 文件,需要将该文件 copy 到两个目录:

1.python安装目录(根目录)

例如,我的 python 环境为 anoconda3 集成环境,就需要把上述驱动器文件 copy 到安装路径下:

D:\DeveloperSpace\anaconda3

2.Chrome安装路径

C:\Users\wangj\AppData\Local\Google\Chrome\Application

之后将此路径添加到环境变量 path 中即可。

注意:由于我在第一次配置时没有进行第二步 Chrome 配置,调用 webdriver.Chrome()时,报错:

selenium.common.exceptions.InvalidArgumentException: Message: invalid argume

5.测试

from selenium import webdriver

browser = webdriver.Chrome()# 注意大写!!
print(type(browser))

url = 'https://www.douban.com'
get_url = browser.get(url)
print(browser.current_url)# 获取当前网页url
print(browser.page_source)# 获取当前网页源码

测试结果:

selenium模拟用户使用浏览器行为,爬取京东商品数据_第4张图片

 安装配置成功!

你可能感兴趣的:(python)