Selenium是一个用于web自动化测试的框架,在使用Ajax请求数据的页面中,会出现 sign ,token等密钥,如果考虑去破解可能花费的精力较多,所以考虑借助使用Selenium框架来实现数据爬取。
1. 1,组件✨
它提供了以下web自动化测试组件:
因为后面我们的web自动化测试使用的是Selenium3(即WebDriver),这里对WebDriver做一下说明:
不同的浏览器,WebDriver需要依赖对应的浏览器驱动(如chromedriver.exe)来转化浏览器的native调用,所以进行Selenium自动化时,需先下载对应的浏览器的驱动。
1. 2,特点✨
免费开源的自动化测试工具(框架)
(1)下载python✨
建议下载python 3.x版本,官方已经停止对python 2.x版本维护更新。
windows版本官网下载地址:https://www.python.org/downloads/windows/
以安装Python 3.9.12为例,进入上面的网址,根据系统 (32/64位)选择,我这里选择下载64位的
点击进入到下图页面,根据自己的系统选择下载。
(2)安装python✨
双击下载好的文件,一路默认安装即可,这里注意勾选添加python至环境变量,这样就不需要后续再设置环境变量了。
先勾选最下方的选项,然后点击Customize installation,注意一定要勾选最下面一个选项,它可以自动帮你添加windows环境变量。点击完成后,进入下一个步骤:
默认全选就好,继续点击下一步:
记得勾选第一项,并选择自己想要安装的路径。然后点击Install后,等几分钟就好了。
(3)验证是否安装完成✨
cmd窗口输入命令:python,出现版本信息等则说明安装成功,且环境变量设置成功,如下:
如果在上一步中,未勾选添加python至环境变量,输入python命令后会提示:不是内部或外部命令,只需将python的安装路径添加至环境变量即可,具体添加方法可百度。
(4)安装Selenium✨
cmd窗口输入命令:pip install selenium,安装最新版本的selenium
我这安装过了会显示already已经存在了,查看一下selenium版本
安装完成后可以查看版本号,命令为:pip show selenium
不同的浏览器,需要安装对应浏览器的Selenium驱动才能进行自动化测试。首先介绍Chrome浏览器。
(1)查看Chrome版本信息✨
这的Chrome版本号为86.0.4240.111。
(2)下载驱动 chromedriver和配置✨
下载地址:http://chromedriver.storage.googleapis.com/index.html
也可以选择淘宝镜像下载,地址为:http://npm.taobao.org/mirrors/chromedriver/
低版本Chrome浏览器已经很少使用,就不做对应下载说明了。更新版本的Chrome浏览器(从70~87),只需根据自己电脑上安装的Chrome浏览器版本下载对应的chromedriver即可,如下:
选择好对应的chromedriver点击进入如下:
点击下载,下载完成后,解压该zip文件得到chromedriver.exe文件,将chromedriver.exe放置在python安装目录的Scripts中
点击进入解压生成的文件夹
复制文件放入python安装目录的Scripts文件夹中
注意:需要将解压出来的chromedriver.exe文件放置在Scripts中,而不是将解压得到的chromedriver文件夹放置在Scripts中,否则启动脚本时会报错。
(3)尝试selenium启动Chrome✨
尝试启动Chrome浏览器
import time
from selenium import webdriver
driver = webdriver.Chrome() # 启动浏览器
driver.get("https://www.baidu.com") # 打开某个网址
time.sleep(10)
driver.quit() # 关闭浏览器
能打开网址不报错则证明配置完成。
(1)查看火狐浏览器版本✨
打开火狐浏览器,点击右上角"菜单"按钮进行查看,步骤如下:
我这里的火狐浏览器版本为:82.0.2 (64 位)
(3)下载驱动 geckodriver✨
selenium 3 只支持Firefox 48及以上版本,且需下载驱动,所以配置如下:
Firefox 48 及以上版本,Selenium 3.X + FireFox驱动(geckodriver)
Firefox 47 及以下版本,Selenium 2.X,内置驱动,无需下载
geckodriver下载地址:https://github.com/mozilla/geckodriver/releases
我这里选择目前最新的版本下载(浏览器为64位),如下:
如果按照后续步骤不能启动浏览器,可以尝试删除该版本的geckodriver下载更低的版本的geckodriver。
下载后解压文件,将解压后得到的 geckodriver.exe 文件放置在python安装目录的Scripts中(同chromedriver.exe),如下:
(4)尝试启动火狐浏览器(Firefox)✨
import time
from selenium import webdriver
driver = webdriver.Firefox() # 启动浏览器
driver.get("https://www.baidu.com") # 打开某个网址
time.sleep(10)
driver.quit() # 关闭浏览器
启动Firefox浏览器并打开百度网址,如下:
本章说的是关于python的配置及selenium的配置,感谢您的关注与支持!
声明:由于作者也在求学的路上知识水平有限,本文如有错误敬请读者能够指出错误!