【邵奈一】Python爬虫专栏(二)之Selenium初体验

教程目录

  • 0x00 教程内容
  • 0x01 Selenium讲解
          • 1. 概念
          • 2. 优缺点
  • 0x02 安装Selenium
          • 1. Python安装Selenium
          • 2. 检验是否安装成功
          • 3. 安装浏览器驱动
  • 0x03 Selenium第一个例子
          • 1. 使用Selenium打开邵奈一的博客
  • 0xFF 总结

0x00 教程内容

  1. Selenium工具的介绍、安装及使用
  2. 通过例子实现用代码打开特定的网页

教程背景:上个课程已经可以跑通了第一个爬虫项目,爬取到的数据可以写进文件里。这节课我们来学习一个模拟人自动操作浏览器的工具:Selenium,此工具可以帮助我们实现自动翻页、自动登录等功能,当然,工作上用得非常多的还有用来进行Web应用程序的测试,此处不扩展,只讲爬虫相关的内容。

0x01 Selenium讲解

1. 概念

a. Selenium是一套完整的web应用程序测试系统。
b. Selenium完全由JavaScript编写,核心Selenium Core基于JsUnit,因此可以用于任何支持JavaScript的浏览器上。
c. Selenium可以像真正的用户一样直接在浏览器上操作,相当于模拟人的行为,支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。

2. 优缺点

a. 优点

  1. Selenium可以直接在浏览器中运行,就像真实用户所做的一样操作,可以较好地应对反爬机制,这点非常关键。
  2. Selenium 支持多种浏览器:Selenium 测试可以在 Windows、Linux 和 Macintosh上的 Internet Explorer、Chrome和 Firefox 中运行,其他相类似的测试工具都不能支持这么多的平台。

b. 缺点

  1. Selenium 虽然简单易用,但是效率不高。

0x02 安装Selenium

1. Python安装Selenium

a. 直接在Pycharm或者打开CMD中执行(我直接在Pycharm中执行)
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第1张图片

2. 检验是否安装成功

a. 查看是否安装成功
pip show selenium
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第2张图片

3. 安装浏览器驱动

a. 查看浏览器的版本号(推荐谷歌浏览器),打开谷歌浏览器,然后输入网址:chrome://settings/help,即可查看到自己的版本号:
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第3张图片
b. 进入Chrome驱动下载的地址:ttp://chromedriver.storage.googleapis.com/index.html,下载你的谷歌浏览器版本相近的驱动。
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第4张图片
c. 下载驱动(以Windows为例)
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第5张图片
d. 解压,并将驱动放于特定路径下(我的路径为:C:\Users\shaonaiyi\AppData\Local\Google\Chrome\Application),此路径可以直接右键谷歌浏览器图标,然后选择属性找到。
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第6张图片
如图:
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第7张图片
e. 驱动的路径(也就是谷歌图标的起始位置)加到环境变量
右击:我的电脑(或计算机)-> 系统属性 -> 高级系统设置->环境变量
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第8张图片
配到变量path里,在最后面添加或者在最前面添加都行,记得要用分号隔开不同的变量,修改完之后点击确定按钮保存配置即可。

0x03 Selenium第一个例子

1. 使用Selenium打开邵奈一的博客

a. 新建个python文件,注意!!!文件的名称不要保存为selenium.py,否则会出现报错
添加以下代码,然后执行:

from selenium import webdriver
print("————————————————————————————导入selenium成功————————————————————————————")

browser = webdriver.Chrome()
print("————————————————————————————打开浏览器成功————————————————————————————")

browser.get("https://blog.csdn.net/shaock2018")
print("————————————————————————————执行结束————————————————————————————")

可能会报错以下错误,原因是找不到驱动,:
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第9张图片
解决方法一般有以下三种(第一种就可以解决了)

方法一:直接在代码中指定驱动的路径,如:

browser = webdriver.Chrome("C:\\Users\\shaonaiyi\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe")

方法二:查看环境变量是否配置正确,可以将要配置的环境变量放到最前面。
方法三:还可能是环境变量配置的问题,可以重启电脑试试。

如果没有问题的话,会打开邵奈一的博客:
【邵奈一】Python爬虫专栏(二)之Selenium初体验_第10张图片

0xFF 总结

  1. 本工具非常使用,当你学完此篇教程,相信你会成就感爆棚的,因为你接下来可以做很多的有趣的事情了。
  2. 继续关注我,学习编程技术,如通过Selenium实现自动登录、自动翻页等等。

作者简介:邵奈一
全栈工程师、市场洞察者、专栏编辑
| 公众号 | 微信 | 微博 | CSDN | 简书 |

福利:
邵奈一的技术博客导航
邵奈一 原创不易,如转载请标明出处。


你可能感兴趣的:(python,python)