利用Selenium工具爬虫

简介

Selenium是一款自动化测试工具,支持Chrome,Safari,Firefox 等主流界面式浏览器;支持多种语言开发,比如Java,C,Python等。

安装

pip install selenium

使用

这里测试的浏览器是chrome

首先要安装chromedriver,可以参考博客,注意安装跟本机chrome浏览器对应版本的chromedirver

安装好之后,在python项目中创建一个文件夹tools,存放出chromedriver和chromedriver.exe,文件夹的路径随意

1.png

准备工作已经做好了,接下来就开始写代码啦

关键代码:

2.png

运行代码,chromedriver会自动打开抓取的网页。

关键是怎么自动模拟点击网页呢?其实也很简单,两步搞定:

第一步:手动获取网页元素

把鼠标放到网页元素上(比如按钮,输入框,图标之类),右键鼠标,点击“检查”,就可以看到网页右侧出现了网页源代码,并且定位到了所点击的元素。

比如获取百度的输入框,可以得到输入框的class,type,name,id等等,这些就是定位元素的关键信息。

3.png

第二步:写代码

利用图2.png中的browser,browser中有很多方法可以定位元素

4.png

理论上采用其中一种方法就可以定位元素。

定位单个元素:

5.png

定位元素组:

6.png

别忘了关闭浏览器哦~

7.png

踩坑记录

自动跳转页面之后,元素定位失败

7.png

解决办法:对新弹出的页面进行重定位

8.png

获取元素的内容

9.png

你可能感兴趣的:(利用Selenium工具爬虫)