Python Selenium模块学习

简介

Selenium是一个自动web测试模块!可以通过调用浏览器来进行网络爬虫(爬取动态网页)!

准备

使用pip3可以很简单的安装selenium模块!

想要使用selenium进行网络爬虫需要下载指定浏览器的插件!因为selenium是通过调用浏览器来进行web测试的!

这里使用firefox来测试!

firefox浏览器的插件为geckodriver!

可以去github.com/mozilla/geckodriver/releases下载对应的geckodriver插件!

注:一定要对应!不然在调用时会报错!

查看firefox版本!

查看selenium版本!

因此这里我们下载geckodriver v0.19.1版本即可!

因为我这里是linux32位的所以我下载指定系统版本的geckodriver!

解压后即可得到一个geckodriver插件!

将该插件放入系统环境目录下即可!

测试

使用selenium模块下的webdriver模块!来打开指定浏览器!

成功使用selenium模块打开一个浏览器!

接下来使用指定的命令即可让python自动帮我们对浏览器进行操作!

学习

firefox.get(url)可以让python帮我们打开指定网页

firefox.get_cookies可以获取cookie信息

firefox.page_source可以查看打开页面的源代码

firefox.title可以查看网页标题

webdriver提供了很多用来寻找页面元素、位置的方法!通过这些方法可以寻找需要的页面内容和位置!

firefox.find_element_by_id()可以通过页面的id元素来查找指定元素、位置!

查看百度搜索框的id元素!使用firefox.find_element_by_id()方法来查找元素位置!

现在text这个变量就指向了百度搜索框的位置!

使用send_keys()方法可以模拟键盘操作向搜索框中添加内容!

再通过查找百度一下按钮的位置!

使用click()方法来模拟鼠标点击按钮实现一次自动百度搜索!

firefox.find_elenment_by_class_name()方法可以通过class元素来匹配页面元素位置!

默认指向到第一个匹配到的!

firefox.find_element_by_link_text()可以通过链接文本来匹配页面元素位置!

使用text()方法可以查看匹配后元素的文本内容!

使用firefox.find_element_by_xpath()可以通过xpath的匹配规则来匹配页面元素位置!

当然还有其他匹配页面元素位置的方法!不过下面的学习中基本上都使用上面几种!特别是find_element_by_xpath()这种方法!

知识点:上面的find_element_by_x()方法全部都是匹配一个元素的,使用find_elements_by_x()方法即可返回所有匹配到的元素到一个列表中!

测试

使用selenium模块制作一个爬虫程序!爬取下推荐作者的名字和粉丝数!

思路

从的推荐作者页面来进行爬取!

该页面时通过点击加载更多的按钮后来动态获取到作者页面链接的!

代码框架

用户输入爬取作者的页数(加载一次为一页)

利用selenium模块模拟鼠标点击”加载更多“按钮来加载完指定页数的作者

利用find_elements_by_xx()方法来匹配所有作者的主页url(在得到匹配后的元素位置后使用get_attribute(元素)方法可以获取指定元素的值)

使用request模块来生成每一个主页的response

使用lxml模块来将每一个主页的源代码转化成xml格式!

利用xml自带的xpath()方法来匹配作者名和粉丝数

保存到数据库中

完成后

---------------------------------分割线---------------------------

希望各位大佬能指出错误的地方或者给些建议!

hi，大家好，时隔一年，我又发布了文章，说来惭愧，这篇文章是一年前写的，当时想着优化下代码再发出来的，但是后面不了了之了，现在将这篇旧文章发布出来，也是记录我重新写学习文章的开始，这次一定要坚持下来！

图片发自App