简介
Selenium是一个自动web测试模块!可以通过调用浏览器来进行网络爬虫(爬取动态网页)!
准备
使用pip3可以很简单的安装selenium模块!
想要使用selenium进行网络爬虫需要下载指定浏览器的插件!因为selenium是通过调用浏览器来进行web测试的!
这里使用firefox来测试!
firefox浏览器的插件为geckodriver!
可以去github.com/mozilla/geckodriver/releases下载对应的geckodriver插件!
注:一定要对应!不然在调用时会报错!
查看firefox版本!
查看selenium版本!
因此这里我们下载geckodriver v0.19.1版本即可!
因为我这里是linux32位的所以我下载指定系统版本的geckodriver!
解压后即可得到一个geckodriver插件!
将该插件放入系统环境目录下即可!
测试
使用selenium模块下的webdriver模块!来打开指定浏览器!
成功使用selenium模块打开一个浏览器!
接下来使用指定的命令即可让python自动帮我们对浏览器进行操作!
学习
firefox.get(url)可以让python帮我们打开指定网页
firefox.get_cookies可以获取cookie信息
firefox.page_source可以查看打开页面的源代码
firefox.title可以查看网页标题
webdriver提供了很多用来寻找页面元素、位置的方法!通过这些方法可以寻找需要的页面内容和位置!
firefox.find_element_by_id()可以通过页面的id元素来查找指定元素、位置!
查看百度搜索框的id元素!使用firefox.find_element_by_id()方法来查找元素位置!
现在text这个变量就指向了百度搜索框的位置!
使用send_keys()方法可以模拟键盘操作向搜索框中添加内容!
再通过查找百度一下按钮的位置!
使用click()方法来模拟鼠标点击按钮实现一次自动百度搜索!
firefox.find_elenment_by_class_name()方法可以通过class元素来匹配页面元素位置!
默认指向到第一个匹配到的!
firefox.find_element_by_link_text()可以通过链接文本来匹配页面元素位置!
使用text()方法可以查看匹配后元素的文本内容!
使用firefox.find_element_by_xpath()可以通过xpath的匹配规则来匹配页面元素位置!
当然还有其他匹配页面元素位置的方法!不过下面的学习中基本上都使用上面几种!特别是find_element_by_xpath()这种方法!
知识点:上面的find_element_by_x()方法全部都是匹配一个元素的,使用find_elements_by_x()方法即可返回所有匹配到的元素到一个列表中!
测试
使用selenium模块制作一个爬虫程序!爬取下推荐作者的名字和粉丝数!
思路
从的推荐作者页面来进行爬取!
该页面时通过点击加载更多的按钮后来动态获取到作者页面链接的!
代码框架
用户输入爬取作者的页数(加载一次为一页)
利用selenium模块模拟鼠标点击”加载更多“按钮来加载完指定页数的作者
利用find_elements_by_xx()方法来匹配所有作者的主页url(在得到匹配后的元素位置后使用get_attribute(元素)方法可以获取指定元素的值)
使用request模块来生成每一个主页的response
使用lxml模块来将每一个主页的源代码转化成xml格式!
利用xml自带的xpath()方法来匹配作者名和粉丝数
保存到数据库中
完成后
---------------------------------分割线---------------------------
希望各位大佬能指出错误的地方或者给些建议!
hi, 大家好, 时隔一年, 我又发布了文章,说来惭愧,这篇文章是一年前写的,当时想着优化下代码再发出来的,但是后面不了了之了,现在将这篇旧文章发布出来,也是记录我重新写学习文章的开始,这次一定要坚持下来!