Selenium的使用入门

想要使用selenium操作浏览器,首先需要下载chromedriver,selenium通过操作chromedriver来操作chrome浏览器
根据浏览器版本下载对应的chromedriver版本:版本对照表
chromedriver淘宝镜像:chromedriver下载
下载好后将下载好的包解压后,会得到一个可执行文件,
如果是Windows,将此文件放到含有环境变量的目录下即可
如果是Linux,将此文件放到含有环境变量的目录下,并赋予可读可写可执行权限
权限赋予命令:sudo chmod 777 chromedriver

如果没有Selenium模块请自行安装,如果没有ipthon模块也请自行安装(这个用于测试,不安装也行)

测试
有界面 浏览器
需要滑动模块等使用有界面

# 导入selenium模块中的webdirver模块
In [1]: from selenium import webdriver
# 创建Chrome对象
In [2]: driver = webdriver.Chrome()
# 操作Chrome对象访问淘宝
In [3]: driver.get("http://www.taobao.com")
# 获取渲染好的网页源码
In [4]: html = driver.page_source
# 打印出网页源码
In [5]: print html
# 获取当前响应的实际url地址
In [6]: print driver.current_url
关闭浏览器
In [7]: driver.quit()
In [8]: driver.close()

修改Chrome的User-Agent

from selenium import webdriver
options = webdriver.ChromeOptions()
# 设置成中文
options.add_argument('lang=zh_CN.UTF-8')
# 添加头部
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.103 Safari/537.36"')
driver = webdriver.Chrome(chrome_options=options)
driver.get("https://httpbin.org/user-agent")

设置代理

和修改User-Agent的方法类似
from selenium import webdriver
#打开chrome设置
chrome_options = webdriver.ChromeOptions()
#添加proxy参数
chrome_options.add_argument('--proxy-server=http://58.209.151.126:808')
chrome = webdriver.Chrome(chrome_options=chrome_options)
chrome.get('http://httpbin.org/ip')
print(chrome.page_source)
chrome.quit()

无头chrome
访问效率高

In [1]: from selenium import webdriver

In [2]: options = webdriver.ChromeOptions()
# 设置无头属性
In [3]: options.add_argument('--headless')
# 启动无头浏览器
In [4]: driver = webdriver.Chrome(chrome_options=options)
# 访问百度
In [5]: driver.get('http://www.baidu.com')
# 关闭浏览器
In [6]: driver.close()

本文部分参考自:X_xxieRiemann的文章《python3的爬虫笔记11——Selenium和浏览器的一些设置》

你可能感兴趣的:(Selenium的使用入门)