用代码模拟鼠标或键盘对浏览器进行操作
其中包含三个对象:代码,浏览器,浏览器驱动,三者关系:
代码驱动浏览器驱动
浏览器驱动解析代码,并驱动浏览器
浏览器按指令操作
2.1 安装浏览器
检查系统有无浏览器,没有则安装(建议先查看有没有对应的驱动,根据驱动版本下载相应的浏览器)
2.2 安装浏览器对应的驱动,并将驱动文件放到python安装目录下
查看浏览器版本,根据浏览器版本下载驱动,将.exe文件放至python安装路径下
2.3 安装selenium
ctrl+r -->cmd-->pip install selenium
2.4 检查环境
from selenium import webdriver
driver=webdriver.Chrome()
运行后弹出窗口,打开浏览器则环境配置成功
环境配置成功后就可以进行相关操作了。
1)图片
2)链接
3)文本框
4)按钮
5)下拉列表
6)视频
……
比如百度的首页,在这张页面上有输入框、按钮和文字链接等,自动化要做的就是模拟鼠标和键盘来操作这些元素,或单击,或输入等。 操作这些元素的前提是要找到它们,如何来找到它们?这就需要用到元素定位的方法来找到相应的元素再进行操作
1)id
2)name
3)class name
4)tag name
5)link text
6)partial link text
7)css selector
8)xpath
# 引入库
from selenium import webdriver
# 打开谷歌浏览器,建立会话。启动Chromedriver.exe 打开Chrome
driver = webdriver.Chrome() # 启动谷歌浏览器
# driver = webdriver.Firefox() # 启动火狐浏览器
# driver = webdriver.Ie() # 启动IE浏览器
# 访问百度首页
driver.get("http://www.baidu.com")
# 窗口最大化
driver.maximize_window()
#id定位,属性 + 操作 = 返回 webELement 对象
ele1 = driver.find_element_by_id("kw")
print(ele1)
ele2 = driver.find_element_by_tag_name("input") # (译:泰格.内幕)在dom页面当中,匹配到的第一个元素
print(ele2)
eles = driver.find_elements_by_tag_name("input") # 列表,元素为webELement对象 全部匹配的元素
print(eles)
driver.find_element_by_class_name("s_ipt")
driver.find_elements_by_class_name("s_ipt")
driver.find_element_by_name("wd")
driver.find_elements_by_name("wd")
以上四种元素定位针对所有元素
driver.find_element_by_link_text("更多产品")
driver.find_element_by_partial_link_text("产品")
1 开发不一定写,2、3、4、5、6 定位方法结果不唯一,不经常用
语法
/:
- 绝对定位 —— 一般不用,兼容性太差,太依赖位置
//:
- 相对定位 —— 一般用相对定位,来进行定位
- 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.:
- 选取当前节点
…:
- 选取当前节点的父节点
@:
- 选取属性
- @class="xxx" , 属性放在中括号 【】中
*:
- 通配符。匹配所有 //*
@*:
- 通配符。匹配所有属性 //*[@*="hello"]
多条件查询,使用逻辑查询
- and 全部为真
- or 其中一个为真
- 语法://input[@id="kw" and @name="wd"]
浏览器的快捷键 F12 ----> Ctrl + F 打开定位栏
文本全部匹配:text()=“文本内容”
文本部分匹配:contains(text(),部分文本内容)
使用语法:使用单斜杠
已知的元素定位/下面的轴名称::标签名称[@属性=值]
例://p[@title=“2016”]/following-sibling::p[@class=“name”]
ancestor:(译:昂赛斯 特儿)
parent:(译:潘润特)
preceding:(译:普瑞sei定)
preceding-sibling:(译:普瑞 sei 定。塞玻璃)
following:(译:fao lin)
following-sibling:(译:fao lin 。塞玻璃)
child
self
css 效率比较高,难学,表达式比较长,可能看不懂;
xpath 是比css效率低,但是 xpath 稳定,简单
都是万能定位掌握一种就可以了
浏览器自带的css、xpath、js定位方式
以上就是常用的元素定位方法,大多数元素可以用以上方法定位到,如果有特殊元素无法定位,可以参考xpath的轴定位方式。
from selenium import webdriver
import time
# 打开谷歌浏览器,建立会话。启动Chromedriver.exe 打开Chrome
driver = webdriver.Chrome()
# 访问百度首页
driver.get("http://www.baidu.com")
time.sleep(2) # 强制等待2秒
# 定位某度首页登录按钮,点击登录按钮
driver.find_element_by_xpath('//div[@id="u1"]//a[@name="tj_login"]').click()
time.sleep(2) # 强制等待2秒
driver.quit() # 关闭浏览器
如果遇到找不到方法的情况,如果自己的版本是最新的版本,那么很有可能这种方法已经不用了
可以去查看一下官方的文档,或者直接查看配置文件,对自己的代码进行修改
driver.find_element(By.XPATH, '//*[@id="kw"]')
# 根据xpath选择元素(万金油)
driver.find_element(By.CSS_SELECTOR, '#kw')
# 根据css选择器选择元素
driver.find_element(By.NAME, 'wd')
# 根据name属性值选择元素
driver.find_element(By.CLASS_NAME, 's_ipt')
# 根据类名选择元素
driver.find_element(By.LINK_TEXT, 'hao123')
# 根据链接文本选择元素
driver.find_element(By.PARTIAL_LINK_TEXT, 'hao')
# 根据包含文本选择
driver.find_element(By.TAG_NAME, 'title')
# 根据标签名选择
# 目标元素在当前html中是唯一标签或众多标签第一个时候使用
driver.find_element(By.ID, 'su')
# 根据id选择
最后送上一句话:
世界的模样取决于你凝视它的目光,自己的价值取决于你的追求和心态,一切美好的愿
望,不在等待中拥有,而是在奋斗中争取。