selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
写过爬虫的朋友一定遇到过这样一个问题:网页的部分内容是由js(ajax)技术生成的,而这部分内容恰恰是我们想要的,并且这个 ajax请求的url或者生成的cookie信息我们很难拿到。普通的爬虫工具例如HttpClient只能模拟http发送请求,我们无法拿到url或 者cookie,所以当然也无法拿到动态网页内容;Selenium,作为一个Web应用程序测试的工具,功能显然更加强大。Selenium的核心Selenium Core基于JsUnit,完全由 JavaScript编写,因此可运行于任何支持JavaScript的浏览器上。显然,Selenium非常适合解决我们提到的动态网页加载问题。
selenium的安装详见博客:https://blog.csdn.net/qq_42543312/article/details/81290436
代码中的time.sleep()是为了让程序能够在网速差的条件下正常运行。
from selenium.webdriver.common.keys import Keys
from selenium import webdriver
import time
driver = webdriver.Firefox()
driver.get('http://www.baidu.com')
time.sleep(5)
# 找到输入框并且输入指定内容
driver.find_element_by_id('kw').send_keys('selenium')
time.sleep(2)
# ctrl + a 全选输入框内的全部内容
driver.find_element_by_id('kw').send_keys(Keys.CONTROL,'a')
time.sleep(2)
# ctrl + x
driver.find_element_by_id('kw').send_keys(Keys.CONTROL,'x')
time.sleep(2)
driver.find_element_by_id('kw').send_keys(u'爬虫技巧')
time.sleep(2)
# 点击
driver.find_element_by_id('su').click()
time.sleep(2)
# 退出浏览器
driver.quit()
selenium 由网页驱动驱使浏览器进行操作,速度慢是一大特点 经常会出现代码执行完了,但是网页内容还没有加载完毕 ,里面的标签还没有显示出来,如果这时候操作里面的标签,就会爆出异常 NoSuchElementExpection。
WebDriverWait() 和 time.sleep()
1.都是让程序等待执行的时间
2.time的时间是固定的,时间长短不会随着标签的加载速度而改变
WebDriverWait时间是不固定的,等待多少时间要看标签的加载时间和指定的固定的时间
3.如果在指定的时间内,标签仍然没有加载出来,那么time和WebDriverWait都会爆出异常
from selenium.webdriver.support.ui import WebDriverWait
from selenium import webdriver
driver = webdriver.Firefox()
driver.get('http://www.baidu.com')
driver.find_element_by_id('kw').send_keys('hello world')
button = driver.find_element_by_id('su')
# 判断标签有没有加载出来,最多等待10秒
is_visible = WebDriverWait(driver,10).until(lambda driver : button.is_displayed())
button.click()
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
import time
driver = webdriver.Firefox()
driver.get('http://www.baidu.com')
logo = driver.find_element_by_css_selector('#lg > img')
WebDriverWait(driver,8).until(lambda driver:logo.is_displayed())
# 鼠标双击
ActionChains(driver).double_click(logo).perform()
# 鼠标右击
action = ActionChains(driver).context_click(logo)
# 操作时间会跑到perform队列里面
action.perform()
time.sleep(3)
# 鼠标移动
more = driver.find_element_by_class_name('bri')
WebDriverWait(driver,8).until(lambda driver : more.is_displayed())
ActionChains(driver).move_to_element(more).perform()
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
driver = webdriver.Firefox()
driver.get('http://www.baidu.com')
# 获取当前的window对象
current_window = driver.current_window_handle
# 获取当前窗口编号 和 网页标题
print(current_window,driver.title)
driver.find_element_by_name('tj_trnews').click()
time.sleep(2)
news = WebDriverWait(driver,8).until(lambda driver : driver.find_element_by_css_selector('.hdline0 .a3'))
news.click()
time.sleep(5)
# 获取所有的窗口
all_windows = driver.window_handles
print(all_windows)
time.sleep(5)
for window in all_windows:
if window != current_window:
driver.switch_to.window(window)
title = driver.find_element_by_tag_name('h1')
WebDriverWait(driver, 8).until(lambda driver: title.is_displayed())
print(title.text)
driver.switch_to_window(current_window)
print(driver.find_element_by_css_selector('#footer span').text)
# 关闭窗口
driver.close()
# 关闭浏览器
driver.quit()