【小白学爬虫连载（6）】--Selenium库详解

欢迎大家关注公众号【哈希大数据】
Selenium库是Python的自动化测试工具，它支持多种浏览器包括Chrome、Mozilla Firefox、PhantomJS等。在爬虫中主要解决因为利用JavaScript渲染操作不能利用Requests库获取网页内容的问题。利用JavaScript渲染的网站有很多典型的如淘宝、今日头条、一点资讯、快递100等。
Selenium安装与测试
对于Windows平台：首先介绍一种简单的安装包的方法，打开cmd,执行pip install selenium。如果第一种方法出现如timeout等问题，我们还可以采用手动方法安装，步骤如下：
1、登陆该网站（https://www.lfd.uci.edu/~gohlke/pythonlibs/）下载你所需要的第三包的whl文件（用Ctrl+F命令搜索你想安装的第三方包），建议存储在Python安装目录中的\Lib\site-packages目录下。
2、下载完成后打开命令行，输入pip install 文件绝对路径，然后点击回车就OK啦。
完成Selenium库的安装后，我们需要下载一些浏览器驱动器，这里建议大家使用Chrome浏览器，为此我们需要在电脑上下载一个chromedriver，下载chromedriver时需要注意的问题是与电脑上的chrome浏览器版本要对应。大家可以按下面这个连接中给定的映射关系进行下载：http://blog.csdn.net/huilan_same/article/details/51896672，感谢huilan_same的分享。chromedriver的下载地址：http://npm.taobao.org/mirrors/chromedriver/
下载的chromedriver需要配置进path环境变量，也可以用我下面的语句加入executable_path参数，后面为 chromedriver的绝对路径，chromedriver_win32为存放chromedriver.exe的文件夹。下面对Selenium进行简单的测试：

browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get("http://www.baidu.com")
print(browser.page_source)
browser.close()

查找元素

1.查找单个元素

selenium查找元素的方法有很多：

find_element_by_name
find_element_by_id
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

下面举一个例子：


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get("http://www.taobao.com")
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
browser.close()

例子中通过三种不同的方式去获取响应的元素，第一种是通过id的方式，第二个中是CSS选择器，第三种是xpath选择器，结果都是相同的

2.查找多个元素

查找多元素与查找单个元素的区别不大，在函数名上多加了一个s例如：find_elements_by_name。查找大哥元素返回的是符合查找条件的第一个标签，查找多个元素返回的是符合条件的所有标签。

3.获取元素属性

在查找到相应元素后可以利用get_attribute(属性名称)函数获取属性值

举一个简单的例子如下：


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('https://www.taobao.com/')
input_str = driver.find_element_by_id('q')
print(input_str.get_attribute('aria-label'))

得到的结果是："请输入搜索文字"

4.获取文本值

与获取元素属性类似，不过更简单，直接在查找到元素后利用其text方法

5.获取标签位置及大小

与获取文本值一样，获取位置的方法为location，获取大小的方法为size


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('https://www.taobao.com/')
input_str = driver.find_element_by_id('q')
print(input_str.location)
print(input_str.size)

模拟操作

1.元素交互操作

元素交互操作是指咱们经常用到的如查询操作，登陆操作等

下面举一个查询操作的例子：


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('http://www.kuaidi100.com/')
# print('cookies:', driver.get_cookies())
browser.find_element_by_name("postid").clear() # 清空输入框内容
browser.find_element_by_name("postid").send_keys('3346535929281') # 输入订单号
browser.find_element_by_id("query").click() # 点击搜索按钮

该例是在快递100中查询一个订单的物流信息。

2.执行JavaScript操作

这是一个非常有用的方法，这里就可以直接调用js方法来实现一些操作，下面的例子是打开快递100通过js翻到页面底部


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('http://www.kuaidi100.com/')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

切换Frame

frame标签是比较特殊的，定位该标签内部的元素时必须先切换到对应的frame内，通过下面的例子演示这里常用的是switch_to.frame()和switch_to.parent_frame():

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementExceptionbrowser = webdriver.Chrome()
browser.get('http://bj.96weixin.com/')
browser.switch_to.frame('ueditor_1')
source = browser.find_element_by_class_name('view')
print(source)
try: 
logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')except NoSuchElementException: print('NO LOGO')browser.switch_to.parent_frame()logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')
print(logo)print(logo.get_attribute('src'))

很多时候网页中要获取的内容显示其在一个框框里面，大家就要查看其是不是在各个框架内，避免出错。

等待

网页中很多内容是通过Ajax加载，需要一定时间才能加载出来，但selenium默认的是打开网页后变开始定位元素，这样容易出现找不到元素这样的问题，不过selenium提供了两种等待元素出现的方式：显示等待和隐式等待。

1.显示等待

指定一个等待条件，并且指定一个最长等待时间，会在这个时间内进行判断是否满足等待条件，如果成立就会立即返回，如果不成立，就会一直等待，直到等待你指定的最长等待时间，如果还是不满足，就会抛出异常，如果满足了就会正常返回。


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)

上述的例子中的条件：EC.presence_of_element_located()是确认元素是否已经出现了EC.element_to_be_clickable()是确认元素是否是可点击的

常用的判断条件：

title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出，传入定位元组，如(By.ID, 'p')
visibility_of_element_located 元素可见，传入定位元组
visibility_of 可见，传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM，可判断页面是否已经刷新
element_to_be_ 元素可选择，传元素对象
element_located_to_be_selected 元素可选择，传入定位元组
element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则返回False
element_located_selection_state_to_be 传入定位元组以及状态，相等返回True，否则返回False
alert_is_present 是否出现Alert

2.隐式等待

到了一定的时间发现元素还没有加载，则继续等待我们指定的时间，如果超过了我们指定的时间还没有加载就会抛出异常，如果没有需要等待的时候就已经加载完毕就会立即执行。


from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

选项卡管理

通过执行window.open()实现新开选项卡
通过browser.window_handles函数可以获得选项卡列表
通过browser.window_handles[n]就可以操作第n个选项卡
通过browser.close()关闭当前选项卡

from selenium import webdriver
browser = webdriver.Chrome()browser.get('https://www.baidu.com')
browser.execute_script('window.open()')# 打开一个新的选项卡print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])#切换到第二个选项卡，注意这里0为第一个
browser.get('https://www.taobao.com')time.sleep(1)browser.close()#关闭当前选项卡
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

小结
本文介绍了selenium库的安装和测试方法，本文主要介绍selenium驱动chrome浏览器的相关操作，其他浏览器基本一样只是需要添加对应的浏览器驱动，后面主要介绍了如何查找元素、获取属性值、模拟人的操作、操作frame内的元素、等待、选项卡管理。更多的内容请到：
http://selenium-python.readthedocs.io/api.html

【小白学爬虫连载（6）】--Selenium库详解

你可能感兴趣的:(【小白学爬虫连载（6）】--Selenium库详解)