爬虫 -------Seleium

目录

  • 1. selenium
    • 1.1 导入模块
    • 1.2 高级-查找元素:
    • 1.3 高级-页面交互
    • 1.4 高级-等待页面加载(wait)

1. selenium

  • selenium是什么:一个自动化测试工具(大家都是这么说的)
  • selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要
  • 准备工作:
  1. 安装selenium(pip install selenium)
  2. 安装chromedriver(一个驱动程序,用以启动chrome浏览器,具体的驱动程序需要对应的驱动,在官网上可以找到下载地址)
    基本步骤:

1.1 导入模块

from selenium import webdriver  # 启动浏览器需要用到
from selenium.webdriver.common.keys import Keys  # 提供键盘按键支持(最后一个K要大写)

2、创建一个WebDriver实例:

driver = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver")

3、打开一个页面:

driver.get("http://www.baidu.com")  # 这个时候chromedriver会打开一个Chrome浏览器窗口,显示的是网址所对应的页面

4、关闭页面

driver.close()  # 关闭浏览器一个Tab
# or
driver.quit()  # 关闭浏览器窗口

1.2 高级-查找元素:

在打开页面和关闭页面中间,就是各种操作!而查找元素这一点,和爬虫常见的HTML页面解析,定位到具体的某个元素基本一样,只不过,调用者是driver

element = driver.find_element_by_name("q")  

1.3 高级-页面交互

  • 找到元素后,就是进行“交互”,如键盘输入(需提前导入模块)
element.send_keys('hello')  # 往一个可以输入对象中输入“some text”
#甚至

element.send_keys(Keys.RETURN)  # 模拟键盘回车
#一般来说,这种方式输入后会一直存在,而要清空某个文本框中的文字,就需要:

element.clear()  # 清空element对象中的文字

1.4 高级-等待页面加载(wait)

  • 应用场景:含有ajax加载的page!因为在这种情况下,页面内的某个节点并不是在一开始就出现了,而在这种情况下,就不能“查找元素”,元素选择不到,就不好进行交互操作!等待页面加载这两个模块经常是一起导入的:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

  • 显示等待:触发某个条件后才能够执行后续的代码
driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:    
    element = WebDriverWait(driver, 10).until(           
        EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:    
    driver.quit()
#其中,presence_of_element_located是条件,By.ID是通过什么方式来确认元素(这个是通过id),"myDynamicElement"这个就是某个元素的ID

  • 隐示等待:设置某个具体的等待时间
driver = webdriver.Firefox()
driver.implicitly_wait(10) # seconds
driver.get("http://somedomain/url_that_delays_loading")
myDynamicElement = driver.find_element_by_id("myDynami")

你可能感兴趣的:(python,爬虫)