参考自(网易云课堂知了课堂-21天学会分布式爬虫)
1.获取ajax数据的方式
- 直接分析ajax调用的接口。然后通过代码请求这个接口。
- 使用Selenium+chromedriver模拟浏览器行为获取数据。
方式 | 优点 | 缺点 |
---|---|---|
分析接口 | 直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。 | 分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫 |
selenium | 直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。 | 代码量多。性能低。 |
2.Chromedriver
ChromeDriver下载地址:https://sites.google.com/a/chromium.org/chromedriver/downloads
3.Selenium+chromedriver安装及使用
1.安装Selenium
pip install selenium
2.引入chromedriver
from selenium import webdriver
# chromedriver的绝对路径
driver_path = r'E:\chromedriver\chromedriver.exe'
# 初始化一个driver,并且指定chromedriver的路径
driver = webdriver.Chrome(executable_path=driver_path)
3.Selenium基本操作方法
- 基础操作
# 请求网页
driver.get("https://www.baidu.com/")
# 关闭网页
driver.close()
# 关闭浏览器
driver.quit()
- 查找Html元素
# 根据ID来查找某个元素
driver.find_element_by_id('')
driver.find_element(BY.ID,"")
# 根据类名来查找某个元素
driver.find_element_by_class_name('')
driver.find_element(BY.CLASS_NAME,'')
# 根据name属性来找查找某个元素
driver.find_element_by_name("")
driver.find_element(BY.NAME,"")
# 根据标签名来查找某个元素
driver.find_element_by_tag_name('')
driver.find_element(BY.TAG_NAME'')
# 根据xpath语法来查找某个元素
driver.find_element_by_xpath('//div')
driver.find_element(BY.XPATH,'//div')
# 根据css选择器来查找某个元素
driver.find_element_by_css_selector('//div')
driver.find_element(BY.CSS_SELECTOR,'//div')
find_element是获取第一个满足条件的元素。find_elements是获取所有满足条件的元素。
- 操作表单元素
- 操作输入框
# 找到输入框元素
inputTag = driver.find_element_by_id('kw')
# 填充数据
inputTag.send_keys("python")
# 清除数据
inputTag.clear()
- 操作checkbox
# 选择checkbox内标签对应的name值
rememberTag = driver.find_element_by_name("rememberMe")
# 执行选中操作
rememberTag.click()
-
操作select
select元素不能直接点击。因为点击后还需要选中元素。这时候selenium就专门为select标签提供了一个类selenium.webdriver.support.ui.Select。将获取到的元素当成参数传到这个类中,创建这个对象。以后就可以使用这个对象进行选择了。
from selenium.webdriver.support.ui import Select
# 选中这个标签,然后使用Select创建对象
selectTag = Select(driver.find_element_by_name("jumpMenu"))
# 根据索引选择
selectTag.select_by_index(1)
# 根据值选择
selectTag.select_by_value("http://www.95yueba.com")
# 根据可视的文本选择
selectTag.select_by_visible_text("95秀客户端")
# 取消选中所有选项
selectTag.deselect_all()
- 操作按钮
# 选中按钮
inputTag = driver.find_element_by_id('su')
# 点击
inputTag.click()
4.行为链
有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件。
# 获取输入框
inputTag = driver.find_element_by_id('kw')
# 获取提交按钮
submitTag = driver.find_element_by_id('su')
#初始化行为链
actions = ActionChains(driver)
# 输入框输入内容
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag,'python')
# 点击提交按钮
actions.move_to_element(submitTag)
actions.click(submitTag)
# 执行行为链
actions.perform()
还有更多的鼠标相关的操作。
click_and_hold(element):点击但不松开鼠标。
context_click(element):右键点击。
double_click(element):双击。
5.Cookies操作
1.获取所有cookies
for cookie in driver.get_cookies():
print(cookie)
2.根据cookie的key获取value
value = driver.get_cookie(key)
3.删除所有的cookie
driver.delete_all_cookies()
4.删除某个cookie
driver.delete_cookie(key)
6.切换页面
# 打开一个新的页面
driver.execute_script("window.open('"+url+"')")
# 切换到这个新的页面中
driver.switch_to_window(driver.window_handles[1])