使用selenium优点:所见既所得
通过page_source属性可以获得网页源代码
selenium可以驱动浏览器完成各种操作,如填充表单、模拟点击等。
获取单个节点的方法:
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partical_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
#另外,selenium还提供了通用方法find_element(),它需要传入两个参数:查找方式By和值
获取多个节点的方法:
find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partical_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
节点交互:
比较常用的方法:
输入文字时使用send_keys()方法,清空文字使用clear()方法,点击按钮使用click()方法
执行javascript
对于某些操作,Selenium API并没有提供,比如,下拉进度条,可以直接模拟运行JavaScript,此时使用execute_script()方法即可实现
from selenium import webdriver
browser = webdriver.Chorme()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')
有了这个方法,基本上API没有提供的所有功能都可以执行JavaScript的方式来实现
异常处理(使用try except语句来捕获各种异常)
from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
except TimeoutException:
print("Time Out")
try:
browser.find_element_by_id('hello')
except NoSuchElementException:
print('No Element')
finally:
browser.close()
下面给出一个爬取淘宝网的例子
scrapy startproject Taobao
scrapy genspider taobao www.taobao.com
#taobao.py
import scrapy
class TaobaoSpider(scrapy.Spider):
name = 'taobao'
allowed_domains = ['www.taobao.com']
def start_requests(self):
urls = ['http://www.taobao.com/']
for url in urls:
req = scrapy.Request(url,callback='self.parse,meta={"use_selenium":True}')
yield req
def parse(self,response):
print(response.body)
#setting.py
#启用
ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}
ITEM_PIPELINES = {
'Taobao.pipelines.TaobaoPipeline': 300,
}
#middlewares.py
#在中间件中设置selenium访问动态网页
#在``def process_request(self,request,spider)``中添加下列代码
def process_request(self,request,spider):
#使用两种方法判断是否使用selenium
#if spider.name == "taobao": #第一种方法
if request.meta.get('use_selenium'):
#设置无界面运行ChromeDriver
option = Options()
option.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=option)
#有界面运行ChromeDriver,如使用有界面时,将下面一行代码替换上面三行代码
#driver = webdriver.Chorme()
driver.implicitly_wait(15)
driver.get(request.url)
#执行js,获取动态页面的整个页面
js = 'window.scrollTo(0,document.body.scrollHeight)'
driver.execute_script(js)
content = driver.page_source
resp = HtmlResponse(request.url,request=request,body=content)
return resp #被解析函数parse接收
return None