scrapy对接selenium(下载中间件的使用)

用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好

用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。

我们怎么用selenium实现与scrapy对接呢?思路就是直接返回selenium对页面提取的response,然后pass给spider进行解析,还是从spider开始说起:
首先我们创建一个spider,不使用start_urls,而是自己定义一个start_request,返回响应,如下:

    def start_requests(self):
        for keyword in self.settings.get('KEYWORDS'):
        # 用于导出搜索的关键字
            for page in range(1,self.settings.get('MAX_PAGES')):
            # 用于导出可以爬取的页面数
            # 实例的settings属性用于去除设置中的参数
                url = self.base_urls + keyword
                yield Request(url=url,meta={'page':page},callback=self.parse,dont_filter=True)
                # 这里请求一个页面,是搜索空军一号的主页面,然后我们会在下载中间件里面对页面进行调整
                # 这一步返回了selenium模拟进行的响应页面

这个是关键的步骤,接下来就是一个解析响应的方法,不用看了吧,还有就是。
注意,等会儿你就会知道这个Request返回的就是调用selenium返回的response

我们来着重看一下下载中间件的代码

from scrapy import signals
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http import HtmlResponse


class ScrapySeleniumDownloaderMiddleware(object):
    def __init__(self,timeout=None,options=None):
        self.timeout = timeout
        self.options = options
        self.driver = webdriver.Chrome(options=self.options)
        self.wait = WebDriverWait(self.driver,self.timeout)
        # 初始化一些基本的变量
    def process_reqeust(self,request,spider):
        try:
            driver = self.driver.get(request.url)
            # 生成一个页面的driver对象
            page = request.mata.get('page')
            # 这里取出刚刚倒进request中的page数
            if page == 1:
                pass # 直接就不用处理,就直接是这个首页的driver就可以了
            else:
                input_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="mainsrp-pager"]//input[@class="input J_Input"]')))
                # 找到输入page的框框
                submit_element = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="mainsrp-pager"]//span[@class="btn J_Submit"]')))
                # 找到点击的按钮
                input_element.clear()
                # 清除里面原来可能包含的内容
                input_element.send_keys(page)
                submit_element.click()
            # 如果不是等于一,那么还应该在这个找到输入框并输入页码,进行跳转
            # 将这个driver改成跳转后的driver
            yield HtmlResponse(url=request.url,body=driver.page_source,request=request,encoding='utf-8',status=200)
            # 这里我们直接返回了经过selenium提取的页面
        except TimeoutException:
            return HtmlResponse(url=request.url,status=500,request=request)
            # HtmlResponse是textResponse的一个子类,它会自动寻找适当的html文件编码,然后返回html类型的数据
            # 注意我们这里返回的是一个response,所以,接下来我们就不会继续调用剩下的中间件的request和exception
            # 的方法了,转而调用所有中间件的response方法
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        return cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
                options=crawler.settings.get('CHROME_OPTIONS'))
    # 这个类方法用于提取settings中的配置信息
    # 返回一个实例
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

经过上面就可以有一个实现scrapy对接selenium了,当然settings文件里面要记得打开下载中间件的选项

你可能感兴趣的:(scrapy-爬虫,scrapy,selenium)