爬虫笔记(7)scrapy入门

1.Scrapy框架

Scrapy是一个异步框架,效率比requests阻塞式编程效率要高。

2. 安装

先下载twisted和pywin32

pip3 install scrapy

3.初次使用

  • 新建项目
scrapy startproject dy2018

使用框架的好处就是我们不需要考虑任务调度问题,scrapy还有个特点就是会自动使用浏览器设置的代理,这个对于内网使用非常有意义,还可以方便Fiddler获取报文信息。
这里的拿http://www.dy2018.com 作为例子,毕竟前面我们分析过。爬虫需要继承自scrapy.Spider,爬虫初始链接放在start_urls中,parse函数作为页面分析器来解析页面数据和页面链接。parse返回一个生成器,生成器生成的内容只能是dict,request,none等。
代码如下:

import scrapy
from bs4 import BeautifulSoup
import re
class Dy2018Spider(scrapy.Spider):
    name = "dy2018"
    # start_urls = [
    #     'http://quotes.toscrape.com/page/1/',
    #     'http://quotes.toscrape.com/page/2/',
    # ]
    root = 'http://www.dy2018.com'
    start_urls = ['http://www.dy2018.com/1/']
    # for i in range(21):
    #     start_urls.append(root+'/'+str(i)+'/')

    def parse(self, response):
        #print(response.body)
        self.logger.info(response.headers)
        if b'Etag' not in response.headers:
            self.logger.info('-----------------------------------------------------------')
            self.logger.info(response.body)
            self.logger.info(type(response.body))
            url = self.geturl(response.body)
            self.logger.info(url)
            yield scrapy.Request(str(url), callback=self.parse)
        else:
            self.logger.info('++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++')
            ret = self.parsepage(response.body)
            self.logger.info(ret)
            # for url in ret['urls']:
            #     print(url)
            #     yield scrapy.Request(str(url), callback=self.parse)
            for d in ret['data']:#不能返回一个list
                yield d

    def geturl(self,html):
        soup = BeautifulSoup(html,'html5lib')
        s = soup.find('script')
        text = s.text
        if text.startswith('window.location='):
            path = self.root + eval(text[len('window.location='):-1])
            return path

    def parsepage(self,html):
        soup = BeautifulSoup(html,'html5lib')
        content = soup.find('div',attrs={'class':'co_content8'})
        pages = content.find('div',attrs={'class':'x'})
        urls = []
        for option in pages.find_all('option'):
            urls.append(self.root+option['value'])
    
        pattern = re.compile(r'《(.+)》')
        tbs = content.find_all('table')
        data = []
        for tb in tbs:
            b = tb.find('b')
            a1 = b.find_all('a')[1]
            title = a1['title']
            href = self.root + a1['href']
            #title = pattern.findall(title)[0]
            data.append({'href':href,'title':title})
        self.logger.info(urls)
        return {'data':data,'urls':urls}    
  • 运行方法
#要进入到dy2018这个工程目录才能执行下面的命令
scrapy crawl dy2018 --logfile 1.txt
  • 调试的过程
    (1)www.dy2018.com 使用了一些反扒技巧,前面我们分析过它会返回一个带脚本的内容来检测是不是爬虫在运行。前面使用Content-Length来区分正常页面和爬虫页面,但是Content-Length在response.headers中却找不到,所以这里使用Etag来检测。当然并不是说Content-Length就会被丢失,其实测试其它网站它是存在的。
    (2)从代码中我们可以看到'ETag'前缀是b,这代表字符串的类型是bytes。在scrapy的函数中起码在scrapy.Request第一个参数是不能传入bytes类型的,这里使用str把bytes类型转换为str类型。response中的内容也是bytes类型,在使用中要注意类型转换。
    (3)www.dy2018.com还有个反爬行为就是User-Agent,我估计是这样,因为今天测试的时候发现反复会爬到反爬页面。我们可以在settings.py对这个进行设置。
#setting.py文件
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'zh-CN,zh;q=0.8',
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
}

(4)调试问题我这里使用的是log文件,要把调试信息输入到文件中要使用self.logger.info函数。

你可能感兴趣的:(爬虫笔记(7)scrapy入门)