强大的开源网络爬虫框架Scrapy的基本介绍(入门级)

Scrapy 是一个强大的开源网络爬虫框架,用于从网站上抓取数据。它基于 Twisted 异步网络框架,可以高效地处理并发请求和数据处理。

以下是 Scrapy 框架的一些重要特点和功能

1. **灵活的架构**:
   - Scrapy 提供了灵活的架构,可以轻松地定义和定制爬虫逻辑、数据提取规则和数据处理流程。

2. **高性能**:
   - Scrapy 使用 Twisted 异步网络框架,能够高效地处理并发请求和数据处理,从而实现高性能的网页抓取。

3. **强大的选择器**:
   - Scrapy 提供了强大的选择器工具,可以使用 CSS 或 XPath 语法来定位网页元素并提取数据。

4. **丰富的中间件支持**:
   - Scrapy 支持中间件机制,可以通过编写中间件来扩展和修改框架的功能,例如添加自定义的请求头、处理请求和响应等。

5. **多种数据存储支持**:
   - Scrapy 支持多种数据存储方式,包括保存到文件、存储到数据库、导出到 CSV 或 JSON 等格式。

6. **自动限速功能**:
   - Scrapy 提供了自动限速功能,可以控制请求的发送速率,避免对目标网站造成过大的压力。

7. **交互式 Shell 环境**:
   - Scrapy 提供了交互式 Shell 环境,可以快速测试和调试选择器和提取规则,方便开发者进行网页数据的提取和处理。

8. **可扩展性**:
   - Scrapy 框架具有很高的可扩展性,可以根据具体需求编写自定义的 Spider、中间件、管道等组件,并集成到框架中进行使用。

9. **完善的文档和社区支持**:
   - Scrapy 拥有完善的官方文档和活跃的社区支持,开发者可以在文档中找到详细的使用说明和示例代码,并在社区中获取帮助和交流经验。

总之,Scrapy 框架是一个功能强大、灵活易用的网络爬虫框架,适用于各种规模和复杂度的网页抓取和数据处理任务。通过合理地使用 Scrapy,开发者可以快速、高效地构建稳定可靠的网络爬虫应用。

以下是 Scrapy 的一些主要概念和方法:

1. **项目 (Project)**: Scrapy 项目是一个包含 spider、item、pipeline、middleware 和设置的 Python 包。项目是使用 Scrapy 进行 web 爬取的基本单位。

2. **Spider**: Spider 是定义如何爬取某个网站的类,包括如何进行页面遍历、如何从网页中提取数据等。每个 Spider 类定义了一个特定的爬虫行为。

3. **Request 和 Response**: Request 是 Scrapy 用于爬取网页的类,而 Response 是网页返回的内容。Spider 通过产生 Request 对象并返回给 Scrapy 引擎来指示要爬取的网页。引擎再将网页内容封装成 Response 对象并返回给 Spider。

4. **Item**: Item 是保存爬取数据的容器。在 Scrapy 项目中,你需要定义自己的 Item 类型,并在 Spider 中返回这些 Item。

5. **Pipeline**: Pipeline 是处理 Item 的组件。当 Spider 返回一个 Item 时,它会被送到 Item Pipeline 中进行处理。处理可能包括清理、验证和持久化(如存储到数据库)数据。

6. **Middleware**: Middleware 是处理 Request 和 Response 的组件。它们提供了一个方便的机制,可以插入自定义的功能到 Scrapy 的请求/响应处理流程中,例如处理请求头、代理设置等。

7. **Selector**: Selector 是基于 lxml 库,用于从 HTML 或 XML 文档中提取数据的类。Scrapy 提供了两种选择器:CSS 和 XPath。

8. **Setting**: 在 Scrapy 项目的 settings.py 文件中,你可以对 Scrapy 项目进行配置。例如,你可以设置并发请求的数量、延迟下载等。

以下是 Scrapy 的一些重要方法:

- `scrapy.Request(url, callback)`: 创建一个新的请求。`url` 参数是你要请求的 URL,`callback` 参数是一个函数,当请求完成并返回响应时,Scrapy 将调用这个函数。

- `response.css(selector)`: 使用 CSS 选择器从响应中提取数据。`selector` 参数是你的 CSS 选择器。

- `response.xpath(selector)`: 使用 XPath 选择器从响应中提取数据。`selector` 参数是你的 XPath 选择器。

- `selector.get()`: 返回选择器选择的第一个结果。

- `selector.get_all()`: 返回选择器选择的所有结果。

- `item[field]`: 获取或设置 item 的字段。`field` 参数是你的字段名称。

- `yield item`: 在 Spider 中,你可以使用 `yield` 语句返回 item。Scrapy 将把这个 item 送到 item pipeline 中进行处理。

- `scrapy crawl spidername`: 这是一个命令行指令,用于启动一个 spider。`spidername` 参数是你的 spider 的名称。

这就是 Scrapy 的一些重要概念和方法。你可以在 Scrapy 的官方文档中找到更详细的信息。

Scrapy 框架的使用流程通常是:
1. 定义 Spider 类,实现抓取规则和数据提取逻辑。
2. 定义 Item 类,描述要抓取的数据结构。
3. 配置 Pipeline 类,处理和存储抓取到的数据。
4. 可选地配置 Middleware 类,扩展或修改 Scrapy 的功能。
5. 使用 CrawlerProcess 启动爬虫任务,Scrapy 将自动执行抓取任务并处理数据。
----------

例如,如果你想创建一个名为 "myproject" 的项目,你应该运行以下命令:

scrapy startproject myproject

这将创建一个名为 "myproject" 的目录,其中包含以下文件和目录:

  • myproject/
    • scrapy.cfg: 项目的配置文件。
    • myproject/
      • __init__.py: 一个空的 Python 文件,用于告诉 Python 这个目录应被视为一个 Python 包。
      • items.py: 项目的 item 文件,定义了爬取的数据结构。
      • middlewares.py: 项目的中间件文件。
      • pipelines.py: 项目的管道文件,用于处理爬取到的 item。
      • settings.py: 项目的设置文件,定义了如何配置项目。
      • spiders/
        • __init__.py: 另一个空的 Python 文件,用于告诉 Python 这个目录应被视为一个 Python 包。

这些文件是 Scrapy 项目的基本结构,你可以在这个基础上添加更多的 spiders,修改设置,定义 items,以及添加中间件和管道。

import scrapy


class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 解析页面,提取数据
        title = response.css('title::text').get()
        paragraphs = response.css('p::text').getall()

        # 输出标题和段落到控制台
        self.logger.info("Title: %s", title)
        self.logger.info("Paragraphs:")
        for paragraph in paragraphs:
            self.logger.info("- %s", paragraph)

        # 将数据传递给管道进行存储
        yield {
            'title': title,
            'paragraphs': paragraphs
        }

# process_item 方法接收两个参数:item 和 spider。
# 其中,item 是一个字典,包含了抓取到的数据;spider 则是抓取数据的 Spider 对象。
class MyPipeline:
    def process_item(self, item, spider):
        # 处理数据,存储到文件或数据库中
        with open('output.txt', 'a') as f:
            f.write(f"Title: {item['title']}\n")
            f.write("Paragraphs:\n")
            for paragraph in item['paragraphs']:
                f.write(f"- {paragraph}\n")
            f.write('\n')
        return item


# 启动爬虫
from scrapy.crawler import CrawlerProcess

process = CrawlerProcess(settings={
    'ITEM_PIPELINES': {'__main__.MyPipeline': 1},
})
process.crawl(MySpider)
process.start()

# 这段代码创建了一个 Scrapy CrawlerProcess 对象,用于启动和管理爬虫任务。
# 在创建 CrawlerProcess 对象时,传入了一个 settings 参数,其中指定了要使用的 Item Pipeline。
# 然后,使用 process.crawl(MySpider) 启动了一个名为 MySpider 的 Spider 对象,即爬虫任务。
# MySpider 是之前定义的一个 Scrapy Spider 类。
# 最后,调用 process.start() 方法开始执行爬虫任务,Scrapy 将会按照 Spider 中定义的规则抓取网页并处理数据。在抓取和处理完成后,程序将退出。

Scrapy 程序的日志输出信息解释:

1. `INFO: Scrapy 2.11.1 started (bot: scrapybot)`:Scrapy 框架开始运行,显示框架版本号。
2. `INFO: Enabled addons: []`:显示已启用的 Scrapy 插件为空。
3. `WARNING: ... ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.`:显示一个 Scrapy 的设置即将被弃用的警告信息。
4. `DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor`:显示 Scrapy 使用的反应器(reactor)类型。
5. `INFO: Telnet Password: be39fc00d9595468`:显示启用的 Telnet 控制台的密码。
6. `INFO: Overridden settings: {}`:显示覆盖的 Scrapy 设置为空。
7. `INFO: Enabled downloader middlewares: ...`:显示已启用的下载器中间件列表。
8. `INFO: Enabled spider middlewares: ...`:显示已启用的 Spider 中间件列表。
9. `INFO: Enabled item pipelines: ['__main__.MyPipeline']`:显示已启用的 Item Pipeline 列表。
10. `INFO: Spider opened`:Spider 开始运行。
11. `INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)`:显示已抓取的页面数和提取的数据项数。
12. `INFO: Telnet console listening on 127.0.0.1:6023`:显示 Telnet 控制台已在指定地址和端口上监听。
13. `DEBUG: Crawled (200) (referer: None)`:显示一个 HTTP 请求已被成功抓取。
14. `DEBUG: ...`:显示 Spider 或 Pipeline 中的自定义调试信息。
15. `INFO: Closing spider (finished)`:Spider 结束运行。
16. `INFO: Dumping Scrapy stats: ...`:显示 Scrapy 运行统计信息,如请求次数、响应次数、抓取的数据项数等。
17. `INFO: Spider closed (finished)`:Spider 已关闭。

这些日志信息提供了关于 Scrapy 程序运行状态和执行过程的详细信息,有助于调试和监控程序的运行情况。

你可能感兴趣的:(爬虫,scrapy,前端,测试工具,css)