scrapy爬虫之基本抓取流程和scrapy项目文件

基本流程图

scrapy爬虫之基本抓取流程和scrapy项目文件_第1张图片

scrapy项目中各个文件作用

我们通过一个爬取书籍名称和价格的爬虫来进行说明
爬取网址:http://books.toscrape.com 这是一个专门用于爬虫练习网站

scrapy爬虫之基本抓取流程和scrapy项目文件_第2张图片

在框中的文件是我们需要知道和关注的
item.py:定义scrapy的输出内容
middlewares.py:定义各种中间件,主要为了处理各种request和response
pipelines.py:定义管的,如何处理抓取的文件
setting.py:项目配置文件,所有的管道、中间件等其他参数必须在setting.py中激活才能生效
spiders:目录中用于存放所有的爬虫文件

实现一个简单的爬虫

单独爬取一页的书面和价格,这个项目根据往后的讲解逐步完善

#books.py文件内容

# -*- coding: utf-8 -*-
import scrapy


class BooksSpider(scrapy.Spider):
    name = 'books'  #蜘蛛的标识
    allowed_domains = ['books.toscrape.com']  #项目能爬取的域名,所有的域名必须包含books.toscrape.com
    start_urls = ['http://books.toscrape.com/']  #爬虫开始网址

    def parse(self, response):
    	#截取的书名和价格
        for book in response.xpath('//article'):
            bookname = book.xpath('./h3/a/@title').extract()
            bookprice = book.xpath(".//p[@class='price_color']/text()").extract()
            yield {
                'bookname': bookname,
                'bookprce': bookprice
            }
#运行爬虫
scrapy crawl books -o books.csv

scrapy爬虫之基本抓取流程和scrapy项目文件_第3张图片

上面简单实现了一下,后续我们逐步完善

你可能感兴趣的:(python)