Scrapy框架流程

Scrapy流程

Scrapy的主体流程

1.新建项目 scrapy startproject xxx(项目名)
2.编写item 书写爬虫要提取的内容框架
3.制作爬虫 spider/xxspider.py中负责分解提取下载数据
4.pipline:内容的储存

Scrapy详细流程操作

新建项目

命令行下输入

scrapy startproject Spider#创建一个名为Spider的项目

书写爬取目标

打开item.py,开始写提取目标

import scrapy
class SpiderItem(scrapy.Item):
url=scrapy.Field()#提取链接
title=scrapy.Field()#提取标题
content=scrapy.Field()#提取内容

制作爬虫

命令行下输入

scrapy genspider carspider"xxx.com"#创建一个carspider文件

打开carspider.py文件,类carspider中已经有了一些填好的信息。
接下来,我们需要:

from Spider.items import SpiderItem

然后,在parse中填写提取规则

def parse(self,response):
	item=SpiderItem()
	item['url']=response.xpath('//base/@href').get()#采集网址
	item['title']=response.css('title::text').get()#采集标题
	item['content']=response.css('strong::text').getall()#采集内容信息	

执行程序

scrapy crawl Spider#执行项目名为spider的爬虫程序

你可能感兴趣的:(爬虫,Scrapy爬虫框架流程)