Scrapy使用说明

1.Scrapy 是干啥的?

scrapy是Python编写,用来爬取结构性数据的应用框架。可以应用在网页爬虫或API爬虫。

2.Scrapy 爬虫原理?

原理图.png

图解参照

3.Scrapy 安装

依赖:Python 3.7,pip

>安装 Scrapy
pip install Scrapy
Scrapy使用说明_第1张图片
屏幕快照 2019-11-11 上午11.00.34.png

4.创建项目

scrapy startproject testSpider(项目名称)
Scrapy使用说明_第2张图片
屏幕快照 2019-11-11 上午11.02.36.png

5.Scrapy 文件说明

Scrapy使用说明_第3张图片
WechatIMG466.jpeg
5.1.items.py

配置要爬取的字段,类似目标数据模型

5.2.middlewares.py
Scrapy使用说明_第4张图片
屏幕快照 2019-11-11 上午11.14.46.png

TestspiderSpiderMiddleware

TestspiderDownloaderMiddleware

通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。

5.3.pipelines.py

负责处理Spider提取出来的item。

5.4.settings.py

项目的设置文件

5.5.spider/testSpider.py

爬虫编写文件(业务层处理)

6.Scrapy 爬虫编写

Scrapy使用说明_第5张图片
WechatIMG464.jpeg

7.Scrapy 启动爬虫

scrapy crawl testSpider

8.代理配置

Scrapy使用说明_第6张图片
请求配置.jpeg
Scrapy使用说明_第7张图片
中间件配置.jpeg
Scrapy使用说明_第8张图片
WechatIMG465.jpeg

9.实战操作一遍

看大家意思

10.Scrapy 相关技术

beautiful Soup

参见1
参见2

你可能感兴趣的:(Scrapy使用说明)