第六章 Scrapy框架(一) 2020-03-03

一、Scrapy框架– Scrapy介绍及其安装


本章目标


1、理解Scrapy架构。

2、学会Spider爬虫的编写。

3、学会CrawlSpider爬虫编写。

4、学会中间件的编写。

5、学会pipeline保存数据。

6、学会将Scrapy结合selenium一起使用。

7、学会在Scrapy中使用IP代理。


Scrapy框架介绍


写一个爬虫,需要做很多事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。


安装Scrapy框架


1、安装:通过pip install scrapy即可安装。

2、Scrapy官方文档:http://doc.scrapy.org/en/latest

3、Scrapy中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html


注意:

1、在ubuntu上安装scrapy之前,需要先安装以下依赖:

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1-dev libffi-dev libssl-dev, 然后再通过pip install scrapy安装。

2、如果在windows系统下,提示这个错误ModuleNotFoundError:No

module named ‘win32api’, 那么使用以下命令可以解决:pip install pypiwin32。

3、如果安装的时候提示twisted安装有问题,那么可以先到这个网站下载twisted的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/,下载完成后,再使用pip install xxx.whl安装。



上一篇文章 第五章 爬虫进阶(四十四) 2020-03-02 地址:

https://www.jianshu.com/p/5387149d02c3

下一篇文章 第六章 Scrapy框架(二) 2020-03-04 地址:

https://www.jianshu.com/p/d113e26e4223



以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

你可能感兴趣的:(第六章 Scrapy框架(一) 2020-03-03)