Scrapy初识与创建

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

一.安装

Scrapy框架因为功能十分强大,所以依赖很多库,不能直接安装,需要先安装依赖库,因为我的电脑在Windows下,所以这里展示Windows下的安装方法(如果有其他平台的需要,欢迎给我留言我在发出来)
需要安装4个依赖库分别是
1.
lxml(这个最重要),使用pip命令安装

pip3 install lxml

若没有报错,则安装成功,如果报错提示缺少libxml2 库,可以使用wheel文件进行安装 libxml2
2.
pyOpenSSL
需要在官网下载wheel文件 pyOpenssL
下载后使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

Twisted
同理,需要在官网下载wheel文件 Twisted,但是有一件事,一定要记得在控制台下输入python查看你的电脑版本和python版本,然后在上面的地址中下载对应的wheel文件
然后使用命令安装

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

PyWin32
在官网下载对应版本的安装包双击安装即可 pywin32
5.
在依赖包全部安装成功前提下安装Scrapy框架,使用pip命令

pip3 install Scrapy

二.scrapy框架的简单使用

使用之前你要清楚这么一件事,Scrapy框架和你自己编写的区别,我理解的区别就是没什么区别,你编写的爬虫也是为了抓取数据,框架也是为了抓取数据,唯一有一定不同的就是,不管是我们现在所说的Scrapy框架还是其他的爬虫框架都是使爬虫功能模块话,把各种爬虫需求分开来,你只要使用你的项目所需要的模块就够了!
下面是一些常用命令:

创建项目:scrapy startproject xxx
进入项目:cd xxx #进入某个文件夹下
创建爬虫:scrapy genspider xxx(爬虫名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某种类型的文件)
运行爬虫:scrapy crawl XXX
列出所有爬虫:scrapy list
获得配置信息:scrapy settings [options]
那么我们现在来说说Scrapy框架的基本使用分为几部分

当我们使用创建命令

scrapy startproject file_one

创建完项目后项目应该包括下面几个文件:

scrapy.cfg: 项目的配置文件
file_one/: 该项目的python模块。在此放入代码(核心)
file_one/items.py: 项目中的item文件.(这是创建容器的地方,爬取的信息分别放到不同容器里)
file_one/pipelines.py: 项目中的pipelines文件.
file_one/settings.py: 项目的设置文件.(我用到的设置一下基础参数,比如加个文件头,设置一个编码)
file_one/spiders/: 放置spider代码的目录. (放爬虫的地方)

你可能感兴趣的:(爬虫)