爬虫框架scrapy的安装使用

一、安装scrapy

1、首先,更新pip :python -m pip install --upgrade pip
2、安装wheel(建议网络安装,即直接在终端用pip安装)
3、安装lxml(下载安装lfd)
4、安装Twisted(下载安装,注意选择对应python版本和系统位数,cp代表python版本)
5、安装scrapy:pip install scrapy或者pip install scrapy==1.1.0rc3(指定scrapy版本)
6、下载pywin32并配置(不强制,但是不安装的话有可能在创建项目的时候出错),安装好了之后在python的安装目录下D:\Python\Python36\Lib\site-packages\pywin32_system32下的两个文件拷贝到C:\Windows\System32

二、scrapy的使用

scrapy一般通过指令管理项目
1、scrapy常用的指令
scrapy startproject file 即可创建一个tutorial爬虫项目
scrapy genspider -l 查看爬虫模板
scrapy genspider -t 模板 爬虫项目文件名 域名 创建爬虫
scrapy crawl 运行爬虫
scrapy list 查看有哪些爬虫

2、创建项目
scrapy startproject fisrt
shift-右键-在此处打开命令窗口
1)、项目文件介绍
items.py:相当一个容器,定义爬取目标,比如定义标题、内容
pipelines.py:主要用于爬后处理,用于数据的处理、存储等
middlewares.py:中间件
settings.py:全局配置
spiders文件:存放爬虫文件

3、创建爬虫
在项目目录下输入指令
scrapy genspider -t basic fst baidu.com

1)、在items.py 文件中定义容器,例如:
title = scrapy.Field()
2)、在settings.py中配置,搜索ITEM_PIPELINES,去掉注释,将ali_first.pipelines.xxxxxx改成对应的pipeline,还可以在该文件修改浏览器等等。
3)、在pipelines.py的def process_item(self, item, spider):中对爬取的数据处理
写好代码后,就可以愉快的操作啦

你可能感兴趣的:(python)