python使用Scrapy框架进行爬虫编程

技术QQ交流群:294088839

文档地址 :http://scrapy-chs.readthedocs.io

1.首先要安装 Scrapy框架 

 pip install scrapy 进行框架安装

# 在没有 Scrapy的时候,我们怎么做数据抓取的
# urllib和requests 多线程和协程提高速度 等

# 什么是Scrapy ?
# Scrapy 是一套基于Twisted的异步处理框架 是纯python实现爬虫框架 用户只需要定制开发模块就可以轻松的实现一个爬虫

# 用来抓取网页内容或者图片


2.mongodb安装  

3.mongodb的管理工具 

Studio 3T

4.新建Scrapy项目 

 首先生成一个Scrapy框架 

你想把框架生成到哪个文件下  就  cd 到那个目录下 

然后进行 框架安装 

命令:scrapy startproject 项目名称

生成写正则的文件 首先要切换到spiders目录下 

命令: scrapy genspider 文件名 你要采集的网址

数据储存命令:scrapy crawl 文件名 -o test.csv/test.json

然后就可以在你生成的文件中进行编写

python使用Scrapy框架进行爬虫编程_第1张图片

python使用Scrapy框架进行爬虫编程_第2张图片


python使用Scrapy框架进行爬虫编程_第3张图片

python使用Scrapy框架进行爬虫编程_第4张图片

python使用Scrapy框架进行爬虫编程_第5张图片

python使用Scrapy框架进行爬虫编程_第6张图片

python使用Scrapy框架进行爬虫编程_第7张图片

python使用Scrapy框架进行爬虫编程_第8张图片

python使用Scrapy框架进行爬虫编程_第9张图片

python使用Scrapy框架进行爬虫编程_第10张图片

python使用Scrapy框架进行爬虫编程_第11张图片

创建一个main文件 然后运行 就会爬到此网站的所有信息

python使用Scrapy框架进行爬虫编程_第12张图片

你可能感兴趣的:(python)