Scrapy-redis爬虫操作流程

1.打开cmd命令行工具,输入scrapy startproject 项目名称

2.使用pycharm打开项目,查看项目目录

3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy genspider 爬虫文件名 爬虫基础域名

4.打开pycharm,发现spiders目录下多出一个py文件

5修改这个py文件的url为你想爬去页面的url

6.运行爬虫scrapy crawl py文件名(提示被反爬)

7开始模拟请求

    7.1在你要爬取的当前页面按F12  >  点击Network  >  点击左侧红色框含cookie的文件(一般第一个)  >  复制Request Headers中所有参数(含cookie)

    7.2修改settings.py下图三个参数(CTRL + F找),把复制的请求头已字典格式放入DEFAULT_REQUEST_HEADERS(可能要对参数进行删减,也可能就一个参数user-agent足以)

    7.3运行命令scrapy crawl py文件名        我的文件名是userinfor

    就看到了当前网页的数据,直到显示      INFO: Spider closed (finished)      结束

6.将爬虫拿到的数据保存为json格式数据

Scrapy crawl bole -o XXX.json

你可能感兴趣的:(Scrapy-redis爬虫操作流程)