scrapy分布式爬虫部署

来自包子的傲娇

  1. 下载scrapy_redis模块包
  2. 打开自己的爬虫项目,找到settings文件,配置scrapy项目使用的调度器及过滤器
    scrapy分布式爬虫部署_第1张图片
    scrapy分布式爬虫部署_第2张图片
    3:修改自己的爬虫文件
    scrapy分布式爬虫部署_第3张图片
    4:.如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接

scrapy分布式爬虫部署_第4张图片
scrapy分布式爬虫部署_第5张图片
5:配置远程连接的MySQL及redis地址
scrapy分布式爬虫部署_第6张图片

6:上面的工作做完以后,开启我们的redis服务器
1:下载网址: https://github.com/MicrosoftArchive/redis/releases
scrapy分布式爬虫部署_第7张图片
等待下载完成
2:下载完成后进入到redis文件下打开我们的cmd窗口:输入:redis-server redis.windows.conf
scrapy分布式爬虫部署_第8张图片
出现上图效果说明安装成功
出现错误:# Creating Server TCP listening socket 127.0.0.1:6379: bind: No error
解决方法:在命令行中运行
redis-cli
127.0.0.1:6379>shutdown
not connected>exit
然后重新运行redis-server redis.windows.conf,启动成功!

7:修改redis.windows.conf配置文件,修改内容如下:

# 配置远程IP地址,供其他的电脑进行连接redis
bind: (当前电脑IP) (192.168.40.217)

# 关闭redis保护模式
protected-mode: no

scrapy分布式爬虫部署_第9张图片
scrapy分布式爬虫部署_第10张图片
scrapy分布式爬虫部署_第11张图片
8:所有爬虫都启动之后,部署redis-server服务的电脑再打开一个命令窗口,输入redis-cli.exe -h 127.0.0.1(如果是自己的ip改成自己的IP地址) -p 6379连上服务端

9:连上之后会有127.0.0.1:6379>这样的字样提示,然后输入如下命令

10:lpush 爬虫文件里面自己定义的爬虫名字:start_urls 爬虫的网址

12:数据写不进去数据库里面:
修改MySQL的my.ini文件,以MySQL8为例
路径在C:\ProgramData\MySQL\MySQL Server 8.0
找到sql-mode="STRICT_TRANS_TABLES,NO_ENGINE_SUBSTITUTION"这一行
把里面的STRICT_TRANS_TABLES,删除,逗号也删除,保存文件
修改过之后需要重启mysql服务
在windows命令窗口中使用net stop mysql80先停止服务,再使用net start mysql80启动服务
如果my.ini文件不修改,爬虫的数据写入不了数据库

你可能感兴趣的:(scrapy分布式爬虫部署)