「Gerapy 爬虫管理框架」分布式爬虫管理框架 linux 部署踩坑实录

文章目录

  • 内容介绍
  • 部署管理

内容介绍

开发环境为 Python3.6,Gerapy 版本 0.9.x ,爬虫项目全部内容索引目录

看懂Python爬虫框架,所见即所得一切皆有可能

本章带你学习基于 Python3Gerapy 爬虫框架 Linux服务器部署教程错误解决方案汇总。

部署管理

  • 1.项目管理
1. 直接把写好的scrapy项目仍到gerapy的project文件夹下就自动显示了。
2. 确保该scrapy项目每个spider文件能单独执行。
  • 2.任务管理
1. 创建任务 包括名称(自定义)、项目(需要和项目管理一致)、爬虫(单独spider文件)。
2. 执行任务:主机 + 调度方式 + 运行时间 + 时区,大陆选择Asia/Hong_Kong。
  • 3.云服务器部署(此处有些坑)
  1. 需要安装和初始化同单机。
  2. 需要启动服务两项gerapy和scrapyd 。

错误 -bash: scrapyd: 未找到命令 需要创建软连接或直接找到文件启动

ln -s /usr/local/python3/bin/gerapy  /usr/bin/gerapy

错误 bash: scrapyd: command not found 需要创建软连接或直接找到文件启动

/usr/local/python3/bin/scrapyd

错误 bash: scrapy: command not found 需要创建软连接

ln -s /usr/local/python3/bin/scrapy /usr/bin/scrapy

找不到软连接的目录使用查找

find / -name scrapy

你可能感兴趣的:(Python,爬虫基础和项目管理,python,linux,django,gerapy,爬虫管理)