需要安装的库比较多,可以按照步骤,参看上图理解
scrapy: https://github.com/scrapy/scrapy
scrapyd: https://github.com/scrapy/scrapyd
scrapyd-client: https://github.com/scrapy/scrapyd-client
SpiderKeeper: https://github.com/DormyMo/SpiderKeeper
安装
pip install scrapy scrapyd scrapyd-client spiderkeeper
$ scrapyd
测试地址:http://localhost:6800/
关于scrapyd的部署安装参考:scrapy部署之scrapyd
借用 SpiderKeeper 的 github 的指导(我翻译的):
命令行启动
$ spiderkeeper
选项:
spiderkeeper [options]
Options:
-h, --help 展示帮助信息并且退出
--host=HOST host, 默认:0.0.0.0
--port=PORT port, 默认:5000
--username=USERNAME 设置用户名 ,默认: admin
--password=PASSWORD 设置密码 ,默认: admin
--type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd
--server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800']
--database-url=DATABASE_URL
SpiderKeeper 数据库,默认: sqlite:////home/souche/SpiderKeeper.db
--no-auth 不进行验证
-v, --verbose 日志级别
SpiderKeeper可视化地址: http://localhost:5000
1、创建项目
2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)
$ scrapyd-deploy --build-egg output.egg
3、上传 egg 文件 (确保已经启动 scrapyd 服务)
4、 完成!开始享受吧
看着比较多,其实就是执行了四行语句:
如果提示端口占用就参考这个文章解决:
flask的端口占用问题