提供一个python的pyspider爬虫docker镜像,方便学习部署

最近公司要搞爬虫的项目,本来我打算用python的Scrapy框架来搞,手上也有Scrapy的一些资料-------但领导让用一个叫pyspider的框架,因为他很多年前用过,一查这个是国人写的框架,但github上2年都没有更新了,而且fork数量挺高的3.6k,感觉不靠谱,但领导说...让用;那就搞吧


但开始搞之后遇到一些问题,仅仅让这东西运行起来都浪费了很多时间;这个项目要求Python环境必须是3.6版本的.现在苹果macOS已经装不上Python3.6了,起码我的M1版本环境这废了很大的劲,最终决定用docker搞吧
顺便以后方便迁移部署
具体遇到的坑就不赘述了


正题

使用步骤

  1. 拉取镜像:
    https://hub.docker.com/repository/docker/dh68/pyspider
    docker push dh68/pyspider:0.0.1

  2. 运行镜像:

docker run -d -p 5001:5000 --name spider dh68/pyspider:0.0.1 pyspider

如果 要持久化存储数据 -v 挂载一个本地路径

docker run -d -p 5001:5000 --name spider -v /Users/zkfc-dh/Documents/spider_data:/pycthon_projects/ dh68/pyspider:0.0.1 pyspider

mac系统不能用5000端口了,已经被系统AirPlay占用,其他系统可以把5001改回5000

  1. 浏览器打开

http://localhost:5001/

image.png

点击'Create'创建项目,创建修改列表列'Status'改为'RUNNING'
然后点击actions的 RUN运行.

image.png
  1. 点上面的run开始调试
  2. 此时下面发follows会出现①提示,点follows
  3. 点三角形 运行按钮逐步调试


    image.png
image.png

具体使用教程可以参考:

https://github.com/binux/pyspider

http://docs.pyspider.org/en/latest/#pyspider


镜像说明:
镜像中已装好 PhantomJS.方便更深入的使用探索

已装好网络库有:
flask==1.0.2
requests==2.26.0
方便自己的服务调取
Request文档直达

你可能感兴趣的:(提供一个python的pyspider爬虫docker镜像,方便学习部署)