喜欢就关注我们吧!
JAVAandPython君
原创不易 欢迎转发
没看第一篇文章的朋友,点这里 Python爬虫| 不会分布式爬虫?带你一步一步写!
大家都知道在性能方面,Linux系统是远远优于Windows系统的,所以我们整个分布式爬虫的部署也是在Linux的子系统centos上,所以大家都要有一定的Linux基础。
因为我们使用到Docker技术,所以第一步就是要在我们的服务器上安装上Docker:
安装Docker的指令:
yum -y install docker
大家静静等待一下就可以安装成功了
安装成功之后,我给大家简单介绍一下Docker的相关基础,主要有Docker的启动、Docker镜像搜索、Docker镜像下载、Docker容器的创建、Docker容器的查看、Docker容器的命名、Docker容器的启动这几个方面。
对于我们只需要写分布式爬虫,学习这几个基础就差不多了,总体来说并不困难,也就那几句Linux命令。
Docker的启动和停止
Docker的启动:
systemctl start docker
Docker的停止:
systemctl stop docker
我们可以通过docker -v来验证我们是否启用成功
Docker的镜像搜索和下载
首先,我来给大家简单介绍镜像这个东西,镜像其实有点类似于压缩包,它也是把多个文件压缩到另一个文件当中,只不过后缀名不是我们熟知的zip,rar。很多人可能听说过windows镜像,其实就是一个意思。
我们使用Docker技术来进行虚拟化容器,我们就得向每个容器里面安装镜像,例如可以安装Ubuntu镜像,Linux镜像,centos镜像等等。镜像我们是不能去改变它本身的内容,但是我们能向容器中安装不同的镜像。
Docker的虚拟化容器技术就会给我们带来轻部署、省成本、部署迁移方便的各种优势。
简单介绍了一下镜像,接下来我们正式来学一学镜像搜索
镜像搜索:
docker search 关键字
这里说明一下这个关键字,比如我们想搜索python有关的镜像,我们就可以
docker search python
如果我们想搜索ubantu有关的镜像,我们就可以:
docker search ubantu
搜索之后,我们就会看到有很多的搜索结果出来了
我们要怎么去下载这些镜像呢?、
docker pull NAME
这个NAME就是在我们搜索之后可以看见的,例如我想下载第一个ubantu:
docker pull docker.io/ubuntu
我们整个教程也是下载的第一个Ubuntu。
下载完之后,我们如何查看我们已经下载好的镜像?
docker images
上图就可以看到我们已经下载的Ubuntu镜像,里面的TAG表示的是我们下载的版本。
Docker容器的创建和查看
我们把镜像下载好了,接下来就可以用镜像来装我们的容器
docker run -tid 3556
这里的“3556”就是我们Ubuntu的IMAGE ID的前4位,我们直接通过前4位就可识别到是这个镜像。
创建完容器,我们怎么去查看它?
docker ps -a
Docker进入容器及不停止退出
创建完容器,我们可以进去玩一玩,怎么进呢?
docker attach container id
啥意思呢?大家可以看到上图,里面有一个container id列,我们直接选取其前四位,例如我现在要进入Ubuntu的容器:
docker attach cea2
可以看到我们成功的进入到cea2的容器中,这就相当于另外一台服务器。
当我们进入之后,我们肯定是需要退出的,但是我们这个容器中可能是有爬虫在运行的,那么我们该如何不停止这个容器运行又完美退出呢?我们可以同时按ctrl+P+Q 三个按键来进行不停止退出。
Docker容器的命名
从上图中可以看到最右边,我们容器也是有名字的,但是系统是随机生成的,我们怎样去创建一个自己设定名字的容器?
docker run -tid --name javaandpython 3556
运行之后就是上面的效果!
Docker的启动停止的容器
当我们想去启动一个停止的容器时,要怎样操作?
docker start id
这里的id同样是取前四位字母,我这里就不演示了。
根据已有的容器封装成镜像
当我们创建一个容器时,我们会在容器内搭建好整个爬虫运行的环境,但是我们需要创建很多这种容器(子节点),我们不可能每个容器都去搭建一遍,所以接下来教大家如何把我们已经搭建好的环境进行封装成镜像,然后直接使用该镜像去创建容器即可。
docker commit 471c mytest:v1
这里做个简单的解释,471c是已有容器的id,mytest是我们封装成镜像的名称,冒号后面的v1则是镜像的版本名。
显示这个就表明创建成功,我们再去查看一下镜像列表
可以看到列表中多了一个mytest,也就是我们封装的镜像。
Docker网络配置基础
之前给大家介绍过我们整个分布式的难点就是容器之间的通信,上面所写的知识可以帮助我们去创建容器,但是每个容器都是一个独立的个体,我们怎样去使其相互连通呢?
我们首先创建一个子节点容器,名字命名为h1
docker run -tid --name h1 mytest:v1
然后我们再创建一个容器,让这个容器和h1进行通信:
docker run -tid --name h2 --link h1 5953
我们该如何知道他们之间就相互通信了呢?
大家可以看图,我们首先进入h2的容器中,然后输入 cat /etc/hosts
可以看到有 172.18.0.4 是h1的ip地址,我们可以通过ping这个网址来判断是否真正通信成功
可以看到我们通信是成功的!
写了很多,大家一次性可能不能完全消化,但是大家最好收藏起来,忘记哪个命令的时候可以进行查看,如果文章里面有错误,可以私聊我,我会及时改正。
原创不易,希望大家能够点右下角的“在看”或者转发转发,非常感谢!
赞赏就不用了,大家如果想给我加个鸡腿,可以点左下角的“阅读原文”,然后可以看看里面的内容,非常感谢!
分布式爬虫是一个系列的文章,大家持续关注!
如果有疑问,请加群交流