现在,Docker技术正如狂风暴雨般改变着我们的基础设施架构。在腾讯,我们构建了大规模的容器云平台,其上运行了不同的应用,如广告推荐,消息推送等。其中也包括了像机器学习模型训练这类任务,这类任务包含很多的子任务(可能数百甚至上千个),当部署这种包含很多容器的任务时,会同时从Docker Registry 拉取(Pull)镜像,这种高并发的拉取操作,很容易耗尽Docker Registry的网络资源,这时,Docker Registry的网络出带宽就成了整个部署任务的瓶颈。一旦Docker Registry变的不可用,整个容器平台的可用性也随之降低,甚至导致级联失效(Cascading Failure)。我们虽然水平扩展了Registry,在一定程度解决了高并发问题,但是这种并不优雅的水平扩展方法治标不治本。原因是:多个Registry必须保证后端的数据一致性,所以它们访问的是同一个存储系统(如HDFS,Ceph)这样的话,后端存储的出带宽又成了新的瓶颈,而且随着业务的增长,需要继续水平扩展Registry……陷入一种令人头疼的循环。
作为一个晚期强迫症加空想社会主义型鹅厂程序鹅(滑稽),怎么可以不幻想一下这个问题的理想型解决方案是什么呢?于是在小本本上列下了几个目标:
减少大规模部署任务的镜像分发时间,哦对了,这里需要定义一下“分发时间(Distribution Time)“:在一次部署任务中,所有的节点Pull镜像所用的平均时间。这样的定义可以体现出我们的解决方法对分发任务整体的性能提升。
减少Docker Registry的网络开销。
避免侵入现有Docker Engine的代码。若改了代码,意味着要想享用我们的系统,必须升级成我们的Docker,估计那时候运维小哥的菜刀已经架到我脖子上了……
总之一句话,新的方法需要“少吃饭,多干活“!听起来好像不太符合热力学第二定律?
幻想了一通,还是要回归现实的,看了下Registry和部署任务的样子,大概是这样:
部署任务的pull命令几乎是同时到达Registry,然后Registry把同一个镜像发给N个节点,Registry的出流量就是ImageSize*N。说白了就是下载东西嘛,我想让它下得更快一点,突然想起了以前用BT下载电影(强调一下,是正经电影!),下的那么快,而且号称人越多越快!两者场景很像嘛,那是不是可以把BT和Docker镜像分发结合?BT协议(BitTorrent)是一种广泛使用的P2P协议,下载同一资源的BT Node之间的相互发现靠的是一种叫BT Tracker的服务器,发现彼此后,他俩可以互通有无,从而实现下载加速。这是BT的基本原理。
那么使用BT来分发Docker镜像,大概是这样:
图2 使用BT进行镜像分发
然后我们提出了FID(Faster Image Distribution),下图是FID的系统架构。
图中大体可以分为两部分:
Storage和P2P Registry
FID Agent和Docker
这一部分运行在每个Docker节点上(图中灰色虚线框表示),为了不侵入Docker的源代码,我们开发了额外的FID Agent负责BT下载,下载后再把数据导入Docker,这里的“导入“有2种方式,会在下文详细叙述。
图4 P2P Registry中的镜像存储结构
众所周知,Docker镜像具有多层的结构。相应地,在Registry里每个层的所有数据被压缩存储在一个静态文件里,称为Blob。实际上,Docker拉取镜像的过程就是从Registry下载一个镜像对应的Blob,然后把Blob“链接“起来,形成镜像。为了结合BT,镜像在P2P Registry中的存储结构如图5所示。P2P Registry为每个Blob生成对应的种子文件(Torrent File)。然后FID Agent从P2P Registry获得种子文件,就可以下载对应的Blob了。
FID Agent的工作模式
1、Load模式
Docker有个接口——Load,用户可以通过“docker load“命令将镜像Load到Docker里,FID Agent通过Load的方式把镜像数据导入到Docker,我们称之为Load模式。我们发现了两个类似于这种模式的相关工作:Docket[2]和VMware Harbor[3]。在FID Agent的Load模式下,拉取镜像主要有四个步骤。
用户执行“fid-agent pull image-foo“命令
FID Agent把对应的Blob以BT的方式下载下来
待所有Blob下载完成后,把所有的Blob打包到一个tar包中调用Docker的Load接口,完成镜像导入。
2、Proxy模式
在Proxy模式中,FID Agent以Docker Engine的一个http代理服务器运行。FID Agent截获那些下载Blob的http请求,然后使用P2P方式下载相关的Blob。最后把下载到的数据写到截获的http请求的返回里。Proxy模式更加轻量级,而且对于不同的Docker版本,都有很强的兼容性。Proxy模式的运行过程如下图所示,每个Layer的下载和导入过程相互独立。
图7 Proxy模式示意图
为了评价FID的性能,我们设计了两个实验:第一个实验对比了仅在一个节点上的Load Mode,Proxy Mode和Docker原生方案Pull镜像的性能对比。该实验的目的是分析P2P带来的额外开销。使用的镜像我我们自己构造的确定大小和层数的镜像。第二个实验,我们在200台物理节点上部署了FID,选择了4个常用的镜像来做测试。
实验一
实验1的结果如图4所示,单节点条件下,Docker原生的Pull最快。我们认为,Proxy模式比Docker原生慢的原因有两点:1. Registry必须等到Blob数据全部从后端完全取出后,才能对外提供BT上传服务,在此期间,FID Agent只能等待。2. P2P会带来额外的网络开销,而原生的Pull是通过http下载数据,没有额外的网络开销,由此产生了性能差异。为了减少这种性能差异,我们做了相应的优化。
具体的优化方法是:我们优化了从后台取数据和提供BT数据上传(Seeding),使得P2P Registry可以一边从后台取数据,一边Seeding。在BT协议中,一个文件被分成很多块(Block),块是BT传输中的最小单位。如果一个BT Node向P2P Registry请求的block尚未从后端取出,那这个请求就会一直等待,直到P2P Registry得到这个Block。下面的动图显示了优化后的BT下载,为了简化描述,我们假设Block下载并发量为1。P2P Registry从后端读取数据的顺序是顺序的(1,2,3,4,5,6),而BT下载是随机的(为了让下载尽快开始,我们采用局部随机的策略)。而最后返回给Docker的数据必须是顺序的。从图中可以看出,在P2P Registry拿到Block3之前,FID Agent的Block3请求一直处于等待状态,而FID Agent下载完Block1以后,才把数据返回给Docker。
优化后效果显著,再次测试,数据如图5所示,可以看出,Proxy模式已经很接近Docker原生的没有额外网络开销的pull了。
实验二,大规模测试
由于Proxy模式的性能优于Load模式,在随后的大规模测试与实际生产环境中,均使用Proxy模式。
从实验数据可以看出,相比于Docker原生的镜像分发方案(图中标记为docker-native)和相关工作Docket(图中标记为Docket),FID的性能是很好的,随着部署任务所涉及的节点数量增加,FID的镜像分发时间并没有显著的线性提升,几乎不受节点数量增加的影响。而Docker原生方案,分发时间的增长就很显著了。从CDF图可以看出,位于长尾的数据点并不多。向200个节点分发hadoop镜像(500M)时,Docker原生方案需要500秒,而FID只需要43秒,FID把分发时间降低了91.35%!
图12 不同并发量下的镜像分发时间,对比了FID与Docker原生分发机制、Docket。右边为对应的CDF
在实验二中,我们统计了所有的P2P流量,在Docker原生分发方案中,传输镜像所涉及的全部流量都需要由Registry承担,在图8中被标记为绿色。使用P2P以后,P2P各个节点间会承担一部分流量(在图中标注为蓝色),通过对P2P日志的分析,我们统计出源自P2P Registry与源自FID Agent的流量占比。统计显示源自FID Agent的流量均达到了90%以上,这意味着我们的改进为Registry节省了90%的流量!
为了加速大规模容器部署任务的执行,我们设计和开发了FID(Faster Image Distribution)。FID具有更快的速度,向200个节点分发500M的镜像比Docker原生方式的分发时间降低了91%;Registry所在节点具有更低的网络流量,实验数据表明采用FID后,Registry的出流量降低了90%以上;对用户友好,部署FID,只需在每台节点安装FID Agent,然后把Docker Engine的http代理设为FID Agent,上层系统如Kubernets,无需修改任何代码与逻辑,即可享受P2P加速。
致谢
感谢北大与腾讯的同事,他们的建设性意见对本工作帮助很大,实验涉及的物理机,均由腾讯云提供,感谢AMLSC的committees和reviewers,他们的建议让本工作变的更好!
参考文献
[1]“Docker Distribution”https://github.com/docker/distribution
[2]“Docket” https://github.com/netvarun/docket[3]“用P2P方法快速分发Docker镜像” https://t.goodrain.com/t/p2p-docker/135[4] KangjinW, Yong Y, Ying L, et al. FID: A Faster Image Distribution System for DockerPlatform[C]//Foundations and Applications of Self* Systems (FAS* W), 2017 IEEE2nd International Workshops on. IEEE, 2017: 191-198.
本次培训内容包含:Kubernetes架构、Kubernetes安装、Kubernetes功能导览、监控解决方案、Kubernetes高阶——设计和实现、Kubernetes落地实践等,点击识别下方二维码加微信好友了解具体培训内容。