sealer是阿里巴巴开源的基于kuberentes的集群镜像开源技术,可以把整个集群整体打包。
sealer中集群镜像的存储和docker镜像很像,也采用了写时复制的技术来提升复用性。
本文聊一下overlay2。
写时复制
COPY on Write在很多地方都会用到,比如git的存储,去修改一个文件并非真的修改,
而是把文件拷贝出来修改,读的时候读取上层的修改层,同样比如在ceph的后段存储
等系统中都存在应用。好处是可以非常方便的进行回滚,以及存储复用,比如给虚拟机
做快照,那我们并不需要把整个系统盘复制一份,而只需要用指针指一下快照的地方就好。
容器镜像同理,写时复制可以让多个应用共享一个基础镜像。
集群镜像中的写时复制
集群镜像把整个集群打包,用写时复制的方法可以帮助分布式应用共享k8s基础镜像。
以及可以很方便的把各种分布式应用镜像进行融合。
操作系统中使用overlay2
mount -t overlay overlay -o lowerdir=./lower,upperdir=./upper,workdir=./work ./merged
overlay文件系统分为lowerdir、upperdir、merged, 对外统一展示为merged,uperdir和lower的同名文件会被upperdir覆盖
workdir必须和upperdir是mount在同一个文件系统下, 而lower不是必须的
mount -t overlay overlay -o lowerdir=/lower1:/lower2:/lower3,upperdir=/upper,workdir=/work /merged
lowerdir可以是多个目录(前面覆盖后面),如果没有upperdir,那merged是read only.
overlay只支持两层,upper文件系统通常是可写的;lower文件系统则是只读,这就表示着,当我们对 overlay 文件系统做任何的变更,都只会修改 upper 文件系统中的文件
来个实际操作:
overlay2
├── lower1
│ ├── a
│ └── b
├── lower2
│ └── a
├── merged
├── upper
│ └── c
└── work
mount -t overlay overlay -o lowerdir=lower1:lower2,upperdir=upper,workdir=work merged
以上overlay2下面的几个目录就被合并了
对只在 lower 有的文件写时,则会做一个copy_up 的操作,先从 lower将文件拷贝一份到upper,同时为文件创建一个硬链接。此时可以看到 upper 目录下生成了两个新文件,写的操作只对从lower 复制到 upper 的文件生效,而 lower 还是原文件
删除 lower 和 upper 都有的文件时,upper 的会被删除,在 upper 目录下创建一个 ‘without’ 文件,而 lower 的不会被删除
代码实现
有了上述理论基础,我们先看一段docker里面的源码
if len(mountData) > pageSize {
opts = fmt.Sprintf("lowerdir=%s,upperdir=%s,workdir=%s", string(lowers), path.Join(id, "diff"), path.Join(id, "work"))
mountData = label.FormatMountLabel(opts, mountLabel)
if len(mountData) > pageSize {
return "", fmt.Errorf("cannot mount layer, mount label too large %d", len(mountData))
}
mount = func(source string, target string, mType string, flags uintptr, label string) error {
return mountFrom(d.home, source, target, mType, flags, label)
}
mountTarget = path.Join(id, "merged")
}
if err := mount("overlay", mountTarget, "overlay", 0, mountData); err != nil {
return "", fmt.Errorf("error creating overlay mount to %s: %v", mergedDir, err)
}
mountTarget就是目标目录, mountData是: fmt.Sprintf("lowerdir=%s,upperdir=%s,workdir=%s", string(lowers), path.Join(id, "diff"), path.Join(id, "work"))
可以看到SDK的使用和命令行很像
我们可以做一个封装:
package mount
import (
"syscall"
)
func mount(device, target, mType string, flag uintptr, data string) error {
if err := syscall.Mount(device, target, mType, flag, data); err != nil {
return err
}
// If we have a bind mount or remount, remount...
if flag&syscall.MS_BIND == syscall.MS_BIND && flag&syscall.MS_RDONLY == syscall.MS_RDONLY {
return syscall.Mount(device, target, mType, flag|syscall.MS_REMOUNT, data)
}
return nil
}
func unmount(target string, flag int) error {
return syscall.Unmount(target, flag)
}
主要是syscall.Mount这个系统调用,参数基本和命令行一一对应