基于 K8S 构建数据中心操作系统

在 12 月 22 日 ECUG 的下午场，七牛云容器计算部技术总监袁晓沛为大家带来了主题为《基于 K8S 的 DCOS 之路》的精彩分享，向大家介绍了七牛容器云目前 K8S 的状况和产品思考。

同时，他在会上讲述了如何通过七牛公有云业务容器化的操作实践，组建 K8S 翻译团队，对《Kubernetes in Action》这本书进行落地的翻译。

以下是演讲内容的实录整理。

大家下午好！我是七牛云容器计算部技术总监袁晓沛，我今天想分享的是七牛云基于 K8S 的 DCOS 之路，结合一些实践经验，讲一下我们在其中做的事情和产品层面的思考。

我今天会先讲一下七牛云内部业务容器化历程，然后讲基于 K8S 的 DCOS，七牛云在做一个更强大的 K8S 发行版，它体现在三个地方：一是底层技术的稳定性。做一个更强大的 K8S，技术稳定性是用户第一时间关注的；二是功能的扩展性。如果一个系统不满足需求时，就要考虑它的扩展性怎么样，能不能基于开放性接口实现；三是易用性。K8S 是非常复杂的系统，如何保证它的运维、使用非常简便，让终端用户可以快速入门。最后，会简单介绍 K8S 周边的生态，包括上下游及应用生态，以及应用生态丰富性。

七牛云内部的容器历程

七牛云从 2014 年开始做容器，当时启动的项目叫 QCOS，它的全称是「Qiniu Cloud Operating System」。当时我们通读了 K8S 的设计草案，我们认为自己有能力做这样一个系统。然后我们从零开始自研了一套容器集群调度管理系统，这个事情做了两年。2016 年底时再回头看，发现一个容器集群调度管理系统要做的事情非常多，要包含 CPU 和内存调度（计算力调度）、网络管理、存储插件、应用相关处理(日志、监控、告警)，这是一个非常大的系统，几乎没有几个公司有能力从零开始做这件事情。当时来看，唯一的可能性是谷歌，因为他们有一套 BORG 服务内部多年，而 K8S 是由 BORG 系统设计理念演化过来的。于是我们在 2016 年底决定全面转向 K8S，而且 100% 兼容 K8S。

现在是 2018 年底，我们近两年做的是七牛云内部的 5 大业务 K8S 容器化：最早是测试系统，现在七牛云的测试已经全容器化；第二个是多媒体转码系统，也是全容器化的；第三个业务是七牛云 AI 业务，AI 有大量 GPU 机器，需要基于大量数据集做 AI 学习和训练，所以我们是基于 Kubernetes 之上做了机器学习的平台，我们为这个平台做了很多扩展功能；第四个是大数据，大数据 Spark 业务在我们的容器应用市场上，作为一个应用，让用户可以快速部署。

我们在本季度正热火朝天做一件事情，把七牛云最核心的对象存储业务搬到容器云上，这个事情已初步验证通过，正在切量过程中。到现在为止，七牛云的几大业务线都有大量应用运行在容器之上。从 2018 年下半年已经对一些外部客户输出容器产品，结合七牛云过去五年容器化经验，把我们好的技术、理念、功能打造成产品开始对外输出。

容器化带来了什么

容器化到底给我们业务带来什么？

第一点，员工开心。交付部署效率大幅提升。原本从一行代码的提交到测试再到生产的上线，可能需要几天甚至几周时间，而且上线之后可能会不稳定要回滚，基于容器技术，可以把整套过程用 CICD 和 DevOPS 理念整合到一起，一行代码提交之后，可以让这行代码变更编译成一个镜像自动跑单元测试，跑完单元测试可以跑代码静态检查，也可以加一些自定义脚本，然后集成测试，最后是 CD 持续部署，线上连接起来。发布周期可以从几天、几周到分钟级甚至秒级。这个过程中，最简单的变化是员工很开心，开发、测试、运维，都可以早点下班，不用等到凌晨四点业务低峰时发布。

第二点，用户开心。运维排错效率大幅提升。一个容器平台默认就提供了容器的监控，系统级别 CPU 和内存监控、入口级别的监控报警，甚至日志也可以自动收集起来。一个写得很一般的后端应用运行起来之后，平台都能为它提供一些基础的日志监控，如果业务做一些适配，业务级的监控也可以被收集到，这些整合起来就是全链路的日志监控和告警机制。如果线上出现问题，基于监控日志和告警，可以大幅降低从错误发现到错误解决的时间，降低 MTTR ，提高应用的可用性。应用的可用性提高了，客户受到的影响就会越来越小，本质上来讲是客户更开心了。

第三点，老板开心。因为机器资源的利用率大幅提升。在一个数据中心里可以用一个 K8S 集群来管理所有物理资源，让所有业务在一个计算资源大池子里做业务混部，然后利用率提升了，从原来不到 20% 的资源利用率，最高可以提升到 60%、70% 以上。对公司来讲，降低了企业 IT 成本。从这一点来看，没有老板会不开心。

基于 K8S 的数据中心操作系统

做了这么多事，我们收获了很多好处，然后就在思考我们本质上在做什么事情。本质上我们是在做一个数据中心操作系统。原来机房里一堆机器的管理，本质上是通过机器 IP 再加一个 SSH 端口号，无论使用什么部署工具，都是把一些应用推上去，更改配置，启动这个应用，是通过 IP 地址和 SSH 端口跟这些机器打交道。但有了容器之后，跟数据中心交互的接口完全发生了改变。我们使用编程化接口，操作和调度数据中心的 CPU 和内存，不用在意业务到底被调度到哪一台机器上，甚至可以用 API 的方式操作日志、监控、报警。所以，我们是在做一个数据中心操作系统。

K8S 已经是一个数据中心操作系统了，而我们是在做一个更强大的 K8S 发行版。

更强大的 K8S 发行版，需要具备什么呢？

我们总结了三点：第一是底层技术的稳定性，商业公司站在背后支持，保证技术是更稳定的；第二是丰富的扩展功能；第三是易用性，对于平台运维来讲是否易部署、扩容、升级，对于终端用户来讲是否容易使用，都是至关重要的。此外，一个完善的操作系统，除了自身功能之外，还需要提供必备的上下游服务和上层应用。

底层技术稳定性方面，我们每天都在迭代。这是我们近一两个月在做的事情，我们在网络模型上，etcd 分离部署，与 K8S etcd 互相不影响，使用 etcd V3 API 作为数据库，性能提升 2 倍；使用 BGP route refletor，关闭 Full Mesh，大幅提升性能。

举例说明，大家可能都不会太关注的点：KubeDNS，社区默认版本性能只有 99.5%，意味着不工作时候可能超过 3 个小时。我们做了一系列改进可以把 KubeDNS 可用性从 99.5% 提升到 99.999%，每个月不可用时间不超过 25 秒。实际上过去三个月不可用时间是 0。

有人可能会问七牛云为什么在这么小的事情上较真，做这么多事情。对容器云团队来讲，每一个组件都是这种心态做优化。因为用户打到七牛云的每一个请求，存在我们这里每一个文件，都是对我们的信任。我们对用户有一个承诺，我们要让系统尽无限可能接近 100% 的可用性。

扩展方面，系统层面针对 Nvidia GPU 监控和调度做了优化，定制调度器确保 GPU 的调度性能，开发了 K8S 集成 AlluXIO 存储插件，通过这个插件可以让 AI 训练使用 AlluXIO 缓存海量文件。第二，我们在静态本地磁盘上启动了一个新的 Kubernetes SIG，基于这个很多人可以一起贡献代码，把静态本地磁盘供给做好。在网络上基于 vlan/vxlan 实现 SDN，支持二层网络隔离。

这是基于 CLI 的日志自动收集方案。主要原因是一个容器往往需要往多个目录打日志。但按照容器标准，只能往标准输出和标准错误里打日志，这样很难收集扩展多个目录的日志。CLI 是 Container Logging Interface 的缩写，它让整个方案能够对接任何现有的日志方案，比如可以对接七牛云的 Pandora，也可以支持 ELK、Splunk。

这是日志收集方案的使用方式。

作为一个容器平台或者数据中心操作系统，很关键的一点是易用。

平台的运维很关键，很多容器产品关注的是这个产品很好用，但实际上容器平台的运维更难，因为 K8S 管理着整个数据中心，业务大了之后，K8S 平台自身的运维更重要。

第一是部署、扩容、升级的便捷性。我们的目标是 5 分钟部署一个新集群，秒级扩容一个新节点。K8S 是开源生态，开源有很多安全性问题，我们如何在升级新版本时，让当前集群上的业务不会影响，这是一个非常关键的因素。

第二是集群信息可视化，包括宿主机、系统关键组件，L7、L4 入口的监控、日志、告警。如何通过平台监控信息发现机器或者系统组件、入口层面的问题，通过平台快速定位业务问题，这都是集群可视化要做的事情。

第三是常见故障自动化处理，我们实现了一种机制，可以让故障自动探测、一键解决。

这是平台运维管理界面。

这是具有自动化运维处理机制的工具，每一台节点上都会运行这个工具，它能做到自动化探测，插件方式都是自动化探测已知现象，把这些上报到 K8S api-server，采取措施自动修复一些问题。

从用户使用层面讲易用性，我们是以项目为中心，对用户有强大的管控能力。传统项目都是先有虚拟项目再有人，然后是机器和软件。我们完全按照这样的方式管理项目，把 K8S 资源空间当做一堆资源，往项目里添加。项目里可能有项管、运维、测试、开发，每一个不同的人决策权限不一样。

然后是强大的应用编排能力，很多 K8S 平台为了追求编排的易用性而牺牲了兼容性，等用户对这个平台和 K8S 足够熟悉之后，用户可能就会要求平台和 K8S 完全兼容，意味着通过 K8S API 创建的资源必须通过平台显现出来，或者通过平台创建、编排的资源可以通过 K8S API 操作，正向和逆向都可以，所以我们产品 100% 兼容原生 K8S，并且兼容 kubectl。

最后一个是强大的镜像空间管理能力，国外镜像同步、镜像加速、私有镜像托管；C2I：基于代码、单元测试、静态检查，构建可交付镜像；镜像检查，基于一些工具检查镜像，看它里面是否有存在安全风险的东西。

以上是用户易用性上需要考虑的点。

这是用户使用产品的界面，应用编排、应用列表、应用服务编排。

一个强大的数据中心操作系统，还需要一个比较完善的周边生态。持续部署和 Kubernetes 打通，上面可以通过 HELM，右上角是 ISTIO，基于 ISTIO 做流量管理功能，比如灰度发布、熔断、链路追踪，帮我们快速发现问题。

七牛云基于 K8S 实现了常见的数据库中间件服务，包含 MySQL、MongoDB、Redis、RabbitMQ。这些运维工具本质上就是由 Operator 实现的高可用服务，支持一键部署，能做定期备份和恢复，保证数据的可靠性。本质上是把公有云的 RDS 服务搬到 K8S 上，让非公有云用户使用高质量的数据库服务，大幅度减轻 DBA 的工作负担。

这是七牛云当前在 K8S 社区的全球排名，我们排第 26 名。可能会有人问，到底有多少人在开源，我的回答是我们没有一个人专职做开源，也没有把做开源当成很刻意的事情，是在维护 K8S 的稳定性、扩展功能、提高产品可用性的过程中，贡献一些东西。因为我们受益于开源，所以这些改进，新的功能我们都尽量直接贡献到开源。但我们不做三件事情：不去改拼写错误、增加单元测试、改注释。

这是七牛容器云团队和七牛云内部一些小伙伴翻译的一本书，书的名字是《Kubernetes in Action》（中文版购买链接：item.m.jd.com/product/125… Kubernetes 上部署分布式容器应用，这本书的作者是 Marko Luksa，他是红帽 OpenShift 工程师，这本书由七牛云 CEO 老许亲自作序。翻译过程中，七牛容器云团队根据实际应用经验，把这本书翻译得尽量准确，并且通俗易懂。

Kubernetes 是希腊文，本意是舵手，带领一条船到达正确的地方，希望这本书像舵手一样，能在大家学习 K8S 的过程中带来一些帮助。

（Marko Luksa 在 ECUG Con 2018 的现场分享片段）

关注公众号：七牛云点击本文文末「阅读原文」，获取

Marko Luksa

完整版精彩演讲 DEMO！

（为保证视频及时获取，请将「提交成功」页面截图发送至公众号后台）

基于 K8S 构建数据中心操作系统

七牛云内部的容器历程

容器化带来了什么

基于 K8S 的数据中心操作系统

你可能感兴趣的:(基于 K8S 构建数据中心操作系统)