数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容

国内的容器创业公司各具特色,数人云看中的是用Mesos和Docker改变企业级市场。在日前的媒体沟通会上,数人云创始人&CEO王璞和数人云CTO肖德时介绍了数人云的目标以及技术选择、商业路径。

数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第1张图片

数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第2张图片
通过轻量级PaaS将应用弹性做到极致,这是数人云的口号,其PaaS产品数人云DCOS基于开源的Mesos和Docker打造,2015年11月上线第一版,目前已经可以支持1000台云主机5万容器的规模,服务于金融、电信等行业的企业级客户。

技术选择

CSDN的老读者都知道数人云钟情于Mesos与Docker的组合,王璞曾经在《程序员》杂志上撰文介绍数人云基于Mesos和Docker的分布式计算平台,如何解决容错、调度、通信等问题,满足其HA、可扩展性等需求。

王璞认为,云计算的弹性分别对应IaaS、PaaS、SaaS提供的资源弹性、应用弹性和服务弹性,只有资源弹性而无应用弹性,传统基于Java的中间件技术,或者基于OpenStack搭建的PaaS,对于互联网相关业务的支撑不够友好,新业务上线仍然需要一个较长的周期。Mesos和Docker技术的出现,分布式框架下,各种应用封装在Docker容器里,实现轻量级的PaaS,从而实现应用弹性。

应用弹性的两层含义:

  1. 能够支持业务应用快速迭代,灵活敏捷地应对复杂的业务需求,提升企业业务能力,相关的场景如说敏捷开发、微创新、DevOps、交付时间、交付质量等。

  2. 支撑业务规模快速扩张,以一套应用构架支撑业务规模十倍增长,避免频繁重构。如秒杀、抢购、红包、抽奖等等都是规模比较大的业务场景。相关的参数如每秒系统能够处理的请求数、系统延迟等,体现了系统的处理能力。

Docker技术很轻量,可移植性很好;Mesos支持大数据、存储等各种各样常见的分布式平台、应用,有很好的可扩展性。用Mesos和Docker来打造数人云DCOS,就兼具了可移植性和可扩展性,这两个特性为数人云DCOS带来了很好的轻量的特性,最重要的是带来应用的弹性。

数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第3张图片

数人云DCOS的压测验证了这种应用弹性:用LOCUST模拟出来每秒钟50万用户的并发请求,99%的请求在大概510毫秒之内就得到了系统的响应(大概每秒钟处理大概45万的请求);模拟出来每秒钟100万个用户的并发请求,则99%的请求在780毫秒之内得到了系统的响应(大概每秒钟处理84万的请求)。
数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第4张图片

Mesos在开源生态圈颇具影响,微软也是对其青眼有加,不过Google、RedHat及部分容器创业公司力推的Kubernetes同样有声有色,另外,一些团队也在探索Swarm和Mesos集成,数人云是否需要整合一些Mesos所不具备的特性?肖德时表示,数人云更看重的是根据企业的应用场景来解决问题,Mesos已经被苹果、Twitter验证为成熟的、稳定的、能被企业落地的技术,是企业级Docker实践的最佳选择。

同时,肖德时认为,以后会有更加标准化的容器技术,而不仅仅是Docker一家,2017~2018年,可能会出现新的软件交付的工具,类似于现在的Docker,数人云DCOS在整个生态圈更完善之后,会探索更多的相关工具。

产品定位

数人云DCOS的主要特性包括:

  • 生产级别容器环境
  • 应用动态扩容
  • 灰度发布
  • 提供监控、报警
  • 日志收集
  • CI/CD
  • 镜像管理

相对于传统PaaS,数人云DCOS具有如下优势:

  • 企业级混合容器集群管理
  • 支持节点规模超过万台
  • 支持大数据、机器学习能力
  • 支持混合云部署能力

作为一个轻量级的PaaS,数人云DCOS也包容了以前传统PaaS的特性,在发布轻量级PaaS的时候,又把新技术融合进去形成了一张网的结构。

王璞强调,数人云DCOS轻量级PaaS服务聚焦在金融和电信运营商这些传统企业领域,为这些企业的互联网业务提供技术服务。产品和互联网公司侧重点不一样,互联网公司更多的要求有很多功能点,如各种各样持续发布、监控报警等,传统客户可能在规模方面的需求没有互联网公司那么大,但是对于稳定性要求极高。

稳定性的保证就是高并发的压测,在很极端的情况下看系统的稳定性。

为何不以电商切入点?肖德时解释:

  1. 现在电商都已经很壮大,阿里云也提供了完整的生态,数人云如果加入竞争,也提供不了更多的优势。

  2. 电商通常基于互联网架构,不是数人云的目标客户。而中国市场更加传统的金融、运营商企业迫切需要Docker等技术改造其现有架构在互联网业务上的瓶颈,包括实现稳定的高并发、标准化、横向扩展等。

肖德时介绍了两个业务场景。

金融:用户希望在自己传统业务的基础之上做一个信用卡送礼券的活动,可以通过云端安全接入数人云,把秒杀应用放在数人云上,快速构建一个池子。他在用这种传统的业务逻辑,把排队服务、业务逻辑都给部署起来。就可以轻松自如的去解决真正的业务问题。真正的中奖的环节跟原有的架构都是一样的,唯独不一样的,就是在秒杀应用模块是一个集群的结构,用数人云可以快速的构建。对于监控,对于管理这些业务,数人云本身也提供接口,可以通过自由的组合来编制自己的业务常态。

数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第5张图片

电信运营商:在现有的云管理平台的基础之上改造云平台。首先,他们自己的运营平台,运营门户、资源管理这些流程管理,部署自动化,这些模块都是他们必有的东西,但是对于PaaS这一块,他们其实需要的是弹性计算的平台,支撑它的业务模型。数人云可以帮他把这个环境初始化,在这个基础之上他们专注于自己的业务形态,比如说中间件,大数据平台,或者是数据本身的分析平台都是可以在这个PaaS平台上进行支撑。
数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第6张图片

商业模式

数人云的商业模式,是在一个新的技术生态圈引领IT 技术风潮——这个生态圈是通过Docker引爆的轻量级PaaS技术生态圈,有可能会出现新的巨头,尤其是在国内,数人云正是朝着这个方向努力。

王璞认为,数人云的核心优势有两点:

  1. 技术优势,数人云能够跟主流的开源社区保持同步,为开源社区大量贡献代码。比如肖德时本人就是Docker和Mesos社区代码贡献者。

  2. 市场布局优势,数人云是国内最早一批推广轻量级PaaS技术的创业公司,也引领了这些新技术在企业级的应用。

他还表示,数人云DCOS产品有很强的融合性,愿意跟各种各样公有云、私有云厂商、ISV、科研机构合作,把产品一起推到客户面前形成一个整体解决方案。

发展挑战

王璞认为,Docker技术在传统企业市场的使用目前还是处在用户教育期,但这并不是很大的挑战,在中国转型互联网+的当下,用户改变现有IT架构的需求很旺盛。

技术挑战,譬如不同IaaS平台资源的互通,以适应性很强的Docker为交付件,以标准API对接,A云上的Docker镜像,拿下来放到B云上仍然可以运行,对性能和资源利用率基本没有负向的影响。

但网络的挑战仍然很大。其实现在不同IaaS厂商的网络已经可以连接起来,但是因为各家的的网络、安全限制有很多都不一样,数人云还需要做把线上线下标准化,这个背景下的SDN还需要更多的时间来探索(目前采用类似Calico的SDN)。

另外,对于金融、电信用户来说,DCOS怎么跟已有的系统做到无缝的整合,让客户的使用习惯没有太大的挑战,同时还能保证很好的稳定性,这也是一个很大的挑战。

对于与大公司的竞争,肖德时认为,未来企业的竞争一定是细分的,创业公司和大公司之间在技术上的壁垒并不是很大,虽然大公司资金雄厚,但他们的战略目标比较多,而初创公司专注在一个点上,各有优势,初创公司在市场上还是有自己的空间和快速成长的机会。

未来计划

肖德时介绍了数人云DCOS的路线图,今后三年主要集中在容器镜像市场、集群规模、多云热迁移、机器学习等能力。
数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容_第7张图片

  • 在2015年的11月份发布的时候,数人云已经管理了1000台云主机,上面有5万台容器应用,每一个应用都用容器包着。

  • 2016年,数人云会上线针对企业堆栈的应用市场,帮助把企业常见的应用放在市场里面,企业安装了数人云之后就可以自己部署安装

  • 2017年,希望能支持到10万个云主机的规模。接下来会做热迁移,也就是说所有的应用都可以在云端,比如说阿里云自然地迁到腾讯云,腾讯云的机器也可以搬到阿里云,应该是这种无痛的迁移,这个过程中数人云要做的事情,就是做热迁移,帮助把客户的数据都进行托管。

  • 2018年,希望借助于高新技术的背景(王璞本人在机器学习领域的积累),把这种自动扩容、自动管理主机的技术,也就是机器学习的概念融入到轻量级PaaS里面,帮助客户专注于自己的应用,而不是在部署、发布这些一次性的工作上面。也就是说,数人云会做一个能够自动伸缩、自动管理、自动维护的这样一种管理系统。这是一个最终的目标。

现在是国内的不同公有云之间的机器都是割裂的。如果要做到这一点,需要用集群的系统操作,所以数人云会在接下来的过程当中,会把所有的云厂商的主机,都希望通过轻量级PaaS的概念,把它融成一张天网。客户真正关心的是把它的应用搬到云上,它就不用操心这些每家的接入,通过标准组建也就是容器的概念分发到容器集群里。

对于机器学习在资源调度上的应用,肖德时表示,业务量小的时候,一个非常固定的规则是可以解决这个问题的,但随着规模不断扩大,如何能把所有的资源全部利用起来,就需要机器学习的探索。

融资状况

目前,数人云已经完成3000万人民币的A轮融资,由云启创投领投,策源、唯猎和两家知名IT厂商跟投。投资方认为,数人云DCOS能够解决企业云计算在部署、稳定、扩容等方面的诸多痛点。投资方最后还透露,数人云的A+轮最后已经确定。王璞表示,融资主要用于人才和研发两方面的投入。

你可能感兴趣的:(数人云DCOS:坚持Mesos+Docker,图谋10万主机集群与机器学习扩容)