阿里龙觉谈弹性云计算

个人简介 黄湘龙(龙觉),2006年于University of Texas at Austin取得博士学位,在亚马逊工作多年,是DynamoDB产品的主要作者和创始团队成员。在DynamoDB团队中负责核心技术数据复制,自动分裂算法,以及存储引擎的研究开发。2014年7月加入阿里云计算有限公司,主要负责弹性计算的控制系统的研发。主持控制系统重构,优化,并参与了VPC,IO/CPU性能优化等项目的研发。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

1. 大家好,我现在全球架构师峰会的现场,非常高兴请来了来自于阿里的龙觉老师。龙觉老师,请先和大家打个招呼。

龙觉:大家好,我叫黄湘龙,今年7月份加入阿里云,主要负责阿里云的ECS的控制系统研发。在7月份之前,我在美国的亚马逊AWS工作,主要从事DemoDB的研发,非常高兴有这个机会跟大家交流。

   

2. 龙觉老师,你在国外的经历比较丰富,现在回到国内,在阿里从事比较重要的工作,您感觉云计算的市场,包括云计算的架构,国内、外有什么区别和不同的地方呢?

龙觉:我感觉国外的话,云计算的产品架构,由于它的历史比较长,像亚马逊,研发已经超过了10年,所以产品成熟度,产品的覆盖率,都比国内的云产品要好一些。从内部研发的角度来看,它对于云产品,分布式的架构,实践经验,经历的教训都比国内的产品要丰富一些,相对更成熟一些。

   

3. 你在阿里云负责弹性云计算的控制系统,那阿里云的控制系统到底是怎么做得,有哪些复杂性?

龙觉:我们的控制系统主要包括两方面,从外部看起来呢,它是API的入口,就是说你进来创建一些资源,或者进行一些资源操作,创造一个虚拟机,或者销毁一个虚拟机;创建一个磁盘,销毁一个磁盘,这些一系列操作都是通过控制系统来实现背后的资源调度以及资源管理的。而内部是做了一个自动运维的平台,因为它掌握了所有底层资源的信息,它可以进行全局,全集群内的,或者整个地区的资源调配、调度。从这个角度来说,其实控制系统是一个非常大的分布式系统,所以它有所有普通分布式系统所面临的挑战,比如说如何做到弹性伸缩,如何做到水平扩展,还有如何做到容错、容灾。当一个分布式系统,它管理上万台,或者几十万台物理机器的时候,像硬件上的错误,或者机房掉电,或者网络闪断,这种情况就变成一种常态,但是这种常态情况下如何能够得到及时处理,及时恢复,让用户呢感受不到这种网络上的故障,或者硬件故障的影响,这是我们面临的最大的挑战。

   

4. 阿里目前怎么应对这些挑战和问题呢?

龙觉:阿里云到今年也有5年的历史了,相对来说,作为分布式计算,或者是云计算架构方面,没有很多经验可以借鉴,还在探索阶段,经过了几代的迭代,不停改进的情况下,系统有一些历史遗留问题,规模增大之后,又面临新的挑战。我来了以后,既要努力改进系统,也要保证不影响旧的系统,不要影响用户的体验,这是一方面的挑战。另外一方面呢,就是最近阿里云发展比较好,昨天刚刚进行了12.18大促,所以也卖出了很多VM,像这种突发性的,大规模的创建,比如说虚拟机,或者启动虚拟机的操作,对系统是个很大的冲击。当然了,我很高兴的是,昨天虽然有大促,有很大的冲击,控制系统没有任何影响,没有出现任何故障。希望用户在昨天大促中能够有很好的体验,至少从我们的角度是没有发现任何故障,这种分布式的并发大规模并发的操作,对于分布式的架构是一个挑战。

   

5. 我关注这个控制系统主要两个方面,一个像资源的监控,包括资源的这个分配,那么这方面阿里是怎么去优化的,采用了哪些策略?可能有些是阿里独有的,能够分享一下吗?

龙觉:阿里云作为一个云计算厂商,他需要和其他厂商竞争,不管是跟国内竞争,还是跟国外竞争,所以有很多,比如说国外的亚马逊做的云产品,比如说VPC,他们是经过了3~4年的时间成长、成熟的,而我们需要追赶他们,需要在3~4个月,一年之内追上国外现在的水平,这是一个很大的挑战。作为这些最新前沿的信息呢,我们的网络虚拟化,以及底层存储虚拟化,还有CPU、内核的虚拟化都是自己独创的技术。在接下来的演讲中,我们有相应的专家会做介绍。

   

6. 从技术角度来分析,云平台除了刚刚讲的一些挑战,还有哪些问题是比较亟待解决的?阿里大概是以什么样的方式来解决这些问题的?

龙觉:阿里云本身,我觉得有点非常好的,它有很强的危机感,时时刻刻驱动我们,不停挑战自己,改动自己的产品。我们总是能够及时找到自己的不足,发现自己的挑战。云厂商所需要做的最好的一点,就是要以用户为中心,以用户体验为中心。用户在使用云产品中体验到的痛点,我们要能够及时发现,及时恢复,这是我们时时刻刻都在做努力。我们会监控CPU的增强,内存的增强,网络的增强,当这种增强让用户体验变差时,我们会及时的修复,及时改善用户体验。

你可能感兴趣的:(阿里龙觉谈弹性云计算)