十年,他们在云上修了一条“高速公路”

互联网诞生至今,网络世界到底被谁主导?
《达芬奇密码》给出的答案是,整个互联网由十四个手中掌握七把受严密保护的钥匙的人保护着。
所谓“钥匙”,是为保护网站和计算机分配IP地址的DNS进入权限,如果这个权限被一个人获得,他就能主导整个互联网。
现实中,这个掌握钥匙的组织就是ICANN(互联网名称与数字地址分配机构),它的存在确实关系着互联网世界的稳定、开放与唯一性。
但这仅仅是小说或者电影的思维。现实世界中,为人们网上冲浪提供基础设施的,主要是网络运营商与设备厂商。
网络领域很长一段时间都没有新鲜事物,无论是产品还是创业公司,都鲜有新鲜面孔。
直到十多年前云计算诞生,一些新厂商投身网络领域搞自研,这个领域才有了新景象。云网络开始扮演越来越重要的角色。
在今年尤为明显。年初,新冠疫情爆发,国家按下“新基建”的快进键。
云计算作为新基建的核心环节,是互联网、大数据、人工智能等新技术的关键底座。云网络,作为云计算的标配,则是新基建的底座。
中国的云网络担得起吗?
缘起:网络高速来了“调度员”
故事还得从阿里云的成立说起。
2009年春节后,一群阿里云的年轻人在北京上地汇众大厦一间快要废弃的办公室里,写下了阿里云计算操作系统“飞天”的第一行代码,开启了中国云计算的新篇章。
一年半后,阿里云发布了第一个商业化的产品-云服务器ECS,逐步迈向公共云服务。
原CSDN与《程序员》杂志总编刘江曾在《阿里云观察——阿里云总裁王坚专访》一文中写道:ECS的上线,让许多得风气之先的中小开发公司兴奋不已。之前他们可以选择的后端,要么是国内IDC服务器托管,运维压力如山大;要么是国外的云服务,又不得不忍受网络的龟速。
阿里云的ECS让他们看到了国产云的希望。流量交易但在此之前,阿里云自己先要解决好网速问题。
2010年,阿里云用x86服务器搭载软件的方式,开发出第一款云网络产品——负载均衡SLB(Server Load Balancer),对网络流量(网络上传输的数据量)进行均衡分发。
SLB就像网络高速的“调度员”,为了提高信息传输效率,SLB可以分配和调度“车辆”(比特)从不同的路径和出口进行传输。当大量的数据流量来袭时,有了SLB,网络就不容易产生拥堵。
设想很美好,但早期的SLB性能并不稳定。早期,工程师们将精力主要放在了技术研发上,开发出软件,先让云平台运行起来;缺乏对外服务经验,出现了不少服务质量问题。
这导致看工单、接工单、处理工单,以及频繁出席赔情道歉会,成了SLB第一任产品经理李肆的工作日常。
他记忆最深刻的一次道歉会是阿里云创始人王坚亲自主持下进行的,那是个周六,在西湖国际——阿里云在杭州最初的办公室里,知名开发者社区“博客园”等客户出席。
后来,王坚让阿里云的同事把“博客园”中记录阿里云产品问题的100多篇博客印成书,取名为《进步集》,要求阿里云的工程师们通读。
内有《进步集》的鞭策,外部有“云计算究竟能不能把网络这件事做好”的质疑。顶着巨大的压力,SLB团队不断地提升其服务稳定性。
一封邮件引发的“修路”革命
但留给阿里云自我革新的时间不多了。
从2012年底开始,微软、亚马逊、IBM等国际巨头陆续登陆中国,云计算市场俨然已呈红海状态。
与此同时,阿里云内部的“技术隐患”开始浮现。
2012年底的阿里云技术规划会上,有人指出了阿里云的潜藏危机:
随着虚拟化技术的不断发展,一台物理机可以虚拟出的虚拟机比例将从1:10提升到1:30、1:50,也就是1000台物理机虚拟出的虚拟机数量将从1万台变成3万台、5万台。
虚拟比上升,网络中用于记录虚拟机地址的ARP表上的数据,也会变为原来的3到5倍。如果存放ARP表数据的交换机供应不足,虚拟机的迁移就会受到限制。
一旦虚拟机宕机,用户/客户业务受影响,阿里云的口碑将遭遇“滑铁卢”,最终导致阿里云面临无法售卖ECS的危机。而ECS是阿里云安身立命的根本。这是一个由云计算发展导致的连锁变化。
与此同时,随着虚拟化网络的规模扩大,ARP欺骗、广播风暴、主机扫描等多个问题会越来越严重,这都会对网络安全造成威胁。
有人将这些隐患写进邮件,发送给高层。江鹤(阿里云网络产品线现任负责人)遂被指派去调研这些问题,并找出解决方案。
2013年年初,江鹤就带着四位工程师接手这个任务,展开调查。
果不其然,当他们将诉求转给“头牌”交换机供应商思科时,对方的答复是:无法提供能够存储如此大规格ARP表的交换机。思科是当时全球最大的网络设备厂商。这意味着,他们在全世界范围内也买不到想要的交换机了。
一番考量后,江鹤决定另辟蹊径,在地面高速公路上方修建一条“云高速”,并在“云高速”上开辟不同的“隧道”。

你可能感兴趣的:(阿里云)