扛住了双十一6年430倍压力增长的阿里云凭什么?

wKiom1ZN8GWTcbfKAAJgz1-amy4246.jpg

还记得2015年7月,阿里集团宣布对阿里云战略增资60亿元,用于国际业务拓展、云计算、大数据领域基础和前瞻技术的研发等。阿里巴巴集团CEO张勇认为,阿里云已迎来最好的机遇,在技术和商业上将更进一步,成为DT世界的引擎。

2015年双十一期间,阿里云就迎来了60亿增资后的首次大考。新型支付蚂蚁花呗、金融级自研数据库Oceanbase、混合云管理技术、异地数据中心多活、大数据处理平台、数据可视化大屏等多项自主研发关键性技术集体亮相今年双十一战场,成功闯过了一天之内承压912亿交易额的生死大关。

“今年创造了一个新的记录:每秒钟订单创建14万笔,支付达到了每秒8.59万笔。2009年双十一订单创建每秒钟只有400笔,今年相当于6年前的350倍左右。2009年双十一支付能力是每秒钟200笔,今年是6年前的430倍左右。这几年就是一个飞速增长的过程。” 阿里巴巴集团首席风险官、阿里双十一技术总指挥刘振飞如是说。

如何抗住6年430倍的增长?

那么,阿里云是如何抗住6年430倍的压力增长?最关键的就是采用混合云架构,把部分压力洪峰从专有云分流到了公有云上。原先,整个淘宝、支付宝、天猫都是构建在专有云平台上,但由于双十一期间的瞬间交易暴增,为了峰值而无限扩建专有云显然并不经济环保,于是自然就想到了采用可弹性伸缩的公有云。但如何把这么庞大的系统部署到公有云平台,特别是双十一这种量级的核心支付交易系统,目前在全世界还没有这样的先例。

阿里云高级产品专家、阿里云双十一队长何云飞告诉记者,阿里巴巴经过了15年的系统建设后,形成了非常复杂的内部系统,一个订单要经过多个系统的流转和数据库的交互,而把这样庞大的内部系统搬到公有云上,再与专有云对接形成混合云架构,其难度可想而知。其中,除了公有云上的系统要与专有云上的内部系统全面兼容、平滑过渡外,最重要的是公有云上的电商核心系统必须流畅运转起来。除了云服务器、负载均衡、RDS云数据库等阿里云三大件外,今年还起用了尚未对外发布的自主研发数据库OceanBase,以及去年刚发布的大数据产品ODPS。

历经五年研发出来的阿里云海量关系型数据库OceanBase,这次双十一期间承担了支付宝100%的交易流量,运行平稳、零漏单、零故障。分布式数据库OceanBase,把数据的读和写进行分离,满足了一秒钟创建14万笔交易、完成8.59万笔支付的峰值要求。而去年双十一,OceanBase只是小范围练兵,承担了支付宝10%的交易流量。据阿里介绍,今年6月开业的网商银行,其底层数据库就全部采用OceanBase,明年还将通过公有云平台对外开放OceanBase。

而阿里云自主研发的大数据处理平台ODPS,则承担了今年双十一淘宝、天猫、支付宝、菜鸟等所有大数据处理工作。今年是阿里云ODPS从研发以来的第六个年头,在刚刚结束的2015世界Sort Benchmark排序比赛中,阿里云ODPS用377秒完成了100TB的数据排序,打破了此前Apache Spark创造的1406秒纪录。而ODPS的实时计算系统StreamSQL,则在今年双十一当天处理了上万亿条消息。ODPS是阿里集团30多个事业部唯一的大数据平台,目前正在通过阿里云逐步开放给外界使用。

保障阿里云闯过今年双十一考验的还有一项1000公里以上异地双活数据中心技术。该技术可实现多地数据中心像一个数据中心一样工作,即使某一处数据中心出现故障,双十一在线业务仍然能够快速恢复正常运转。蚂蚁金服首席技术官程立说,今年真正实现了距离一千公里之外的华南华东两地数据中心多活,华南区支持了60%的支付、华东区支持了40%的支付,这个能力的突破意味着蚂蚁金服的支付系统可支撑每天100亿笔支付。

首次上阵抗压的新型支付

“因为是第一次参加,可能出现的各种突发状况,完全没概念。”蚂蚁花呗的技术负责人赵进透露,直到11月10日晚上11点多,团队还在进行压力测试,做各种预案演练,以保证端口不会挂掉。

在此之前,蚂蚁花呗联合支付宝与天猫,投入超过200人的团队,不断调高预估瞬时并发量。在双十一当天,蚂蚁花呗特别抽调了70多人的专项保障团队,涵盖产品、技术、运营等多个部门,严阵以待。

在蚂蚁小贷内部,蚂蚁花呗被定位为“无忧支付”,主要在用户付款遇到问题时可以挽回,还有“这月买、下月还”和分期付款功能。蚂蚁金服首席技术官程立透露,与支付宝合作的200多家银行提前5个月就开始支付容量评估与升级,并进行了93轮470次的压力测试,以确保整个系统能够稳定支撑双十一的支付洪峰。

为了避免对用户正常使用造成影响,今年双十一前的压力测试时间通常都会选择在夜晚、凌晨或节假日。中国邮政储蓄银行的行长亲临压测现场,支持大促保障的压测工作,最终邮储银行相比2014年双十一容量实现翻番。农行进行了7轮压力测试,每一轮的性能都能得到明显的提升,但农行的技术团队每次都说,“我们还要扩容优化,下次再测。”

今年双十一开场的第一分钟,蚂蚁花呗的成功支付笔数达到52万笔,支付成功率达到100%,每次支付只需要花0.035秒。“当时长出了一口气,现场一片欢呼,既紧张又亢奋。”在现场支持的运营人员蒋珂说。程立表示,由蚂蚁花呗的支付带动了支付成功率的提升至少有2%~3%,每个百分点至少能够促进1.3亿的消费。

历时5个月准备、多项创新并举

刘振飞介绍说,今年双十一的技术筹备从七月份就开始了,在近五个月的时间里差不多每周都会进行一次整个交易支付全链路压测,模拟双十一零点的状态。“今年双十一开场前30分钟交易系统和支付系统,基本上是贴着系统设计的最高能力去攀升,那30分钟对于我们来讲还是有点紧张。准备得再充分,你都不知道这一刻会发生什么黑天鹅事件。”

实际上,为了保障2015年双十一用户体验,阿里在过去一年多的时间里完成了多项技术创新。在无线交易端,手机淘宝搭建了一个世界级无线云平台。在服务亿级用户的同时,手机淘宝实现了一系列技术优化:内存节省50%、滑动提速20%、1秒打开手淘页面。双十一全场无线端还全面进行了个性化,消费者在手机屏幕上能轻松找到喜欢的商品。针对2G手机用户,手淘的工程师们建立了2G网络实验室,通过不断模拟测试,实现2G弱网环境下的手机也能1秒连接。

在信息安全方面,今年双十一期间阿里云安全团队通过数据模型实现了DDoS攻击检测。系统通过行为模型、恶意IP地址比对等技术手段,完成了对流量成分的分析,从而抵御大规模黑客攻击。而从去年开始,阿里就耗时一年完成了淘宝、天猫的全站HTTPS加密传输。电商平台从客户端到服务器之间全程加密,有效保护消费者和商家信息不被第三方劫持。刘振飞说,HTTPS的技术本身并不神秘,但是整个系统改造非常复杂,投入资源非常大。

点亮今年双十一水立方主会场的数据大屏,采用了阿里研发的dataV数据可视化引擎。该引擎完全基于Web 技术,可快速、低成本部署。当用于内部的商品、交易、支付等的可视化呈现时,能够帮助商家更直观地调控运营与管理。今年的水立方数据大屏上还利用了3D webGL技术,通过3D图像展示双十一平台总体交易订单实时流向。这一技术派生出来的3D城市,还能对城市里的人群进行微观画像分析。目前,这一技术已计划通过阿里云向外输出。

值得一提的还有今年双十一采用的“一键建站”技术:通过阿里自研的自动化软件,将中间件、数据库、商品交易系统、商品展示系统等上百个电商核心系统,像搭积木一样新建和部署淘宝和天猫的交易单元。这些交易单元与原有的系统一起“协同作战”,从而分散流量、减轻系统负担。以往重新部署一套交易单元,至少需要提前1个月的时间准备,而今年则只需要一键完成,所需时间不到90分钟。

经过6年的发展,阿里云在云计算基础设施领域,覆盖了从域名、备案、解析、计算、网络、存储、数据库、安全、海量数据分析到互联网中间件等多项服务。今后,阿里云还将加强在基础和前瞻技术领域的研发,包括芯片、存储、网络硬件、大规模计算集群和软硬件一体化等,提升核心技术竞争力。

阿里云总裁胡晓明说,阿里把每年双十一所积累的技术能力开放出去,这就是普惠科技。通过普惠科技,创新者、创业者也能拥有跟阿里一样的技术能力。据统计,在今年双十一当天,有超过3万家创新创业企业通过阿里云官网抢购计算资源,采购量相当于一座大型数据中心,较传统方式节省了上亿元的IT成本。其中,有近千家企业购买了阿里云海外的计算服务。(文/钛媒体记者吴宁川)

【更多精彩内容,尽在《云科技时代》微信,微信号:CloudTechTime】

你可能感兴趣的:(云计算,阿里巴巴,阿里云,数据中心,阿里集团)