今年双11支付宝支付峰值12万笔/秒的新世界纪录背后,是一个仅几十人的技术保障团队。
在6000多名蚂蚁员工中,这几十个人辨识度很高,因为所有人的工牌带都是清一色蚂蚁蓝,只有他们是「土豪金」。这是蚂蚁金服内部最高荣誉——CEO大奖的「勋章」。
耀眼光环的另一面,大概只有队长阳振坤和几位老队友清楚,四五年前,这一彼时仅有十几个人的团队曾在长达三年多的时间里,孤独而边缘。
这个经历了戏剧性般沉浮的团队,是观察中国互联网公司一个颇具代表性的样本:在比拼极限速度与弯道超车野心的赛场上,对待创新、技术理想主义以及「无用之用」的态度,会为一家公司的格局和边界带来怎样的影响和命运?
文|傅瑜
在支付宝母公司蚂蚁金服的保安丁凡眼中,这几年双11最大的变化是每年的加班餐都会减少,今年,一不小心又订多了,丁凡和同事们只好在公司门口向还没来得及吃早饭的员工免费派发。
这一变化背后的故事被敏锐的媒体捕捉到并见诸报端:今年双11支付宝支付峰值12万笔/秒的新世界纪录背后,是一个仅几十人的技术保障团队。
在6000多名蚂蚁员工中,这几十个人辨识度很高,因为所有人的工牌带都是清一色蚂蚁蓝,只有他们是「土豪金」。这是蚂蚁金服内部最高荣誉——CEO大奖的「勋章」。
今年五月,董事长彭蕾亲自将它们一一戴在这几十位技术明星的脖子上。获奖理由是,这个小团队自主研发的OceanBase(以下简称OB)数据库,以远低于传统数据库的成本,更高的可用性,扛住了支付宝一次又一次自我刷新的支付峰值世界纪录,打破了IT核心技术长期被西方垄断的格局。
今年的世界互联网大会,OB入选世界互联网领先科技成果,其他获奖公司还包括特斯拉、IBM、微软、卡巴斯基等。
毫无疑问,OB团队是眼下蚂蚁金服最耀眼的明星团队。有队员甚至不好意思带着「土豪金」工牌上班,「太扎眼了」。
耀眼光环的另一面,大概只有队长阳振坤和几位老队友清楚,四五年前,这一彼时仅有十几个人的团队曾在长达三年多的时间里,孤独而边缘。
这个经历了戏剧性般沉浮的团队,是观察中国互联网公司一个颇具代表性的样本:在比拼极限速度与弯道超车野心的赛场上,对待创新、技术理想主义以及「无用之用」的态度,会为一家公司的格局和边界带来怎样的影响和命运?
被百度「扫地出门」的北大教授
阳振坤的职场经历有一条鲜明的分割线。分割线之上一帆风顺:北大本硕博一路念完留校任教,不但破格晋升教授,还成为北大首批「长江学者奖励计划」特聘教授之一。
分割线之下走得磕磕绊绊。2002年,这位学术明星选择离开象牙塔,投身工业界,先后加盟联想、微软、继而是百度。
分布式数据库是阳振坤一直关注的领域。通俗来说,它是一个海量数据库,可以存放千亿条以上的记录。它就像一名超级会计师,可以在一秒内同时记数万笔帐,并且不出一点错。最新世界纪录,即是今年双11凌晨,OB创下的12万笔每秒的成绩。
不过,在十几年前,就连阳振坤本人,都会觉得这是一件不可思议的事情。彼时,起源于上世纪6、70年代的分布式数系统一直存在于理论中。
因为它的优点和缺点同样明显,优点是可以大大降低成本,缺点是这些普通PC机单个来看都达不到金融级别的稳定性,如果其中一台机器「罢工」,容易产生多米诺骨牌效应般的坍塌效应。
在技术上实现一台机器出问题,其他机器即时补位备份数据不难,难点在于让每台机器的工作量始终保持均衡,否则工作量过大的机器容易崩溃,继而又是一场链式坍塌。
这个短板被视为世界级技术难题,这也是为什么全球前三大数据库甲骨文、IBM、微软都采用集中式系统的重要原因。它们的主机稳定,一台动辄数百万美元,存储空间不够,那就只能再买一台。
阳振坤想做的,就是解决分布式系统的这个难题。2006年,他从微软跳到百度,从事分布式系统研发。这确实也是百度的刚需,数以万亿计的网页,意味着天量数据,并且这样的数据量还在迅速增长,如果使用IOE,成本高得惊人。
在百度做了两年多,他的团队被解散,百度最终采用了一套现成的开源系统。团队前成员杨传辉认为,阳振坤当时主导的分布式系统在性能上已经超过了开源系统,「但公司不愿再付出更多的时间成本。」
熟悉百度文化的人,都不会对这样的决定感到意外。几乎在同时,百度还解散了一个做电商的团队,生命周期也是两年。
人到中年遭遇职场危机,在阳振坤眼中似乎不是个事儿。2010年到阿里巴巴面试时,他说自己离开百度的原因「就是被人家扫地出门了呗」。
这个小团队打造出的「超级会计师」,支撑起了今年双十一12万笔每秒的支付峰值 (摄影|付丁)
在阿里继续坐了三年「冷板凳」
在这家彼此惯以花名相称的公司里,大家都习惯称阳振坤为「阳老师」。在同事眼中,阳老师永远笑眯眯的,早上到公司都会主动向保安打招呼。「但他认定的事情,九头牛都不能把他拉回来。」
在阿里,阳振坤继续做分布式数据库研发,他的目标,是开发中国技术人自己的分布式数据库,不再依赖欧美的数据库。他的团队从零发展到十几人,捣鼓出中国第一个分布式数据库,他们给它起了个名字叫OB。阳振坤解释说,数据库的英文名叫Database,起名叫OB,「是说我们要做一个像海洋一样的海量数据库。」
阳振坤解决分布式数据库稳定性的方式,是将每一份数据同时备份三份,存放在三台不同的机器上。这是借鉴谷歌,其原理是,一台pc机出故障的概率如果是千分之一,两台同时坏的概率可能就是百万分之一,三台同时坏的概率则是十亿分之一。
跑在「海洋库」上的第一位「客户」是淘宝收藏夹。那时是2011年,淘宝用户已达数千万级,「每人收藏十条,那就是几亿条。」
跟随阳振坤加盟阿里的杨传辉回忆说,为了确保收藏夹在双11当天万无一失,整个团队连轴工作了三个星期,迭代、压测、调试、再压测、再调试……「当时在讨论群里,凌晨两点,凌晨三点、凌晨四点……一直都有人在说话。」双11当天,OB交的第一份成绩单让阳振坤满意,「那时,我们都觉得机会来了。」
现在看来,当时的判断显然过于乐观。阿里内部对自主研发数据库很快产生分歧,反对者认为,不如采用开源系统性价比更高,就像百度那样。
这样的意见一度占据上峰,理由也确实难以反驳:全球三大数据库制造商已存在几十年,每家公司都拥有数以万计的员工。做分布式数据库,全球唯一一个成功的案例是谷歌。
杨传辉回忆那段坐冷板凳的日子:有人在部门大会上公开质疑这个团队存在的意义;没有业务部门愿意把数据跑在OB上,为了拉「客户」,这群内向腼腆的技术男开始厚着脸给业务同学打电话,约吃饭,「跟销售一样去推销OB」;冷板凳坐了两年仍不见转机,有人选择转岗、有人办了离职……
「好在这里是阿里,」杨传辉说,阿里文化对创新和「无用」的宽容度一向比较高,阿里云创始人王坚是个再典型不过的例子,这位心理学博士在研发阿里云头几年,内部质疑声不断,有人公开在内部论坛上叫板,一年阿里年会上,王坚现场泣不成声的画面让许多人印象深刻。「阿里与王坚是彼此成就的,阳老师也是如此,缺了哪一方,就不会有现在的阿里云和OB」。
杨传辉回忆说,彼时留下来的人,都是内心强大,且仍怀有信心的,即便这样,大家当时想的都还是,先活下来,只要不离场,就还有希望。「但阳老师的境界,我们谁都比不了」。让他印象深刻的一个细节是,即便在最艰难的时候,阳振坤在内部会议上仍说,「OB以后是要取代IOE的」。
坐了多年「冷板凳」,对于接踵而来的荣誉,阳振坤笑说「真有些不习惯」。(摄影|付丁)
成为双11背后的「超级会计师」
2012年,在王坚的推荐下,OB团队并入支付宝。在一位不愿具名的阿里老员工看来,阳振坤和王坚两人身上有着许多相似之处:外柔内刚,典型的技术理想主义者。
「如果阳老师愿意妥协,放弃OB,转去做开源系统的技术优化,早就拨云见日了。但这显然不是他想干的事情,他的目标,就是想做一个中国技术人自主研发的数据库。」
支付宝母公司蚂蚁金服现任首席技术官程立是OB的另一个「贵人」,他同意将支付宝1%的交易库存数据在这个数据库上跑跑试试。
这位同样性格温和内敛却决断果断的技术高管在今年云栖大会上说过一句让媒体印象深刻的话:蚂蚁面对的都是世界级技术难题,因为我们脚下没有前人的脚印,只能靠我们自己一路披荆斩棘,遇山劈山,遇水搭桥。
4年前的支付宝,遭遇的世界级难题是,双11的交易量呈几何级增长,未来势必还将继续呈几何级增长,事实已然证明这点——2015年双十一实际支付峰值达每秒8.59万笔,是前一年支付峰值的2.23倍,是2009年第一次双十一支付峰值的430倍。
支付宝当时用的数据库还是甲骨文,为了应对双11这天的天量数据,只能再花数亿千万人民币的价格去购买主机,在交易恢复常态时,昂贵的主机旋又陷于长期闲置状态。这就好比你家来了客人,你为此去买了好几台洗衣机,客人走了,这些新购置的洗衣机就白白浪费了。
把客人的衣服拿到干洗店去洗,无疑是最优解决方案,在数据存储领域,具有弹性功能的分布式数据库就是那个高性价比的「干洗店」。「用大白话来说,就是在双11到来前,向阿里云租一批机器,双11结束后再还回去。」阳振坤说,这也是为什么,分布式数据库的软硬件价格不到IOE的十分之一。
这一还未正式上过「战场」的数据库,被支付宝高层认定是解决双11支付峰值这一世界级难题的「钥匙」。OB最终也不负众望,「原定搬1%的交易库存数据到OB上来,最后搬了10%。」
2014年双11,搬了10%交易数据链;2015年双11,100%交易数据链和支付数据链都搬过来了;2016年双11,整个账务库都搬过来了,这一核心数据被称为「金融系统数据库皇冠上的明珠」。
在OB团队办公室,常年摆放着一座关公像,临近双11大考,大家就会轮番给关公爷敬烟敬旺仔牛奶旺旺雪饼,据说这已成为团队「传统保留节目」。
2014年加盟OB团队前,冯柯在一家有军方背景的国产数据库公司做技术高管,被无数次问及「你们为什么要开发一套和IOE一样的集中式数据库,做得又没人家好,有什么意义呢?」冯柯觉得自己该离开了。
在他看来,OB目前还只是万里长征第一步,前方很多障碍和不确定性都还有待解决。
比如,过去六年,团队以纯技术人的思维来研发优化OB,现在该同时兼顾产品经理的思维去考虑它的用户体验及兼容性问题。「作为自家人,支付宝业务同学可以无条件迁就你做各种调试甚至改造,以让数据跑在OB上,但如果未来想让OB商业化,你不可能指望合作伙伴也这么去迁就你。」
OB在今年世界互联网大会上入选世界互联网代表性领先科技成果后,有媒体评论说,这一中国自主研发的数据库,有望打破世界商业数据库市场为IOE等国外商业软件巨头垄断的格局。
但亦有评论认为,全球绝大多数机构和公司同时在使用IOE的现状在短中期内不会有实质性的变化,OB在软硬件上大大降低成本只是一方面,硬币的另一面是,各家公司和机构将数据搬迁到一个全新的、完全不同的数据库上,无论是金钱成本、还是风险成本和信任成本,可能更为高昂。
无论如何,陈萌萌对OB的前景报以信心。这位从甲骨文美国总部辞职,回国加盟OB团队的80后说,甲骨文最初开始做数据库,从研发到成熟,经历了6年时间,「OB到现在也是6年,我们的大戏还在后头」。
陈萌萌此前在甲骨文加州总部工作,现在回到国内研发中国人自己的数据库,这让他感觉很酷。(摄影师|王颖)
没看够?
长按二维码关注《人物》微信公号
更多精彩的故事在等着你