乘风破浪的中国数据库 | 凌云时刻


凌云时刻 · 洞见

乘风破浪的中国数据库 | 凌云时刻_第1张图片

导读:从80年代萨师煊教授的一行板书,到今天国产数据库的百花齐放,四十年科技自研,中国数据库都经历了什么?

作者 | 丹如

来源 | 杭派工程师

前言

“科技行业已经没有什么惊心动魄的大事了!”

进入2020年,已经有不止一家媒体或者科技KOL做出这样的断言。相比2012年的O2O大战、2015年的双创热潮、2016年的小巨头合并,以及2018至2019年的中概股扎堆上市,2020年显得格外寂寞。

 

最近的爆款文章《腰部互联网没有新闻》更是描述了如今科技行业的落寞,由此该文的作者做出推论:互联网变得如此平静,是因为上一波创新的浪潮已经结束,底层技术不再更新。

 

事实上,早在几年前,英特尔CEO就在多个场合表示“摩尔定律失效了”(摩尔定律是指集成电路上可容纳的元器件的数量每隔18至24个月就会增加一倍,性能也将提升一倍)。

 

软件的发展很大程度上取决于硬件的突破,而摩尔定律的失效,似乎在暗示已经影响了整个世界的、长达半个世纪的信息革命正在走向黄昏。但就像眼睛会欺骗大脑,人们同样会被水面上的平静所迷惑,最终忽视了正在影响未来走向的底层技术变革。作为三大基础技术之一,数据库就是水面下的那座冰山。

国产数据库在过往四十多年都无人问津,直到近年,行业才有密集的动作。6月8日,蚂蚁集团宣布将自研数据库产品OceanBase独立进行公司化运作。

 

巨头的数据库产品成为独立公司,对行业的意义不可谓不深远。但对普通人而言,它完全无法与“地摊经济”、“电商直播”等热词争夺注意力。即便被看到,大部分人也会下意识问一句“数据库是个啥?”

 

“数据库是个啥?”

 

1978年,中国人民大学经济信息管理系首任系主任萨师煊第一次将“数据库”这三个字写在黑板上时,恢复高考后的第一批大学生坐在下面也产生了同样的疑问。

乘风破浪的中国数据库 | 凌云时刻_第2张图片

萨师煊(前排左四)

 

如果你问B站的科普UP主什么是操作系统,他们或许会给你讲个段子:ATM刚出来时,不少用户都以为有一个人藏在机柜里,给用户取钱和存钱,但实际上那背后是一套自动化操作系统。

 

数据库也是类似的软件系统,它的主要工作是在你使用支付宝、微信等应用时,帮你储存、计算和分析数据。它和操作系统、中间件共同构成计算机最基础的三大软件。

 

在那个电视机都还没有被广泛普及的年代,数据库这样高深的互联网技术是如空中楼阁一样的存在。想要让学生明白什么是数据库,萨师煊也讲不出什么段子,只能借助学校里少数的几台电脑和美国科学家们有关数据库的论文为学生进行授课。

一年后,他把自己的讲稿汇编成《数据库系统简介》和《数据库方法》,发表在《电子计算机参考资料》上,我国才有了最早的数据库学术论文。但此时距离关系型数据库之父E.F.Codd在美国发表划时代的《用于大型共享数据库的关系数据模型》,已经过去了九年。

 

这九年间,国外的数据库技术基本已经完成了从实验室到科技商用产品的市场化历程,网络型和层次型数据库也已过渡到关系型数据库,以甲骨文、微软、IBM为首的一大批数据库公司崛起,推出了包括Oracle、DB2、Informix等主流数据库产品。

 

“甲骨文”这个名字其实也不是Oracle的意译,这是他们进驻大陆时的代理人冯星君为打开市场而抢注的品牌名,而“Oracle”本身只是公司创始人埃里森为中央情报局设计的数据库的名字。

 

但冯星君的一通操作猛如虎后,“甲骨文”这个代表着中国历史上最古老文字的名称,就此成为了一家美国数据库公司的闪亮招牌。

乘风破浪的中国数据库 | 凌云时刻_第3张图片

Oracle时期的冯星君

 

1980年代,甲骨文最早进入内地市场时, Oracle的盗版产品还在中关村泛滥。但冯星君以比盗版还低的价格迅速收割了混乱的市场。等到国家为促进电信行业的发展提出“九七工程”后,Oracle更是一举拿下东三省邮电管理局5期工程的大单,和IBM、DB2、Informix数据库,共同瓜分了银行和电信这两个领域的数据库市场。

 

当国外数据库产品在中国市场狂飙突进,以萨师煊为首的中国数据库先驱者们奔走在各大高校中,培养了中国最早一批数据库人才。

 

1983年,萨师煊与弟子王珊合作编写出划时代的专著《数据库系统概论》,至今还被国内高校计算机专业沿用。

一年后,王珊访美回国之际,给时任中国人民大学校长袁宝华写了一封信。她建议学校成立数据与知识工程研究所 。

 “成立研究所确实是当务之急。我们要集中人力,搞一些切实的研究课题,开发真正能与国外竞争的数据库系统、应用生成系统产品。这是对国家最大的贡献……”

 

国产数据库的征途就此启航。

 

与此同时,国外数据库已经迭代了超过七个版本。伴随改革开放后经济的高速发展,对数据的管理和储存爆炸式增长,国内公司只能选择更为成熟的海外产品。不止数据库,从底层操作系统到中间件,我们都采用了国外厂商的最佳实践。

 

如今回看这段历史,我们在上述三个领域受制于人,正是始于那一刻。但当视角缩小到时代浪潮中的个体时,又不得不感佩萨师煊等前辈们的先见之明与努力。即便受困于外在环境,他们都从未放弃对先进技术的关注,抓住一切机会,为国产数据库的未来积蓄力量。

 

另外一批人也抓住了机会。

冯星君从狱警一路做到外企高管,作为甲骨文打开内地市场的头号功臣,最终抛掉手中全部股份离开了甲骨文。

 

离职后,他给媒体分享了一个甲骨文总裁埃里森来北京的故事。

1997年1月27日,埃里森乘专机飞临北京,原定行程是要到长城拍摄电视片,制作方为此找了20个小学生群演。结果埃里森因为不愿起床,让小学生们在零下20度的天气里等了一个多小时。等他在长城玩嗨了后,又提出取消下午和时任总理的会面,在冯星君以辞职相挟后,他虽然准时参与了会议,却坚持带保镖一起进人民大会堂。

 

乘风破浪的中国数据库 | 凌云时刻_第4张图片

埃里森

有人说这就是埃里森的风格,但20年后,风格同样强悍的马斯克,面对中国市场只能大唱赞歌。

埃里森的肆意妄为与当时甲骨文在内地数据库市场的绝对垄断有莫大关系。

 

1992年,邓小平南巡讲话后,中国的市场环境更加开放。国外数据库公司们趁机涌入内地市场。除了1989年靠代理进入中国、1992年就设立独资公司的甲骨文,1991年12月,Sybase投资230万美元在中国正式设立赛贝斯软件。1992年,IBM正式进入中国,带来了DB2和informix。1992年10月,Microsoft在北京设立代办处……

 

直到今日,国内大部分的数据库市场份额仍旧被这几家公司占据。

 

国产数据库公司在夹缝中艰难地崭露头角:1999年,王珊领头成立了国内第一家数据库公司:人大金仓。2000年,华中理工大学(现华中科技大学)讲师冯玉才成立了武汉达梦,后来这两家公司与神舟通用、南大通用并称为国产数据库的四朵金花。

 

与海外数据库公司学、研、产分离不同,早期的国产数据库公司几乎都是从大学的科研实验室孵化出来,再到市场进行打磨。在这背后,始终有体制的力量推动。

 

为了国产数据库的发展,国家863计划设立了“数据库重大专项”、“核高基”重大科研专项以及“973”等计划,为高校的数据库研究提供经费支持,国产数据库四朵金花正是借此才度过了破冰期。

 

这一点冯玉才深有体会。早在1988年,他就成功研发出了我国第一个拥有自主版权的数据库管理系统CRDS。但他一直都找不到敢于尝试国产产品的客户。直到国家某机构扶持国产数据库,他才获得了60万的启动资金得以发展。

 

"在数据库领域,面对国际市场竞争中的强大对手,我们是渴望并正在长大的小孩子。”很多年后,冯玉才感慨道。

 

 

除了高校的自研团队外,还有另外一拨人在国产数据库的赛道里崛起。他们成长于国家的“九七工程”,早期几乎都聚集在北京担任DBA(数据管理工程师)。后来这批人成为了互联网公司们争相追逐的对象。有三家公司的DBA被行业公认最牛:eBay、淘宝、支付宝。

为什么呢?

追本溯源,数据库的本质是计算与储存。2000年初,在淘宝与eBay的对战中,这两家公司的数据库都在大量地吞吐交易数据。为了保障交易稳定,淘宝不得不使用当时最好的Oracle数据库,并且每年都需支付巨额的服务费。

乘风破浪的中国数据库 | 凌云时刻_第5张图片

当年冯星君与Oracle“分手”就源于数据库的服务费,按照国内习惯,软件购买都是一揽子生意,支付版权费即可。但Oracle却在版权费之外,每年再收一定的服务费。

 

客观讲,Oracle的服务确实不掺水。但为了保护自家的技术,Oracle始终是一个黑盒子,一旦出现问题,内地DBA只能呼叫在大洋彼岸的Oracle员工前来解决。问题再紧急,也得等对方起床。

 

卑微如斯,中国大部分互联网公司不得不忍下这口恶气,始终采用IBM小型机+Oracle+EMC的模式来维持公司的正常运营。

 

为了摆脱强势的Oracle,一批中国互联网公司转向开源数据库MySQL。

 

Oracle与MySQL有什么区别呢?

 

对于数据库的使用者而言, Oracle类似苹果系统,安全稳定但封闭性强,MySQL则像安卓系统,他们为开发者提供一个框架和社区,后续产品全凭开发者打磨和运营。开源数据库是对商用数据库的挑战,不少人都对MySQL寄予厚望。但没成想,MySQL如今被 Oracle 收购,转型成了半商用数据库。

 

摆在中国公司面前有两条路,一是像人大金仓、武汉达梦一样坚持自研,二是混合使用商用数据库和开源数据库,逐渐过渡到自研。

 

一个偶发事件助推了中国数据库公司自研进程。

 

2013年,斯诺登给英国《卫报》和美国《华盛顿邮报》发送了一份绝密资料:2007年,美国启动了一项代号为"棱镜"的秘密项目,要求电信巨头威瑞森公司必须每天上交数百万用户的通话记录。

 

乘风破浪的中国数据库 | 凌云时刻_第6张图片

消息一出,震惊的不仅仅是美国公民,大量使用国外信息软硬件的中国公司同样备受震动。一些机构因此开始选用国产数据库产品,如人大金仓、武汉达梦等厂商借势拿下了不少订单。

 

但是就产品竞争力而言,当时国产数据库与Oracle的差距仍然巨大。

经历了近四十年的发展,Oracle的功能已经极为丰富,支持的语句非常全面,其代码量到了普通公司难以望其项背的地步。国产数据库公司想要模仿并超越,注定是一条难以看到尽头的道路。

 

然而弯道超车的机会,以一个意想不到的方式出现了。

 

2009年,阿里的 Oracle RAC 集群节点数达到了创记录的20个,数据量和数据并发达到了全国最高,阿里不堪重负。为了数据库的稳定,阿里的工程师们采用冷热隔离的方式来解决“超大容量”和“高并发”的难题。但由于Oracle无法弹性扩展,只能按照峰值流量购买小型机和数据库,导致阿里还来不及为业务上涨庆祝,就得先支付来自Oracle的天价账单。

 

2010年,阿里开始去IOE。阿里数据库工程师们根据MySQL搭建了AliSQL,此后花了两年时间,他们将淘宝及天猫的所有数据库从 Oracle 替换成了AliSQL。

 

2012年双11,AliSQL迎来大考。

  

那一年,淘宝创造了191亿的成交额,这意味着数据库里的一条热点记录每秒钟最多要被修改十几万次。零点过后,淘宝出现了半分钟的卡顿,所有阿里数据库工程师们都直冒冷汗。好在AliSQL最终承受住了数据洪流的冲击。

 

但Oracle并不知道它已经被阿里放弃。2013年双11过后,他们还要求阿里根据此前公布的350亿成交总额补交服务费。而摆脱了Oracle的阿里,已不再需要支付此天价账单。

AliSQL的成功证明了Oracle的金身并非牢不可破。但是几年后,面对屡创纪录的流量,AliSQL逐渐乏力。其实,当时所有数据库都扛不住双十一像海一样翻涌而来的流量。

问题只能自己来解决了。

2015年,阿里云决定研发自己的数据库,但并不准备沿着以往国产数据库的路径去模仿Oracle,而是另辟赛道,研发基于云的数据库产品。同一时间,在Oracle的大本营美国,数据库行业也已经酝酿出了新风暴。

 

2015年的AWS Invent大会上,亚马逊公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系型数据库,可以跨3个可用区域复制6份数据,其最大的特性就是高性能和高可用性。

 

一个时代的落幕往往始于第一个变革者的出现。虽然会经历与守擂者的交锋,但变革的潮水总会滚滚向前。

 

面对云计算厂商开辟的数据库新赛道,埃里森浑不在意,说没有厂商可以摆脱Oracle:“我完全搞不懂那帮家伙在说些什么,简直就是一派胡扯,云计算只是愚蠢的概念”。

 

但事实给了他一记有力的耳光。

  

Aurora的高性能、高可用性和低成本吸引了众多客户上云。高傲的埃里森坐不住了。不到一年,他就宣布向云计算进发,口径大改:“我们到了本地计算向大数据云计算转型的关键路口。”

 

《IT不再重要》的作者尼古拉斯·卡尔认为,过去半个世纪里,大批企业为实现信息技术搭建数据中心花费掉了几十万亿美元,而最终的受益者就是微软、Oracle这些IT公司。但云计算的出现将改变这一切,未来的企业将不需要建设自己的机房,也不需要从传统的软件厂商那里购买大批昂贵的软件,只要将自己的业务搬到云上,就可以节省出大量的成本用于发展创新。

 

在Aurora倒逼Oracle上云的同时,阿里云的云原生数据库也在极速狂奔。

 

2017年,阿里云发布了PolarDB 1.0,其性能让行业为之兴奋。以往,10TB的业务数据创建只读副本需要70个小时,但在PolarDB上只用2分钟,并且,成本只有商用数据库的十分之一。

 

2017年10月,犹他大学计算机系终身教授、世界数据库领域的顶级大咖李飞飞加入阿里云数据库团队。

乘风破浪的中国数据库 | 凌云时刻_第7张图片

李飞飞

 

他提出了未来PolarDB的三个方向:更智能,更安全,让新的云原生和分布式数据库架构成为可能。

 

在经典数据库的竞争中,国产数据库始终在Oracle身后紧追慢赶。但在云计算时代,国内厂商已经拥有了不亚于海外公司的丰富生态,仅阿里,就有PolarDB、OceanBase、ADB、NoSQL、图数据库、时序时空数据库等产品。

2018年,在Gartner的数据库魔力象限评选中,阿里云成为国内首个入选的科技公司,标志着中国数据库公司第一次与国外科技巨头同台竞技。2019年,阿里云再次以唯一中国厂商的身份入选这个权威评选。

 

《创新者的窘境》一书曾说过,在旧时代越成功的企业,在新时代就面临越多挑战。这就是Oracle在云数据库浪潮下面临的窘境。相反,AWS、阿里云这样的云厂商反而可以乘风飞扬,攻城掠地。

 

Oracle的阵地正在被云数据库厂商蚕食,哪怕是在它占绝对统治地位的金融领域。

 

这次挑战它的是支付宝。淘宝可以当机立断向开源数据库迁移,但已经有3亿用户、一年有几十亿笔交易的支付宝直到2013年才敢把流水库的1%交给当时的自研分布式数据库OceanBase尝试。

 

那一年的双11,Oracle的上限只能满足支付宝流量的90%,OceanBase必须要承担10%。面对大考,OceanBase的技术负责人阳振坤向时任支付宝CEO彭蕾立下了军令状。

 

乘风破浪的中国数据库 | 凌云时刻_第8张图片

阳振坤

OceanBase经受住了考验。

 

2019年8月,OceanBase第一次挑战TPC-C测试。TPC是国际事务处理性能委员会,而 TPC-C 是国际权威的针对在线交易数据库的性能测试,一直被视为衡量交易型数据库的重要指标。此前第一的位置始终由Oracle垄断,但OceanBase以2倍的速度取代了旧时霸主。半年后,更是以11倍的速度刷新了自己的记录,而Oracle降至第三名。

 

在PolarDB和OceanBase连番冲击下,Oracle光环不再。

 

2019年5月,Oracle宣布中国区裁员500多人。虽然他们对外声称这是出于成本考虑作出的举动,但实质上,自2013年阿里宣布完成去IOE后,国内众多公司都掀起替换Oracle的浪潮,让其在中国市场的垄断地位摇摇欲坠。

 

AWS的CTO Werner Vogels曾多次强调:“数据库是云计算的终极之战。” Gartner预测,到了2021年,云数据库在整个数据库市场中的占比将首次达到50%,而到了2023年,75%的数据库都要跑在云平台之上。

 

自2013年起,PolarDB就将自家的数据统计和分析能力赋能给作伙伴,帮助几十万企业从传统数据库迁移至云上的数据库。2019年的双11中,PolarDB处理交易事件的峰值达到了8700万次/秒。今天,它已经不需要向任何人证明自己的实力。

  

据德意志银行分析报告,中国现在有84%的企业有上云意愿,认为云是未来。这股浪潮中,AWS和阿里云成为了新的领头企业,而Oracle的云业务却迟迟未能在中国落地。

 

以开源、分布式和云计算为主导的新数据库时代已然到来。在新的“世界大战”前,国产数据库已经有了充足的底气。

 

新成立的OceanBase公司——北京奥星贝斯科技已经向业界放言将在未来三年内服务全球超过万家企业客户。PolarDB负责人李飞飞也对外公布了2020年的小目标:要帮助1000家企业去O,10000套传统数据仓库上云。

 

四十年倏忽而过,新的潮水已至。这次,且看中国数据库乘风破浪。

 

END

往期精彩文章回顾

SpaceX上天容易,Tesla自动驾驶难

与生命赛跑,Serverless提升AI诊断效率90%

技术创造新商业:云研发时代的效能挑战

生不出孩子怪天气?驳《我国工业软件失去的30年》一文

应云而生,原力觉醒——解读云原生基础设施

又一次全球第一!

帮您管好云:阿里云混合云管理平台发布

阿里云蒋江伟:我们致力于为世界提供70%的算力

搭载敏捷飞天底座 阿里云专有云敏捷版全面升级

性能飙升160%!阿里云发布第七代ECS、云原生数据库PolarDB-X等重磅新品

长按扫描二维码关注凌云时刻

每日收获前沿技术与科技洞见

你可能感兴趣的:(乘风破浪的中国数据库 | 凌云时刻)