数据库行业发展剖析
中国数据库行业发展史
首先我们回溯一下中国数据库行业发展史。中国数据库行业的起源是在恢复高考之后(1978年),当时萨师煊老师出版了中国第一部数据库教材《数据库技术概论》,当时国防、军工等很多核心领域开始应用数据库。90年代初,中国商业数据库的格局初步形成。1989年,Oracle正式进军中国,依靠强大的生态、服务体系和产品优势,垄断了金融、电信等许多行业,占据了中国数据库市场份额的半壁江山。
2000年起BAT相继创立,而当时Oracle价格昂贵,互联网公司资金有限的情况下难以承受庞大的数据库商业费用。所以在这时,以MySQL为首的开源数据库就开始与互联网公司进行碰撞了。MySQL在互联网公司呈现了一统江湖的状态,丁奇等优秀的开源技术领袖都是在那个阶段开始逐渐涌现。
2010年4G开始大批量使用,2011年相继出现了很多优秀的互联网公司,如美团,滴滴等。到2013年这些优秀的公司开始迸发,一直到今天,这波互联网红利还在持续地演进。这个阶段是互联网百花齐放的一个阶段,消费互联网还在延展,并且正在进入消费互联网和产业互联网结合的阶段。To C领域的消费互联网,还在大批量的迸发,诸如拼多多等破千亿美元市值的公司还在出现。
所以我认为,从2013年到现在,优秀的应用、公司开始涌现之后,也迎来了业务多元化高速发展的阶段。我们也看到这些优秀的互联网公司里开始不再只是MySQL一种引擎去支撑公司的业务发展。像Postgre、MariaDB、Redis、Cassandra、MongoDB等优秀的开源数据库也都开始在这些互联网新贵的核心业务系统中承载很重要的作用。
数据库商业模式变迁
换一个维度来看,数据库的商业形态、商业模式上到底有什么样的变迁?
刚才讲到90年代Oracle数据库开始进军中国,这是一种传统商业数据库的模式,以卖license、卖服务的模式来提供商业价值。这种模式以Oracle、SQLServer、Informix、DB2为代表,这种商业模式已经存在了多年。今天早上我看了Oracle公布的第四季财报,整体收入同比下降6%;软件license的收入同比下降超过20%。从财报的数据可以看到,这种传统的商业模式正在被逐渐的侵蚀,客户的付费模式在发生变化。这时一定有新的商业模式来替换。
再看中间“百花齐放”的几个发展阶段,又可以分为三大类。第一类是老牌国产数据库,如达梦、人大金仓、南大通用等以高校为背景成立的优秀数据库公司,他们的模式跟商业数据库很像,但是他们有新的响应模式,他们切的是老的党政机关政务内网、政府等一些集中式的数据库场景。
随着时间的延伸,逐渐出现第二类—开源商用数据库,MySQL、MongoDB、Redis等优秀的开源数据库出现。但开源总归是一门生意,它是一个闭环的商业模式。国外有很多优秀的商业公司在后台运作这批开源数据库,来为用户提供更加高价值、或者企业化的服务,来完成它的商业模式闭环。比较有代表性的比如MongoDB atlas,它把MongoDB做开源之后,提供atlas云服务,也提供线下的企业版服务,来形成商业模式的闭环;而RedisLab主要是以色列人和美国人建立的,利用Redis开源软件逐渐的实现它的企业级功能,然后为用户提供服务。
第三类是新晋的国产数据库,他们的商业模式本质上没有变化,而是切入了更新的场景。比较典型的代表有PingCAP、巨杉等,他们提出的场景是出于用户的开发者高效运维的角度来切一个特定场景,然后用传统的企业软件模式或者license模式来切这部分相应的市场。
最后就是云服务模式的到来,即云服务厂商来提供相应的数据库服务。不再是提供license授权、或提供人工服务,而是采用租用模式,改变了整个数据库商业模式。比如腾讯云、阿里云、AWS数据库,都是云服务厂商基于开源数据库或者商业数据库做相应的产品化、商业化的工作,为用户提供租用数据库服务。
国产数据库布局
上述我们了解了近30到40年数据库行业在商业模式上的大变迁。下面我们聊一下国产数据库的布局。在中美贸易战背景下,包括类似Matlab软件使用限制事件发生后,国内有很大的声音在呼吁做自主可控的“中国芯”核心组件。而我们认为,IT基础设施三个最核心的组件,一个是服务器/芯片,一个是操作系统,另一个就是数据库。
国产数据库有哪些商业模式和应用场景?
第一类是传统国产数据库,由高校系的老师带领团队做产品化和商业化的运作,比如达梦、金仓等,更多的是贴合集中式数据库场景,他们的具体客户案例以集中式数据库偏多。
第二类是互联网厂商性质的数据库(也包括华为),这类的数据库厂商就是自己使用,自己的数据库在自己的业务中做了很多的独特的打磨,然后在自己的这种大规模的并发业务中,承担了很多的流量之后,再把这样的数据库去产品化,提供给广大用户。以腾讯和阿里为代表,腾讯的像TDSQL,TBase都是支持内部的微信支付,财付通,有很大的交易流量,之后再逐步产品化,给外部用户使用。像阿里的OceanBase可能也是这样的,内部支持蚂蚁金服,然后再去逐渐的开放给广大的传统行业去使用。
第三类就是新兴的数据库,说新兴是因为他们不是一种传统高校的背景,也没有他们自己的数据库,也没有自己内部的一个场景,但是他们确实看到了用户使用上的一个痛点,从一个细分场景去切,然后逐渐的去把这种商业的盘子做大。比如像PingCAP这样的数据库,他们刚开始起步的时候,出于用户使用分布式数据库开发角度,或者说运维角度的不便利,使用传统的计算跟存储分离的模式,然后以一个统一的使用方式去调用分布式数据库,然后切到了相应的场景去做线下的产出跟商业化的操作。
第四类就是第三方平台型的数据库,这类一般是指公司在某个行业有多年积累,然后根据这个行业的特定场景做一款数据库,之后再逐步推广到其他领域,比如亚信,中兴。亚信是一个运营商行业老牌公司,对于运营商的一些核心业务系统,他们使用了适用于这些业务的数据库,再从运营商推广到其他行业,逐步的产品化。
综上,目前我们国产数据库也是一个百花齐放的状态,大致可以分为这4类。我认为第二类的数据库厂商可能是更适合于在现在的大环境,因为它毕竟是在大规模的应用上已经自己磨练出来了一套相对稳定、功能相对齐全的一套数据库,然后再去应用不同的场景,再把这样的数据库推给更多的用户,更多的行业去使用。我认为这种模式在工程化跟商业化实践中,更容易摸索出一条成功的道路。
新基建对数据库行业的机遇
第二个话题是关于新基建对于数据库行业的挑战和机会。新基建包括了大概7个领域,包括5G基站、城际高速等,其中跟产业互联网相关的,主要是5G、大数据中心、人工智能、工业互联网这几个领域,我总结新基建主要分为三个部分。
第一部分是信息基础设施,包括三部分,一是通信网络基础设施的提升,比如说5G可能有上百万个基站要去部署,整个网络的提速会非常快。二是新技术的基础设施,主要是指人工智能大数据等技术怎么去应用在新的技术基础设施上实现一个整体的提升。三是算力的基础设施的提升,主要包括在大数据中心,智能数据中心,边缘计算这些的基础设施方面的布局和建设。
第二部分是融合基础设施。一是物联网的智能交通的基础设施,其中整个的数据传导、数据汇聚、数据分析,以及在这套整体的基础设施中做的整个的产业互联网的布局的加速。二是智能能源的基础设施,就是七大领域中的工业互联网,包括这些基础的组件,数据的抽取、汇集、分析、加工,以及在整体基础设施上的全面提升。
第三部分就是创新基础设施,包括一些重大科技的基础设施的提升,然后科教基础设施的提升,产业技术包括创新科技园整个创新基础设施的全面提升。
宏观上来看新基建的7大领域会大概分为这三类,那么这些方面的提升对于数据库来说到底有什么本质上的冲击?
不管怎么变化,其实数据库的作用一个是装数据,一个是运算数据,一个是分析数据,最后是呈现数据。所以对于数据库来说,新基建和基础设施的提升主要有三个挑战:
第一,数据量会出现全面井喷的状态。在4G的模式下,AR、VR等并没有很好的用户体验,但真正到了5G时代,这些相应的基础设施能力提升之后,用户体验也会随之大幅提升,带来的问题可能就是数据量会出现井喷式增长。对于数据库来说,一方面在线交易的数据库的性能会爆发,尤其是频繁的增删改查的数据库操作。需要应对这种数据量的井喷,来满足实时的进行相应的运算。另一方面是在线分析数据库的业务性,怎么能够快速的进行在线的分析,这也会对于在线分析的数据库性能有较大的挑战。
第二是业务融合多样化的挑战。数据的呈现是多模态的,各种数据需要不同模式的数据库来承载,对于数据库来说就会滋生多模的业务需求(对于不同的数据类型、对于同样的业务接口或者指标,怎样把数据汇集和加工)。另外就是场景、部署的业务融合,新基建的领域里,有智能的IDC也有大数据中心,智能中心,有这种产业互联网融合基础设施的提升,不同的部署场景,不同的部署模式或者说不同的数据中心的部署,其实对于业务的融合也有很大的挑战。数据库是否能够接受在不同的业务中心、数据中心、基础设施之间去做相应的部署和融合,这也是未来对数据库一个大的挑战跟冲击。
第三是数据自动化治理或者数据库自动化优化层面的诉求和要求。随着中国老龄化的逐渐演变,包括人才红利的释放之后,数据库人才缺口可能会更大。对于数据库的提供商来说,就是要为用户提供多种的自动化的服务,或者说是AI类的服务。另外就是对于数据库多模的现状,数据库的厂商是否能为用户提供这种自动运维的服务,也是对整个数据自动化治理的重要挑战。