作者:eygle
国产数据库正处在一个百花齐放的历史时期,据悉国内各类数据库产品已经超过了300个,排在墨天轮国产数据库流行度排行榜上的数据库产品已经超过了160个。
那么国产数据库到底面临了哪些挑战,应当如何破局才能够加速发展,成长出领先国际的数据库产品呢?
通过我们收集的事实,做出的分析思考,希望以一个系列的文章,谈一谈我们对于国产数据库的发展建议。以下的讨论仅仅就关系型数据库做出讨论。
更多数据库行业变革,欢迎光临 2021 数据技术嘉年华 :https://www.modb.pro/dtc2021
墨天轮排行数据库分析
根据不完全统计,墨天轮榜单中,关系型数据库占据了88个席位,是最重要的产品品类,分布式数据库有22个产品上榜,是第二大品类,图数据库以17个产品身处第三大品类。由此可以看到,在国产数据库领域,关系型数据库是主流,图数据库是最热门的NoSQL数据库品类。
根据2021年11月墨天轮数据库流行度排行榜,目前榜单前10中,阿里系数据库占据三个席位,分别是 OceanBase、PolarDB、AnalyticDB,华为系占据两个席位,分别是 openGauss 和 GaussDB,腾讯一席,是 TDSQL,此外四个独立品牌分别是 TiDB、达梦、GBase和人大金仓。
2021 数据技术嘉年华大会,已经邀请到阿里云 PolarDB 掌门人李飞飞、华为云 GaussDB掌门人 苏光牛、TiDB 联合创始人 黄东旭、OceanBase技术总监 杨传辉、腾讯云数据库副总经理 王义成、云和恩墨 MogDB for openGauss 掌门人张皖川。2021年12月23~24日,精彩不容错过 。
Oracle的研发人员规模
那么开发一个国际一流的数据库产品,到底需要多少人呢?
我们尝试以Oracle数据库为例,讨论一下这个问题。
目前,在Oracle公司内部,负责核心数据库研发的,主要有两大团队,分别处于 Andrew Mendelson 和 Juan Loaiza 两位执行副总裁(EVP)的领导之下,他们直接向Oracle公司创始人 Larry Ellison汇报,这两个团队是Oracle数据库的核心部队,据说合计约有4,000人的规模,这里的人员规模不包含服务团队,在Oracle公司服务支持团队不归属研发序列。
Andy Mendelsohn 掌管数据库服务器技术部门( database server technologies), Juan Loaiza掌管关键数据库技术部门(mission-critical database technologies)。以前,Juan Loaiza在Andy Mendelsohn 的管理之下,前几年被擢升。
Andy Mendelsohn 毕业于普林斯顿大学,自1984年开始在Oracle工作,至今已经37年,被称为是Oracle数据库的掌门人,他现在仍然负责包括Oracle数据库、大数据、自治云、开发工具、测试等核心团队,是Oracle研发的主要产出部门,在疫情之前,每年 Andy Mendelsohn 都会到访中国,和社区用户展开探讨。
Juan Loaiza 于1988年毕业于MIT,一直在Oracle公司工作,至今33年,他负责领导公有云和私有部署中事务处理和工程系统技术(Exadata)的产品战略、产品开发和产品管理,是公认的数据库技术创新者。Oracle的高可用技术(HA)研发也在他的团队中,经常到访中国的 Wei Hu 先生就是 HA 团队的负责人。
考虑到Oracle数据库产品组织涵盖的周边非常庞杂,例如大数据一体机、数据库一体机、开发工具(如APEX)、Database Cloud、NoSQL、In-Memory、测试团队等均在其中,我们预计其 Oracle Database 内核相关的开发人员应当在50%左右(也就是约2000人)。
以上是 Oracle 的研发情况一瞥。也由此可见,开发一个基础软件,规模化投入是多么的重要!
开源商业发行版EDB的人员规模
基于一个开源数据库的商业版本需要多少人?
EDB是一个可以参考的例子,EDB的全称是 EnterpriseDB,是基于 PostgreSQL 的一个定制分支。
EDB在PostgreSQL基础上,针对企业级应用进行了专门的优化,增加了一系列如动态性能调优(DynaTune)、EDB Loader、高效批量SQL处理等高级特性。EnterpriseDB 高度兼容了 Oracle 数据库,在数据库迁移上具有便利性。
在几年前的一个分析报告上,我们看到EDB拥有大约300~400名员工,在2016年度实现了大约3100万美元的收入。
当然今天EDB的规模在不断壮大,今天的估计人数在500人左右,实现年度4500万美元收入。
下表还展示了NoSQL公司 MongoDB 拥有1200名员工。
同时我们注意到,Cockroach Labs 大约有200人。
openGauss 的研发团队规模
openGauss 作为华为的开源数据库,早期是基于 PostgreSQL 9.2 进行的迭代研发,那么 openGauss 的官方研发团队就和 EDB 很有可比性了。
早前,EDB 在 PostgreSQL社区核心团队仅有一名核心成员,以及 4位主要贡献者;目前 openGauss 社区技术委员会成员如下,主席是田文罡,成员包括李国良、李士福、胡正策、任阳、黄凯耀、周平高等,主要成员来自华为、清华大学,华为处于主导地位,openGauss 要打造根社区,成员规模还在不断扩大中。
此外,虽然没有明确的数据,但是据悉 openGauss 的研发团队规模远超200人。云和恩墨的 MogDB 作为 openGauss 认证的主要商业发行版之一,同样投入了近百人的团队参与社区建设,openGauss 的开源伙伴计划,正在汇聚越来越多的规模化团队,促进国内数据库根生态的蓬勃发展。
国内数据库企业人员规模
那么国产数据库企业现在的团队规模是怎样的呢?
根据信通院发布的报告,我国数据库企业人员平均人数约为184 人,最高为 1200 人左右规模,最低为 10 人左右规模。其中 21-50人左右规模企业占比最高,数量 34 个,比例达到 43%,人数在 51-100人左右规模次之,数量为 12 个,占比 15%。
根据公开数据显示,武汉达梦数据库公司参加社保人数为 336人,此外,上海达梦约100人,北京达梦约150人,加上其他人员,合计人数约在700人左右。这是独立数据库企业中的佼佼者,可以作为国内数据库企业的参考:
另据统计数据,达梦公司中,技术人员占比约为50%,其他为财务、行政、销售、市场等。
人大金仓的社保人数约为430人,也处于国产数据库企业的前列位置。
根据智研咨询和兴业证券的研究数据,人大金仓的技术人员占比较低,约为20%左右:
在2021年腾讯全数字生态大会上,腾讯投了了一个数据,TDSQL “整个过程投入了 600 多人,坚持了十四年”,这里的 600人 应该是个多年累计的概数,但是腾讯的数据库研发团队规模在行业应当是名列前茅的。
综合以上的公开数据分析,我们认为,在一家独立的数据库企业中,技术研发人员占比为 50%左右是一个合理的数字。
在信通院的人员分布统计数据中,国产数据库厂商中排在前几位的就应当是几家知名的巨头企业,如华为、阿里、腾讯等,这些厂商的研发有大规模人力投入在各类云数据库中,单一数据库(如华为 openGauss)的人员规模也应该在数百人左右,也就是和达梦、金仓等公司的投入规模相当。
策一:数据库企业应加速规模化
我们可以推断,一家独立的数据库公司,开发单一的核心数据库产品,人数在200人左右是一个中等规模的配置,500人左右规模可以排在前列,而1000人左右的规模将可以进入前三甲的位置。按照50w/人的人均年薪计算,这三个量级的年人力成本大约在1亿、2.5亿和5亿元左右。
在关系型数据库的发展道路上,独立的数据库企业应当至少成长为1000人左右的规模,才能够在全球数据库领域挑战关键场景、核心业务,引领行业发展。在中国数据库领域,率先达到这一规模的企业,将具备无可争议的领先优势。
根据统计数据,2020年,中国数据库市场规模约为241亿元,其中传统部署模式占比为55%,云上占比为45%。根据Gartner预测:2021年云数据库在整个数据库市场中的占比将首次达到50%。预计到2025年,中国数据库市场总规模将达到688亿元,市场年复合增长率为23.4%。
如果到2025年,国产数据库在总体数据库市场占比达到33%(2017年国产数据库占有率为14.26%),那么将是227亿的规模。
目前,国内厂商正处于百花齐放、人员分散的创业初期,在接下来的快速发展阶段,应该走向整合集中,形成规模优势,构建健康的产业链生态,才能够实现国产数据库在关键领域的突破,承载广阔的市场需求,服务更多的企业级客户。
也期望有越来越多的从业者,不断加入国产数据库的阵营,坚持以恒,国产数据库产业必将获得突破和成功!
参考文献
1.信通院:2021年数据库发展研究报告(https://www.modb.pro/doc/38220)
2.兴业证券:2020数据库研究报告(https://www.modb.pro/doc/4452)