工业数据库发展如何满足新型工业化需求?
作者|陈杨
编辑|王博
回看历次工业革命,工业都是一个国家综合国力的根基、经济增长的主引擎以及技术创新的主战场。
今年 9 月,全国新型工业化推进大会在京召开。会后,各地纷纷进行再动员、再部署,加速推进新型工业化。一时间,新型工业化成为各地抓经济、促发展的“热词”。日前召开的中央经济工作会议明确指出,要大力推进新型工业化。
2002 年,新型工业化的概念首次被提出。此后 20 年,新型工业化的内涵不断被丰富。究其本质,新型工业化的核心是在传统工业化基础上,利用新一代信息技术和先进制造技术,推动产业结构升级、生产方式变革和经济发展模式转变的过程,是工业化和信息化的深度融合。
这与近年来国家倡导的工业数字化转型无疑是相通的,即用数字化技术结合行业 Know-How,帮助工业企业实现降本、增效、提质,从高速发展走向高质量发展。
随着工业数字化进程不断加快,工业海量数据及丰富的应用场景正在不断激发数据要素的潜在价值,推动传统产业数字化转型,催生新模式新业态,为工业转型升级、实现高质量发展提供了现实路径。
但是,相比其他行业,工业数据体量大、分散度高、实时性强,这也意味着管理难度更高。
在倡导数据驱动、数据决策的今天,工业企业的确需要一个更强大、更符合物联网时代需求的数据库,替代传统关系型数据库。
近期,「甲子光年」注意到,一款面向工业物联网需求的国产自研数据库 —— Apache IoTDB 悄然登上了国际知名评测机构榜首。而在产业中,一些工业头部企业,也已经在这款数据库的赋能下开始行动。
在解决“缺芯少魂”问题的过程中,这是一次不亚于自研芯片的突破。
1996 年 9 月 15 日,位于江苏徐州的彭城电厂1号机建成投产,比计划提前 105 天。徐州华润电力有限公司成为了中国第一个自主建设、自主管理、自主经营的电力项目,创造了多项行业奇迹,这个项目被称为“彭城模式”而载入中国电力史册。
彭城电厂揭牌仪式,图片来源:华润集团
无论是开工之际就公布完工节点的大胆创举,还是探索“建设即运营”的管理模式,亦或是低于行业造价的高标准建设,华润电力开辟了国内电力项目自主建设、自主管理、自主经营的先河。
从一个只有两台 30 万千瓦机组的项目公司起步,华润电力从一座小城走向全国,并于 2003 年在香港联合交易所主板上市,目前业务涉及风电、光伏发电、火电、水电、分布式能源、售电、综合能源服务、煤炭等领域。
截至 2023 年上半年,华润电力总资产 3105.49 亿港元,运营装机容量 70793 兆瓦,发电运营权益装机容量 54986 兆瓦,可再生能源权益装机占比 34.5%。
在传统电力系统中有着“源网荷”三要素,分别指的是发电、电网、负荷,仅有负荷单一要素不可控。不过,由于新能源发电的随机性、波动性和不可控,导致发电端的可靠性在降低,再加上负荷本就不可控,这对要求确保实时平衡的电力系统造成巨大挑战,对于华润电力这样一家综合能源公司来说,如何建立新型电力系统成为了思考问题。
增加储能模式自然可以,但高额的成本意味着完全靠储能平衡供需两侧非常困难。依靠储能再结合数字化的手段,对发电量、用户侧需求通过模型预测,再借助储能调整,进而实现精准控制,从而保持电力系统稳定高效的运行,成为华润电力的破局之道。
这也导致数据库在智能发电控制系统中角色的转变:要求数据库从面向过程的定周期计算到以状态空间为核心,成为不同功能的交互枢纽,满足不同应用接近实时的处理。“状态空间绝对不是一个无时间序列的,它要求一个必须基于时间序列的实时系统。” 华润电力技术研究院副院长郭为民在 2023 IoTDB 用户大会上表示。
同样是在 1996 年,钢铁市场进入寒冬,一场以产销研一体化推动企业深层次变革的行动在上海宝钢开始了,主题是“以质量提高、品种升级来实现效益最大化”,方法是“把衡量质量的尺子交给用户”。
后来,宝钢实施了多次联合重组,成立了中国宝武钢铁集团有限公司(以下简称“宝武”)。如今,宝武在 2023 年公布的《财富》世界 500 强排行榜位列 44 位,继续位居全球钢铁企业首位。
作为宝武的子公司,宝武装备智能科技有限公司(以下简称“宝武装备”)是一家聚焦智能运维的专业化高科技公司,旨在以数据为核心,通过智能感知、智能采集、智能传输、智能模型、智能算法,推动传统设备技术服务的智能化升级,并形成了以热轧、连铸、风机、电机为代表的系列智能运维系统解决方案。
截至目前,宝武装备打造的宝武智维云平台已覆盖 21 大基地、27 个子平台,接入 600000+ 设备、2400000+ 数据项,管理总数据量 5PB+。
工业数字化过程中,问题也来了。
随着管理数据量的不断增加,原有数据库也限制了宝武装备的发展。
宝武装备技术中心副主任赵刚表示,原有数据库管理系统一方面是写入慢、查询慢、加工慢、抽取慢,另一方面表现在汇聚难、清理难和备份难。“我们公司还有一个专门的AI团队,他们经常跟我诉苦说一旦模型对数据的并发量上去,整个平台稳定性便受到影响。” 赵刚说。
实时处理、海量数据读写、分布式部署、毫秒级数据查询,这便是以华润电力、宝武装备为代表的大型工业企业在物联网时代对数据库的需求。 “传统关系型数据库通用能力很强,但越通用,在特种场景中性能可能便越有瓶颈,这就像全科生和专科生一样。” Apache IoTDB PMC Member、天谋科技 CTO 乔嘉林这样向「甲子光年」解释。
既然传统关系型数据库无法满足工业数字化对带有时间标签数据的有效处理,一种专门面向电力、化工、能源、制造等工业数据实时处理的数据库——时序数据库应运而生,该类数据库通常具有应对高频采集、实时读写、海量数据存储等工业数据处理难点的能力。
不同数据库及部分时序数据库对比,图片来源:Apache IoTDB
从诞生时间来看,时序数据库不过 2010 年后的产物。但在此之前,一类名叫实时数据库的产品早已被广泛用于工业领域,进行数据的实时采集、获取。其中,美国 OSISoft 公司推出的 Pi 实时数据库便是全球实时数据库的领导者。
乔嘉林告诉「甲子光年」:“实时数据库是从 Pi 系统翻译过来的。时序数据库最初仅仅是单纯的数据库,后面逐渐加入了采集、可视化等组件,慢慢地往周边工具扩展,所以我认为实时数据库和时序数据库这两个概念慢慢会基本融合。”
如今,随着智能制造、物联网、新型工业化等概念的普及,时序数据库也成为数据库领域炙手可热的话题,国际权威数据库排行网站 DB-Engines 今年 7 月的流行度数据显示,时序数据库在所有数据库类别中排名第二。
对于时序数据库的价值与发展,乔嘉林表示:“相比传统关系型数据库,时序数据库首先解决了高通量的写入问题,用户不用为数据的存储频率妥协,能够实现应采尽采、应存尽存。后续数据的实时处理、应用分析、智能处理等能力也在慢慢扩展到时序数据库中。”
时序数据管理技术演进,图片来源:天谋科技
面向市场层面,如今主流的时序数据库包括 InfluxDB、OpenTsdb、TimescaleDB 等几款开源项目,国内阿里云、华为云、百度智能云、青云等云服务商也分别推出了时序数据库产品。
“缺芯少魂”一直是困扰中国信息产业发展的难题,其中“缺芯”多数人比较了解,而“少魂”中的“魂”便是指以操作系统、数据库为代表的基础软件。
“芯片卡脖子很要紧,但软件卡脖子一样要紧。必须要把软件的根扎下去,才能让创新持续发生,才能让顶层的商业更加繁荣。”今年 1 月 10 日,在百度 Create AI 开发者大会上,百度创始人、董事长兼首席执行官李彦宏如此强调基础软件的重要性。
此前关系型数据库的时代,数据库市场常年由 Oracle、IBM、SAP、微软等国外科技巨头主导,随着云计算的到来以及分布式技术的发展,国内数据库厂商开始了追赶乃至反超。
如今进入物联网、大数据时代,面向新型工业化对数据库的需求,中国信息产业已经告别了“少魂”的局面,因为一款完全国产自研时序数据库 —— Apache IoTDB 出现了。
近期,来自 benchANT(国际知名数据库评测机构,专做云设施和数据库性能评估)的测试数据显示:Apache IoTDB 是目前唯一上榜的国产时序数据库,且位居 benchANT 时序数据库排行榜 Time Series: DevOps 场景写入吞吐量、存储占用、查询延迟、成本效益等多项性能表现的第一名。
benchANT时序数据库排行榜,图片来源:benchANT官网
Apache IoTDB 的诞生,源于 2011 年清华大学软件学院参与国家“863 计划”课题时,在处理工业领域时序数据时发现了传统技术与工业物联网应用之间的功能与性能问题,后于 2015 年正式开始“清华 IoTDB”时序数据库管理系统的研发,此后自研的列式紧致文件存储格式 TsFile 实现了技术上的突破,其写入、存储、查询等性能初露头角。
后续,IoTDB 历经下述几个发展阶段:2018 年,成为全球最大的开源软件基金会 Apache Software Foundation 的孵化器项目,即 Apache IoTDB;2020 年,从孵化器毕业升为全球 top-level 项目(TLP),建成全球认可的国际开源社区;2021 年,IoTDB 核心研发团队成立商业化公司天谋科技;2022 年,正式发布 1.0 分布式版本,实现元数据与数据分区、多主共识协议等技术突破。
清华大学软件学院院长、IoTDB 项目创始人王建民介绍,IoTDB 的目标是构建一个新一代、跨越端边云的工业物联网数据基础设施,实现了“贯通端边云的时序数据文件格式 TsFile、基于量化和降序位压缩的频域压缩算法 FREQ、面向物联网场景的多副本一致性 NB-Raft 共识协议与 IoT-Consensus 共识协议、管理分析一体化数据库系统架构”四大创新。
IoTDB跨端边云逻辑图,图片来源:清华数为
回顾过去一年,IoTDB 紧扣工业大数据管理的痛点进行了架构、性能、功能、稳定性的多方向迭代。据悉,2023 年,IoTDB 新增 80 万行代码、各渠道下载量增加10倍以上、代码提交活跃度在 Apache 基金会 360 多个项目中最高排行第二。
在本月初举行的 2023 IoTDB 用户大会上,IoTDB 企业版迎来 V1.3 版本的发布。乔嘉林介绍,新版本围绕工业用户提出的企业级服务、易用工具、行业特色功能等需求,实现了“单平台采存算管用”的横向一站式解决方案与“跨平台端边云协同”的纵向一站式解决方案打通,进一步满足工业数字化转型所需的时序数据管理一站式服务。
IoTDB系统架构,图片来源:天谋科技
截至目前,IoTDB 已在能源电力、钢铁冶炼、航空航天、石油石化、智慧工厂、车联网等领域服务于超 1000 家规上工业企业用户,其中不乏中核集团、国家电网、中国中车、中石油、中石化、中国移动、中国宝武等众多央企、国企。
郭为民介绍,华润电力在建设新型电力系统时,选择了将 IoTDB 作为华润电力智能火电厂与华润电力新能源智慧运营系统的数据管理核心,以支持海量测点、数据量的时序数据管理,并支持华润智能管理系统采用云、边、端协同的技术架构,从而建立不同网络资源环境下,稳定协同、灵活同步的数据流转体系。
宝武装备则基于 IoTDB 全面重构了宝武智维云数据底座,从而实现 1 个量级性能提升、存储成本下降(压缩比提升 7-8 倍)、运维手段丰富、数据资产汇聚、AI 模型训练得到加速。赵刚表示:“经过谨慎对比,我们决定选用 IoTDB 来做我们的解决方案,不仅仅因为它是我们国产的数据库,更因为它的高性能。”
事实上,以 IoTDB 为代表的国产数据库的崛起,不仅得到了大型工业企业的应用,也得到了国际知名数据库专家的认可。
美国国家工程院院士、国际著名数据库学者 Dr.C.Mohan 告诉「甲子光年」:“中国的数据库其实已经到了一个比较成熟的阶段。但相比国外,中国数据库的发展不仅要重视论文的发表,同时需要更多的产品、技术等人才共同参与进来,把数据库相关的技术进行共享、解读,站在用户侧、产业侧传播。”
(封面图来源:摄图网)
END.
Apache IoTDB 是一款低成本、高可用的物联网原生时序数据库,采用端边云协同的轻量化结构,支持一体化的物联网时序数据收集、存储、管理与分析,具有多协议兼容、超高压缩比、高通量读写、工业级稳定、极简运维等特点。目前已服务规上工业企业超过 1000 家。
作为全球性开源项目,截至目前,Apache IoTDB 已拥有 264 名贡献者、4.1K Stars、955 Forks、10046 Commits。我们为大家提供了参与指南,欢迎越来越多的小伙伴助力 Apache IoTDB 项目的不断发展与前进,迈出加入 Apache IoTDB 社区的第一步!