在物联网领域数据管理的需求也有很多的还有细分,其中工业时序数据是非常重要的一类应用场景。它们的特点包括占空间大、数据吞吐量大、产生速度快且不间断。
比如金风科技有超过 4 万风机在运行,每个风机有 120-510 个传感器,采集频率从 0.00167Hz 到 50Hz 不等。这对于数据接收与采集都是很大的挑战。
今天的主角是IoTDB,它是一款聚焦工业物联网、高性能轻量级的时序数据管理系统,也是一款开源数据库。
项目初心
项目发起者是几个清华的博士生,因为要解决工业数据的存储、应用问题,而接触 Apache 的Cassandra数据库,甚至深入研读了代码,但依然发现无法很好的满足项目的需求。
比如:
由于网络延迟、设备故障等原因,数据无法完全保序到达;
由于设备故障、损坏等原因,在进行分析等操作前,需要对错误数据进行修正;
过时数据或无效、无用数据需要清理;
……
缘起于2012 年,三一重工有 20 万台设备在线,持续采集数据3 年后,Oracle 吃不消了,改用 5 台Cassandra后性能也一般。于是试着基于Cassandra研发分布式时序数据库,但也不是很理想。
于是有了 IoTDB。
官网:http://iotdb.apache.org/
代码仓库:https://github.com/apache/iotdb/tree/master
应用架构
IoTDB 的架构图如上所示,覆盖了对时序数据的采集、存储、查询、分析以及可视化等全生命周期的数据管理功能,其中灰色部分为 IoTDB 组件。
功能特点
灵活的部署方式
- 云端一键部署
- 终端解压即用
- 终端-云端无缝连接(数据云端同步工具)
低硬件成本的存储解决方案
- 高压缩比的磁盘存储(10 亿数据点硬盘成本低于 1.4 元)
目录结构的时间序列组织管理方式
- 支持复杂结构的智能网联设备的时间序列组织
- 支持大量同类物联网设备的时间序列组织
- 可用模糊方式对海量复杂的时间序列目录结构进行检索
高通量的时间序列数据读写
- 支持百万级低功耗强连接设备数据接入(海量)
- 支持智能网联设备数据高速读写(高速)
- 以及同时具备上述特点的混合负载
面向时间序列的丰富查询语义
- 跨设备、跨传感器的时间序列时间对齐
- 面向时序数据特征的计算
- 提供面向时间维度的丰富聚合函数支持
极低的学习门槛
- 支持类 SQL 的数据操作
- 提供 JDBC 的编程接口
- 完善的导入导出工具
完美对接开源生态环境
- 支持开源数据分析生态系统:Hadoop、Spark
- 支持开源可视化工具对接:Grafana
应用场景
场景 1
某公司采用表面贴装技术(SMT)生产芯片:需要首先在芯片上的焊接点处印刷(即涂抹)锡膏,然后将元器件放置在锡膏上,进而通过加热熔化锡膏并冷却,使得元器件被焊接在芯片上。上述流程采用自动化生产线。
为了确保产品质量合格,在印刷锡膏后,需要通过光学设备对锡膏印刷的质量进行评估:采用三维锡膏印刷检测(SPI)设备对每个焊接点上的锡膏的体积(v)、高度(h)、面积(a)、水平偏移(px)、竖直偏移(py)进行度量。
为了提升印刷质量,该公司要将各个芯片上焊接点的度量值进行存储,以便后续基于这些数据进行分析。
此时可以采用 IoTDB 套件中的 TsFile 组件、TsFileSync 工具和 Hadoop/Spark 集成组件对数据进行存储:每新印刷一个芯片,就在 SPI 设备上使用 SDK 写一条数据,这些数据最终形成一个 TsFile 文件。
通过 TsFileSync 工具,生成的 TsFile 文件将按一定规则(如每天)被同步到 Hadoop 数据中心,并由数据分析人员对其进行分析。
该场景仅需要 TsFile、TsFileSync 部署在一台 PC 上,此外还需要部署 Hadoop/Spark 连接器用于数据中心端 Hadoop/Spark 集群的数据存储和分析。其示意图如上图所示。下图展示了此时的应用架构。
场景 2
某公司拥有多座风力发电机,公司在每个发电机上安装了上百种传感器,分别采集该发电机的工作状态、工作环境中的风速等信息。
为了保证发电机的正常运转并对发电机及时监控和分析,公司需要收集这些传感器信息,在发电机工作环境中进行部分计算和分析,还需要将收集的原始信息上传到数据中心。
此时可以采用 IoTDB 套件中的 IoTDB、TsFileSync 工具和 Hadoop/Spark 集成组件等。需要部署一个场控 PC 机,其上安装 IoTDB 和 TsFileSync 工具,用于支持读写数据、本地计算和分析以及上传数据到数据中心。
此外还需要部署 Hadoop/Spark 连接器用于数据中心端 Hadoop/Spark 集群的数据存储和分析。如下图所示。
下图是此时的应用架构。
场景 3
某工厂在厂区范围内拥有多种机械手设备,这些机械手设备的硬件配置有限,很难搭载复杂的应用程序。在每个机械手设备上工厂安装了很多种传感器,用以对机械手的工作状态、温度等信息进行监控。
由于工厂的网络环境原因,在工厂内部的机械手均处于工厂内部局域网内,无法连接外部网络。同时,工厂中会有少量服务器能够直接连接外部公网。
为了保证机械手的监控数据能够及时监控和分析,公司需要收集这些机械手传感器信息,将其发送至可以连接外部网络的服务器上,而后将原始数据信息上传到数据中心进行复杂的计算和分析。
此时,可以采用 IoTDB 套件中的 IoTDB、IoTDB-Client 工具、TsFileSync 工具和 Hadoop/Spark 集成组件等。
将 IoTDB 服务器安装在工厂连接外网的服务器上,用于接收机械手传输的数据并将数据上传到数据中心。
将 IoTDB-Client 工具安装在每一个连接工厂内网的机械手上,用于将传感器产生的实时数据上传到工厂内部服务器。
再使用 TsFileSync 工具将原始数据上传到数据中心。
此外还需要部署 Hadoop/Spark 连接器,用于数据中心端 Hadoop/Spark 集群的数据存储和分析。
整体如下图所示。
下图给出了此时的应用架构。
场景 4
某汽车公司在其下属的汽车上均安装了传感器采集车辆的行驶状态等监控信息。这些汽车设备的硬件配置有限,很难搭载复杂的应用程序。安装传感器的汽车可以通过窄带物联网相互连接,也可以通过窄带物联网将数据发送至外部网络。
为了能够实时接收汽车传感器所采集的物联网数据,公司需要在车辆行驶的过程中将传感器数据通过窄带物联网实时发送至数据中心,而后在数据中心的服务器上进行复杂的计算和分析。
此时,可以采用 IoTDB 套件中的 IoTDB、IoTDB-Client 和 Hadoop/Spark 集成组件等。将 IoTDB-Client 工具安装在每一辆车联网内的车辆上,使用 IoTDB-JDBC 工具将数据直接传回数据中心的服务器。
此外还需要部署 Hadoop/Spark 集群用于数据中心端的数据存储和分析。如下图所示。
系统架构
IoTDB 套件由若干个组件构成,共同形成“数据收集-数据写入-数据存储-数据查询-数据可视化-数据分析”等一系列功能。
上图展示了使用 IoTDB 套件全部组件后形成的整体应用架构。当然实际项目中,我们只需要按需求选择必要的组建即可。
用户可以通过 JDBC 将来自设备上传感器采集的时序数据、服务器负载和 CPU 内存等系统状态数据、消息队列中的时序数据、应用程序的时序数据或者其他数据库中的时序数据导入到本地或者远程的 IoTDB 中。
用户还可以将上述数据直接写成本地(或位于 HDFS 上)的 TsFile 文件。
可以将 TsFile 文件写入到 HDFS 上,进而实现在 Hadoop 或 Spark 的数据处理平台上的诸如异常检测、机器学习等数据处理任务。
对于写入到 HDFS 或者本地的 TsFile 文件,可以利用 TsFile-Hadoop 或 TsFile-Spark 连接器允许 Hadoop 或 Spark 进行数据处理。
对于分析的结果,可以写回 TsFile 文件。
IoTDB 和 TsFile 还提供了相应的客户端工具,满足用户查看和写入数据的 SQL 形式、脚本形式和图形化形式等多种需求。
在测在用的用户
IoTDB经过这些年发展,在国内形成较好的口碑,越来越多的企业加入到 IoTDB 的用户群体中。
后记
好的开源产品除了需要核心成员的热爱与投入,更需要广大用户的共同努力。较其他软件而言,数据库软件面临的工程化挑战会更多,于是需要我们在更多的场景中验证、打磨,软件质量即是装机量的函数,更是时间的函数。
作者:黄军雷
数据驱动价值 热爱成就非凡