Hummer Sensor Data Platform 主要任务涉及传感器动产动态数据存储和数据分析两个环节。
- 数据存储要求能支撑 : 海量、高速的动态数据存储与检索(数据量达TP级别、每秒数据量可达百万条);
- 数据分析要求能支撑 : 实时数据统计、预测、异常检测、Adhoc查询(IOT应用往往要根据数据立刻做出反应,因此实时性必不可少) 和离线深度数据挖掘。
综上所述Hummer Sensor Data Platform 的数据架构必须满足“实时性“、“海量、高速存储”、”批量计算“等几个特征。
- 关于存储 : Hummer TimeSeries Database 是序时科技自主研发的大规模分布式时序数据库,可以轻松应对IOT传感数据存储和查询要求(具体见Hummer TimeSeries DB 技术白皮书)
- 关于批量计算 : Hummer TimeSeries Database 支持与Hadoop 体系无缝集成,因此可使用Hadoop的MR框架对历史时序数据进行深度分析,同时也可支持mahout,Weka等机器学习系统对历史时序数据做深度挖掘。
- 关于实时性 : Hummer Sensor Data Platform平台对于动态数据实时处理采用流式计算(Stream compute)技术提高处理响应速度(流式计算这种以时序数据驱动计算和生成结果的处理方式相比传统的RPC同步调用方式而言,处理速度要快很多,因此特别特别适合IOT实时性应用场景)。Hummer Sensor Data Platform 采用了开源流式计算系统Strom和Spark Stream(默认Storm)作为流式数据处理基础框架;同时又进一步又利用Esper、Hoidla、RapidMiner等流式算法库实现实时过滤、实时统计、实时预测等实时功能。
- 关于数据流Pipeline : 除了时序数据库、流式计算框架、批量计算框架外,为了方便数据处理流程衔接(上下游数据解耦交换)Hummer Sensor Data Platform 平台引入了数据总线(DATA Hub)作为数据交换中间层(从设备原始数据进入系统到各中间数据内部交换都将通过data hub的订阅模式完成)。 Hummer Sensor Data Platform 采用Kafka或RabbitMQ(默认Kafka)作为数据总线。
- 传感数据首先被写入到Kafka中 ―― kafka 是具备有限存储功能的异步消息总线
- Storm 中的spout订阅 Kafka 上的事件流,实时接收事件(传感器数据)
- Storm 中 raw data blot 负责将原始传感数据写入Hummer TimeSeries DB 中的原始时序表中
- Storm 中 业务bolt 负责对传感数据做实时处理(统计、预测、过滤),其结果或写入到Hummer TimeSeries DB 的结果数据表中,或转发给前端应用。