基于Flume、Kafka技术实现新能源大数据中心数据采集

随着近几年新能源发电行业的迅猛发展，新能源大数据中心平台建设也悄然兴起。越来越多的新能源企业投入人力、物力和财力着手建设自己的大数据中心，旨在提升生产管理水平和发电经济效益。大数据中心建设首先要解决的问题是大量数据的采集，数据采集的过程是从场站侧数据源到大数据中心的存储，在这个采集过程中，要保证数据采集的可靠性、安全性、可扩展性等等。本文提出基于Flue、Kafka技术实现新能源大数据中心数据采集，系统架构图如下所示：

系统架构

场站侧支持光伏电站和风电场不同类型数据源采集，采用Flume技术实现，Flume采集的数据经Source、Memory Channel、Kafka Sink推送到大数据中心Kafka消息队列缓存。同时，采集数据经Source、JDBC Channel、HBase Sink在本地数据库中也存储一份。另外，为了满足数据补采要求，场站侧提供RESTful服务从本地数据库中读取历史数据，提供大数据中心补采数据使用。Flume的Sink在将Channel数据成功发送之后，才将Channel中缓存的数据清除，极大的提高了数据采集的可靠性。Flume系统结构设计，如下图所示：

系统结构

采集数据从场站侧传输到大数据中心Kafka消息队列过程中，采用对称加密对数据进行加密，以提升数据安全性，数据传输内容统一采用JSON格式，内容包括测点编号、测点类型、测点值、时间戳。测点编号统一规划，保证其在整个大数据中心数据库中的唯一性。

另外，在大数据中心侧的Kafka消息队列中，为每一个场站指定1到n个主题，Kafka自动分配若干分区，以供采集数据缓存消息使用。当系统或网络出现异常时，大数据中心与场站侧数据采集出现中断，对于中断的数据，可以通过大数据中心提供的数据补采机制，远程调用场站侧提供的RESTful服务，从场站侧将缺失数据补采至大数据中心。Kafka中缓存的数据或补采获取的数据，将最终存储在数据中心数据库中。如下图所示：

大数据中心结构

在场站侧扩建或新建场站需要采集数据时，仅需要增加相应的Flume采集进程，在不中断原有数据采集进程的情况下，即可完成系统升级和扩展，系统灵活可扩展。

结束语：基于Flume、Kafka技术实现的新能源大数据中心数据采集系统技术架构，可靠性和安全性高，系统故障恢复能力强，且容易扩展和升级。

基于Flume、Kafka技术实现新能源大数据中心数据采集

你可能感兴趣的:(基于Flume、Kafka技术实现新能源大数据中心数据采集)