MiNiFi初探

Apache NiFi是由NSA(美国国家安全局)开源并贡献给的Apache社区的易于使用且功能强大的数据处理和分发系统,可以帮助用户建立和管理复杂的数据流,NiFi在近几年大数据项目的数据接入层得到了广泛应用。在物联网(IoT)场景下,系统中有大量的设备(例如传感器,路由器,零售终端等)需要进行数据的采集和上报,如果采用中央NiFi集群,就需要处理大量设备的连接问题,加大了NiFi的压力。于是,旨在直接在数据产生的源头收集和处理数据的子项目MiNiFi就应运而生了。

本文将简要探讨MiNiFi的原理,部署与配置,如何运行数据流以及与NiFi的集成。

说句题外话,MiNiFi应该怎么读?根据MiNiFi项目的FAQs(堪称史上最简短的FAQs~ ),MiNiFi应该读作min-uh-fahy

MiNiFi初探_第1张图片



原理

MiNiFi作为NiFi的子项目,是对NiFi数据流管理核心原则的扩展,聚焦于如何从数据产生的源头收集数据;MiNiFi解决了数据在产生源头和消费者之间相互传递和管理的困难,可以作为数字信号的“第一或最后一英里”,通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信。MiNiFi设计的具体目标包括:

- 更小的体积和更低的资源消耗

- 集中管理Agents

- 可以生成数据世系(Data Provenance)

- 可以和NiFi集成

因为数据采集的初段是分布式且通常涉及大量的终端设备(例如物联网),MiNiFi具备NiFi的除了前端页面和部分管理命令行之外的所有核心能力,可以创建和部署数据流,使大量设备的统一管理成为可能。

- MiNiFi的配置由声明式的配置文件(YAML)驱动,可以通过主流的自动化管理工具辅助进行配置下发来管理大量的MiNiFi实例

- MiNiFi Agents通过点对点协议(例如HTTP/HTTPs)来将收集的数据传送到中央的NiFi集群中

- MiNiFi聚焦于对NiFi的精简,所以NiFi并没有包含NiFi支持的全部Processor,Java Agents可以通过添加NiFi既有的NAR包来扩展processor种类,满足用户在设计和部署自己的数据流时对数据源的多样化需求

- MiNiFi与NiFi之间可以实现双向通信(Bi-directional Communication),双向通信使得处理流程的动态更新能通过数据流的重新设计和重新部署来实现,并且将从数据中获得的洞察转化为可以应用的新的数据流设计


下载与部署

MiNiFi要能够被部署到边缘(edge)设备上,则其安装包必须比NiFi小很多(NiFi的安装包超过900MB!)。MiNiFi的安装包小于60MB,具体大小取决于不同的版本,MiNiFi提供了Java和C++两个版本:

- Java版本为可以运行大部分的NiFi processors,但是体积也更大(约59MB)同时需要消耗额外的系统资源(默认24MB的max JVM heapsize);如果用户希望最大程度的集成NiFi在处理数据上的能力,Java 版本是最好的选择;(本文中我们以Java Agent为例进行测试)

- C++版本更加轻量化(只需要大约3MB),消耗更少的系统资源(大约5MB的内存),但是只具备NiFi processors的有限的子集;如果用户只是获取数据然后把数据传给下游系统(例如中央的NiFi集群)处理并且比较在乎系统资源的占用,那么C++版本比较合适。

用户可以从MiNiFi项目主页下载MiNiFi的安装包,每个版本的MiNiFi安装包都包括以下三个部分:

- MiNiFi:即MiNiFi安装包,包含了MiNiFi的所有核心功能,部署和执行用户设计的数据流

- MiNiFi Toolki Binaries :一个用来将NiFi的数据流模版转化为MiNiFi的配置文件的工具包

- MiNiFi Command and Control Server Binaries:即MiNiFi C2,用于辅助用户管理和控制MiNiFi实例中的数据流

MiNiFi,MiNiFi Toolket和MiNiFi C2都供了tar.gz,zip和源码包三种不同的形式,用户可以根据自己的需要进行选择。部署MiNiFi需要预先在服务器或者设备上安装系统级别的依赖,其中Java版本预装JVM,C++版本则需要leveldb,libxml等依赖库,具体如下:

MiNiFi初探_第2张图片

安装好依赖以后,用户只需要将从项目主页将所需的安装包下载并解压到目标环境的任意目录(如home目录)中,就可以开始启动MiNiFi去执行用户设计数据流了。

MiNiFi安装包解压后如下:

MiNiFi初探_第3张图片

其中,bin/目录下是MiNiFi的管理命令,conf/目录下是MiNiFi的数据流配置文件(其中config.yml定义了MiNiFi上执行的数据流),lib/目录下是MiNiFi核心的jar包和nar包,启动之后还会生成一个记录日志的logs/目录。


设计与部署数据流

在使用MiNiFi之前,首先需要检查NiFi的配置($NIFI_HOME/conf/nifi.properties),需要确保NiFi实例已经配置了nifi.remote.input.socket.port(默认是未指定的),否则NiFi收不到MiNiFi上传的数据。具体配置项如下:

# Site to Site properties

nifi.remote.input.host=

nifi.remote.input.secure=false

nifi.remote.input.socket.port=1206

nifi.remote.input.http.enabled=true

nifi.remote.input.http.transaction.ttl=30 sec

如果没有指定,则按上述配置修改$NIFI_HOME/conf/nifi.properties,然后重启NiFi实例即可。

由于MiNiFi本身并没有提供类似NiFi的用于设计数据流的前端页面,所以用户可以用NiFi的前端页面设计数据流,然后生成NiFi数据流模版(template),再将模版文件加载到MiNiFi所在环境中,具体步骤如下:

- 在NiFi中设计数据流

我们可以设计一个简单的数据流用于监控MiNiFi所在服务器上的一个文本文件(在home下面创建一个用于测试的文本文件,文件里内容为“test minifi”),将文件的内容发送给NiFi实例,然后NiFi实例再把文本内容写入Kafka集群的topic里。实现整个数据流,需要MiNiFi和NiFi配合完成:

在MiNiFi侧,数据流由一个TailFile类型的processor和一个Remote Processor Group组成,TailFile类型的processor用于监控并采集指定文件的内容,Remote Processor Group用于将采集的数据发送到远端的NiFi实例:

MiNiFi初探_第4张图片

MiNiFi与NiFi采用HTTP协议相互通信,Remote Processor Group需要配置NiFi实例的URL和协议类型,具体配置如下:

MiNiFi初探_第5张图片

在NiFi侧,数据流需要一个Input Port和一个PublishKafka类型的processor,Input Port用来接收发送自MiNiFi的数据,PublishKafka类型的processor用于将收到的数据写入Kafka的指定topic中:

MiNiFi初探_第6张图片

- 在NiFi中,将所设计的MiNiFi侧的数据流创建为模版并下载为XML格式的模版文件,再将模版文件拷贝到MiNiFi所在的环境中

- 利用MiNiFi ToolKit将数据流模版文件转换为MiNiFi的配置文件(即$MINIFI_HOME/conf/config.yml,旧的config.yml可以删除或直接替换),转换命令如下

./bin/config.sh transform /path/to/template.xml $MINIFI_HOME/conf/config.yml

- 修改生成的config.yml,在config.yml最后的Input Ports Section里添加NiFi实例的host和port(即NiFi实例配置的nifi.remote.input.socket.port)属性,配置示例如下:

MiNiFi初探_第7张图片

- 启动MiNiFi执行数据流

./minifi.sh start

- MiNiFi启动后,可以在$MINIFI_HOME/logs/minifi-app.log中查看MiNiFi的运行日志。如果没有问题的话,很快就可以在Kafka的指定topic中看到输出的文本内容:

此外,我们也可以在NiFi的界面的各个processor看到数据的流入,例如查看PublishKafka processor的Data provenance:

MiNiFi初探_第8张图片

至此,MiNiFi中的数据流运行成功,整个数据流会一直监控指定文件的内容,将文件内容通过MiNiFi和NiFi接力传送到Kafka集群中。

如果要对MiNiFi上运行的数据流进行修改,可以通过重复上面的步骤,即:通过NiFi修改数据流的设计 -> 生成模版文件 -> 将模版文件转换为config.yml -> 替换旧的config.yml -> 重启MiNiFi。


后续计划

通过对MiNiFi短暂的研究和测试,笔者认为MiNiFi会在未来的数据接入-尤其是物联网场景下的大量设备和数据的接入中发挥很大的价值,因为MiNiFi的出现使得很多数据采集和预处理工作可以前置到边缘设备(如网关,自动汽车,零售终端等)中完成,大大减轻了NiFi集群的压力。 本文只是初步的测试,关于MiNiFi还有很多问题值得研究,例如:如何在嵌入式设备中实际测试MiNiFi的资源消耗和性能,如何扩展MiNiFi的processor,如何实现从NiFi到MiNiFi的数据流配置文件自动下发等。

期待日后结合实际场景进一步探索MiNiFi~

你可能感兴趣的:(MiNiFi初探)