1.NiFi简介
Apache Nifi是一个易用、强大、可靠的数据处理和分发系统。
主要功能:数据流程管理,设计数据流程、执行数据流程、监控数据流程执行。
一个数据流程是一个有向图包含:数据源节点、数据转化和协调节点、以及数据输出节点。
在NiFi中数据流程图中的节点被称为Processor,流程图中的边称为connection,边是有方向的,在流程图中流动的数据称为FlowFile。FlowFile被数据源类型的Processor创建,沿着connection流动,被数据转化类型的Processor被转化(拆开、合并、转化为新的FlowFile、被复制或者被遗弃),被协调类型Processor调整流向,最后被Sink类型的Processor发送到外部节点。
NiFi在复杂的多系统企业环境中能够发挥非常大的作用。
2. 环境要求
Apache NiFi比较不挑操作系统,只要能安装JDK,能执行java命令就行。oracle jdk和open jdk都可,版本要求为8或11。安装好jdk执行javac看看装好没有。
laofeng@192 ~ % javac --version
javac 11.0.9
如果部署Apache NiFi伪基群则需要预先安装Docker Desktop。
3.单点
Apache NiFi 安装也比较简单,只要下载一个二进制包,解压了就可以执行。二进制包有两种:tag.gz、zip,建议Mac、linux用户下载tar.gz,windows用户下载zip包。Apache NiFi下载地址:http://nifi.apache.org/download.html。如果下载速度没有达到数MB/秒,建议换一个速度快的镜像地址,毕竟安装包的size有1.5G。
解压后的目录结构如下:
启动nifi
在linux和mac下使用bin/nifi.sh启动,windows下使用bin/nifi.bat。
# 先执行一下试试,输出的是usage,可以看到启动、停止、执行、重启、状态、dump、诊断、安装(为系统服务)、无状态(?什么意思)
laofeng@192 nifi-1.12.1 % bin/nifi.sh
Usage nifi {start|stop|run|restart|status|dump|diagnostics|install|stateless}
# 执行启动命令,删除了“java home”和“nifi home”,启动配置文件为“conf/bootstrap.conf”
laofeng@192 nifi-1.12.1 % bin/nifi.sh start
Java home: /Library/Java/JavaVirtualMachines/jdk-11.0.9.jdk/Contents/Home
NiFi home: /Users/laofeng/Downloads/apps/nifi-1.12.1
Bootstrap Config File: /Users/laofeng/Downloads/apps/nifi-1.12.1/conf/bootstrap.conf
WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.nifi.bootstrap.util.OSUtils (file:/Users/laofeng/Downloads/apps/nifi-1.12.1/lib/bootstrap/nifi-bootstrap-1.12.1.jar) to method java.lang.ProcessImpl.pid()
WARNING: Please consider reporting this to the maintainers of org.apache.nifi.bootstrap.util.OSUtils
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
# 查看一下状态,输出了监听端口号和进程id “listening to Bootstrap on port 65173, PID=16224”
laofeng@192 nifi-1.12.1 % bin/nifi.sh status
Java home: /Library/Java/JavaVirtualMachines/jdk-11.0.9.jdk/Contents/Home
NiFi home: /Users/laofeng/Downloads/apps/nifi-1.12.1
Bootstrap Config File: /Users/laofeng/Downloads/apps/nifi-1.12.1/conf/bootstrap.conf
2020-11-15 20:40:05,575 INFO [main] org.apache.nifi.bootstrap.Command Apache NiFi is currently running, listening to Bootstrap on port 65173, PID=16224
# 使用jps命令,发现了“NIFI”和“RunNiFi”两个相关进程
laofeng@192 nifi-1.12.1 % jps
16224 NiFi
16222 RunNiFi
使用浏览器访问:http://127.0.0.1:8080/nifi,能看到如下界面,基本确认启动成功。
4.伪集群
集群架构
NiFi Cluster采用无leader模式,即在部署时所有集群节点都是相同的配置没有主节点和从节点的区别。每个节点都有同样的数据流程定义,执行相同的任务,但处理不同的数据。 NiFi使用zooKeeper做为协调服务。集群启动时,一个节点被选出做为协调节点,其他节点向它发送心跳信息和状态报告。当新节点选择加入集群时,新节点必须首先连接到集群协调节点,以下载最新的数据流程。如果集群协调节点确定允许节点加入,则当前数据流程将提供给该节点,并且该节点能够加入集群,但新节点的数据流程副本与集群协调节点提供的副本必须匹配。如果新节点的数据流程配置版本与集群协调节点的版本不同,则新节点将被拒绝加入集群。
术语
- Coordinator(协调器):NiFi集群协调器是NiFi集群中的节点,它负责执行任务来管理集群中允许哪些节点,并向新加入的节点提供最新的流。当数据流管理器管理集群中的数据流时,它们能够通过集群中任何节点的用户界面来进行管理。然后,所做的任何更改都将复制到群集中的所有节点。
- Nodes(节点):每个集群由一个或多个节点组成。这些节点进行实际的数据处理。
- Primary Node(主节点): 每个集群都有一个主节点。在这个节点上可以运行“独立处理器”。ZooKeeper用于选举主节点。如果该节点由于任何原因与集群断开连接,将自动选举一个新的主节点。用户可以通过查看用户界面的集群管理页面来确定当前哪个节点是主节点。
- Isolated Processors(独立处理器):在NiFi集群中,相同的数据流程在所有节点上运行。因此,数据流程中的每个组件都在所有节点上运行。然而,在某些情况下,DFM可能不希望一些处理器运行在所有节点上。最常见的情况是使用处理器与外部服务通信时使用的协议限制。例如,GetSFTP处理器从远程目录中提取。如果GetSFTP处理器在集群中的所有节点上运行,并同时尝试从同一个远程目录进行拉取,则可能存在竞争问题。因此,DFM可以将主节点上的GetSFTP配置为独立运行,这意味着它只在主节点上运行。通过正确的数据流配置,它可以拉入数据并在集群中的其余节点之间进行负载平衡。请注意,虽然这个特性存在,但是简单地使用一个独立的NiFi实例来拉取数据并将其提供给集群也是非常常见的。这取决于可用的资源以及管理员决定如何配置集群。
- Heartbeats(心跳):节点通过“Heartbeats”将它们的运行状况和状态传递给当前的集群协调器,它让协调器知道它们仍然连接到集群并且工作正常。默认情况下,节点每5秒发出一次心跳,如果集群协调器在40秒(=5秒*8)内没有接收到来自节点的心跳信号,则会由于“缺少心跳”而断开节点的连接。这两个参数可以在node.properties文件中配置。集群协调器断开节点连接的原因是因为协调器需要确保集群中的每个节点都是同步的,并且如果没有定期接收到某个节点的消息,那么协调器就不能确定它仍然与集群的其余部分保持同步。如果在40秒后,节点确实发送了一个新的心跳信号,协调器将自动请求节点重新加入集群,以包括对节点流的重新验证。在用户界面中向DFM报告由于缺少心跳而导致的断开连接和接收到心跳后的重新连接。
基于docker集群
这里实现伪集群的方式是:使用docker-compose启动多个nifi的container,组成一个运行在docker中的NiFi cluster。忽略Docker Destop的安装过程。
docker-compose文件
version: "3"
services:
zookeeper:
hostname: zookeeper
container_name: zookeeper
image: 'bitnami/zookeeper:latest'
environment:
- ALLOW_ANONYMOUS_LOGIN=yes
nifi:
image: "apache/nifi:1.12.1"
ports:
- 8080 # Unsecured HTTP Web Port
environment:
- NIFI_WEB_HTTP_PORT=8080
- NIFI_CLUSTER_IS_NODE=true
- NIFI_CLUSTER_NODE_PROTOCOL_PORT=8082
- NIFI_ZK_CONNECT_STRING=zookeeper:2181
- NIFI_ELECTION_MAX_WAIT=1 min
- NIFI_HOME=/opt/nifi/nifi-current
- NIFI_LOG_DIR=/opt/nifi/nifi-current/logs
- NIFI_TOOLKIT_HOME=/opt/nifi/nifi-toolkit-current
- NIFI_PID_DIR=/opt/nifi/nifi-current/run
- NIFI_BASE_DIR=/opt/nifi
将以上代码保存为“docker-compose.yml”。由yml文件细节看,使用了两个镜像:bitnami/zookeeper:latest和apache/nifi:1.12.1。
"apache/nifi:1.12.1"镜像使用的是jdk版本为“openjdk8”
创建并启动集群
注意执行命令的目录和保存“docker-compose.yml”必须是同一个目录。
#启动三个节点的NiFi集群,第一次启动需要下载镜像,要等一段时间。
# 第二次启会非常快
laofeng@192 nifi-1.12.1 % docker-compose up --scale nifi=3 -d
#开始下载镜像
Pulling zookeeper (bitnami/zookeeper:latest)...
latest: Pulling from bitnami/zookeeper
58212c1109c5: Pull complete
081a2ae8dc51: Pull complete
f5ff4112905d: Pull complete
35864a4b7faf: Pull complete
cdcc88215c01: Pull complete
94a860965551: Pull complete
7b37ce5d991a: Pull complete
9b0fd0c439c8: Pull complete
79ae9cc9ceef: Pull complete
f587456f2eac: Pull complete
215bcd582847: Pull complete
c3bbf763f965: Pull complete
96583be231d1: Pull complete
Digest: sha256:0f278b73b82ec8910168f09343b8dc5405152482d2fac1f26473ffc12564fafa
Status: Downloaded newer image for bitnami/zookeeper:latest
Pulling nifi (apache/nifi:1.12.1)...
1.12.1: Pulling from apache/nifi
d6ff36c9ec48: Pulling fs layer
d6ff36c9ec48: Pull complete
c958d65b3090: Pull complete
edaf0a6b092f: Pull complete
ffba832277c8: Pull complete
9687742a10f9: Pull complete
438df03a4d78: Pull complete
b428ea9845bb: Pull complete
e97cefb1594a: Pull complete
1ea915e95f07: Pull complete
b988f1230121: Pull complete
066b86f87d5a: Pull complete
11325722f405: Pull complete
Digest: sha256:bf7576ab7ad0bfe38c86be5baa47229d1644287984034dc9d5ff4801c5827115
Status: Downloaded newer image for apache/nifi:1.12.1
# 启动容器
Creating nifi-1121_nifi_1 ... done
Creating nifi-1121_nifi_2 ... done
Creating nifi-1121_nifi_3 ... done
Creating zookeeper ... done
# 至此启动完成
使用docker ps命令查看容器运行状况
laofeng@192 nifi-1.12.1 % docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
6b0974257ea3 apache/nifi:1.12.1 "../scripts/start.sh" 7 minutes ago Up 7 minutes 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32770->8080/tcp nifi-1121_nifi_2
19a9fbc4ec11 bitnami/zookeeper:latest "/opt/bitnami/script…" 7 minutes ago Up 7 minutes 2181/tcp, 2888/tcp, 3888/tcp, 8080/tcp zookeeper
058e826876e0 apache/nifi:1.12.1 "../scripts/start.sh" 7 minutes ago Up 7 minutes 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32769->8080/tcp nifi-1121_nifi_3
c4c02b6415eb apache/nifi:1.12.1 "../scripts/start.sh" 7 minutes ago Up 7 minutes 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32768->8080/tcp nifi-1121_nifi_1
根据PS命令的输出,看到有四个活跃容器:zookeeper、nifi-1121_nifi_1、nifi-1121_nifi_2、nifi-1121_nifi_3。
有三个端口映射到了宿主机:0.0.0.0:32770->8080/tcp(nifi-1121_nifi_2),0.0.0.0:32769->8080/tcp(nifi-1121_nifi_3),0.0.0.0:32768->8080/tcp(nifi-1121_nifi_1)。
nifi集群中每个节点都可做为WebUI的入口,使用浏览器访问其中一个节点http://localhost:32770/nifi.
注意:nifi容器8080端口映射到主机的端口是随机,不同的宿主机,每次启动都不同,需要使用
docker ps
查看具体映射端口号。
[图片上传失败...(image-49ad34-1605503611795)]
查看集群状态
- 点击菜单
- 弹出菜单
- 集群状态
NiFi 集群管理命令
-
cluster-summary
, 集群概况 -
nifi get-node
, 获取单个节点信息 -
nifi get-nodes
,获取节点列表 -
nifi connect-node
,连接到节点 -
nifi disconnect-node
,退出节点 -
nifi offload-node
,有集群中离线节点 -
nifi delete-node
,由集群中删除节点
#进入容器shell
laofeng@192 nifi-1.12.1 % docker exec -it c4c02b6415eb /bin/bash
nifi@c4c02b6415eb:/opt/nifi/nifi-current$ cd /opt/nifi/nifi-toolkit-1.12.1
nifi@c4c02b6415eb:/opt/nifi/nifi-toolkit-1.12.1$ bin/cli.sh
_ ___ _
Apache (_) .' ..](_) ,
_ .--. __ _| |_ __ )\
[ `.-. | [ |'-| |-'[ | / \
| | | | | | | | | | ' '
[___||__][___][___] [___]', ,'
`'
CLI v1.12.1
Type 'help' to see a list of available commands, use tab to auto-complete.
Session loaded from /home/nifi/.nifi-cli.config
#集群概况
#> nifi cluster-summary
Total node count: 3
Connected node count: 3
Clustered: true
Connected to cluster: true
# 获取节点列表
#> nifi get-nodes
# Node ID Node Address API Port Node Status
- ------------------------------------ ------------ -------- -----------
0 8dc6c433-68bc-4839-b49b-a8d7710b7b34 c4c02b6415eb 8080 CONNECTED
1 a30e4804-7136-4f68-a66b-f5f3b764d7f5 6b0974257ea3 8080 CONNECTED
2 184fa9f3-0595-4ab7-b07c-ddfd0b011956 058e826876e0 8080 CONNECTED
# 返回一个节点的状态,与节点列表命令相比并没有额外的信息
#> nifi get-node --nifiNodeId 8dc6c433-68bc-4839-b49b-a8d7710b7b34
Node ID: 8dc6c433-68bc-4839-b49b-a8d7710b7b34
Node Address: c4c02b6415eb
API Port: 8080
Node Status:CONNECTED~
停止docker集群
使用docker-compose stop
命令可以停止构成nifi的集群容器运行,但是容器会保留且处于不活跃的状态,之后可以随时使用docker-compose start
命令将集群恢复运行。
必须在docker-compose.yml文件路径下,执行命令。
-
停止
laofeng@192 nifi-1.12.1 % docker-compose stop Stopping nifi-1121_nifi_2 ... done Stopping zookeeper ... done Stopping nifi-1121_nifi_3 ... done Stopping nifi-1121_nifi_1 ... done
-
查看容器
# 使用 docker ps,已经没有活跃容器 laofeng@192 nifi-1.12.1 % docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES # 查看所有容器,包括停止的容器,发现nifi集群的四个容器还在。 laofeng@192 nifi-1.12.1 % docker ps -a CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 6b0974257ea3 apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Exited (137) 5 minutes ago nifi-1121_nifi_2 19a9fbc4ec11 bitnami/zookeeper:latest "/opt/bitnami/script…" About an hour ago Exited (143) 5 minutes ago zookeeper 058e826876e0 apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Exited (137) 5 minutes ago nifi-1121_nifi_3 c4c02b6415eb apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Exited (137) 5 minutes ago nifi-1121_nifi_1
-
恢复NiFi级群
# 执行docker-compose start,因为不需要创建容器和虚拟网络,启动速度比较快 laofeng@192 nifi-1.12.1 % docker-compose start Starting zookeeper ... done Starting nifi ... done laofeng@192 nifi-1.12.1 % docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 6b0974257ea3 apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Up 12 seconds 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32771->8080/tcp nifi-1121_nifi_2 19a9fbc4ec11 bitnami/zookeeper:latest "/opt/bitnami/script…" About an hour ago Up 12 seconds 2181/tcp, 2888/tcp, 3888/tcp, 8080/tcp zookeeper 058e826876e0 apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Up 10 seconds 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32772->8080/tcp nifi-1121_nifi_3 c4c02b6415eb apache/nifi:1.12.1 "../scripts/start.sh" About an hour ago Up 9 seconds 8000/tcp, 8443/tcp, 10000/tcp, 0.0.0.0:32773->8080/tcp nifi-1121_nifi_1
销毁集群
停止nifi集群的运行并删除容器,删除虚拟网络。
laofeng@192 nifi-1.12.1 % docker-compose down
Stopping nifi-1121_nifi_2 ... done
Stopping zookeeper ... done
Stopping nifi-1121_nifi_3 ... done
Stopping nifi-1121_nifi_1 ... done
Removing nifi-1121_nifi_2 ... done
Removing zookeeper ... done
Removing nifi-1121_nifi_3 ... done
Removing nifi-1121_nifi_1 ... done
Removing network nifi-1121_default
5.总结
本文简介了如何创建Apache NiFi的POC环境,包括单点NiFi和伪集群环境。在此基础上就以进一步学习并验证NiFi相关的知识了。