认真起来的菜鸟

ETL最佳实践-NiFi

NIFI 介绍
- 概述
- NIFI 特性
- NIFI的优点
- NIFI的缺点
架构
部署
- 单机部署 NIFI
- 集群部署 NIFI
- 数据同步（表字段相同）
- 数据同步（表字段不相同）
- binlog日志采集数据同步
- 多表分别查询汇总入库（表字段不相同）
- 根据规则字段映射
- 自定义组件Nifi Processor
- 参考资料
FAQ
File to HDFS
FIle to Kafka
hive_to_mysql
kafka2Hdfs
复杂案例
- MiNiFi 和 NiFi 有什么区别？

NIFI 介绍

概述

简而言之，NiFi旨在自动执行系统之间的数据流。尽管“数据流”一词在多种情况下使用，但我们在此使用它来表示系统之间的自动化和托管信息流。自从企业拥有多个系统以来，就一直存在这个问题空间，其中一些系统创建了数据，而某些系统使用了数据。出现的问题和解决方案已被广泛讨论和阐明。在企业集成模式中找到了一种全面且易于使用的形式。
这个设计模型，也类似于[seda]，提供了许多有益的结果，帮助NiFi成为构建强大和可伸缩数据流的非常有效的平台。这些好处包括：有利于处理器有向图的可视化创建和管理本质上是异步的，允许非常高的吞吐量和自然缓冲，即使处理和流量波动提供了一个高度并发的模型，开发人员不必担心并发的典型复杂性促进内聚和松散耦合组件的开发，这些组件可以在其他上下文中重用，并促进可测试单元的开发资源受限的连接使得诸如背压和压力释放等关键功能非常自然和直观错误处理变得像快乐路径一样自然，而不是粗粒度的包罗万象数据进入和退出系统的点以及它是如何通过的都很容易理解和跟踪

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统，用于自动化管理系统间的数据流。
它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。
NiFi原来是NSA(National Security Agency [美国国家安全局])的一个项目，目前已经代码开源，是Apache基金会的顶级项目之一
NiFi基于Web方式工作，后台在服务器上进行调度。
用户可以为数据处理定义为一个流程，然后进行处理，后台具有数据处理引擎、任务调度等组件。
NiFi 核心概念
Nifi 的设计理念接近于基于流的编程 Flow Based Programming。
FlowFile：表示通过系统移动的每个对象，包含数据流的基本属性
FlowFile Processor（处理器）：负责实际对数据流执行工作
Connection（连接线）：负责不同处理器之间的连接，是数据的有界缓冲区
Flow Controller（流量控制器）：管理进程使用的线程及其分配
Process Group（过程组）：进程组是一组特定的进程及其连接，允许组合其他组件创建新组件

NIFI 特性

可视化命令与控制
设计，控制，反馈和监测之间的无缝体验
高度可配置
损失容忍vs保证交付
低延迟vs高吞吐量
动态优先
流可以在运行时修改
数据回压
数据溯源
从头到尾跟踪数据流
为可扩展而设计
建立自己的处理器和更多
快速开发和有效的测试
安全
SSL，SSH，HTTPS，加密内容等
多租户授权和内部授权/策略管理

nifi是将数据转换成一种流的形式在各种处理器之间进行处理转换的etl工具，它通过可视化可操作的用户界面来编辑数据，更加直观有效。

kettle 是C/S 架构，NiFi是基于WEB的B/S架构，方便集成。

NIFI的优点

可视化的UI界面，各个模块组件之间高度可配置，且每个流程都有监控，可以通过界面直观的看到各个数据处理模块之间的数据流转情况，分析出程序性能瓶颈。
数据流可以在UI界面自由拖拽和拓展，各模块之间相互独立，互不影响。
可以在处理耗时的地方创建多个处理模块并行执行，提升处理速度。类似于代码中加入了多线程，但相对于修改代码，界面配置操作十分简单。
修改方便，任意模块都可以在数据流转过程中随时启停，任意处理模块都可以实现热插拔。数据流流向随时可变。
NiFi的对处理模块有对应的retry机制和错误分发机制，且可配置性强。
NiFi基于组件的热插拔部署，方便集成自定义组件
NiFi支持缓冲所有排队的数据，以及在这些队列达到指定限制时提供背压的能力，或者在数据达到指定年龄（其值已经消失）时使数据老化
具有多种现有组件可以提供数据抽取转换流程
NiFi 可以进行集群部署，横向扩展，提高系统吞吐量

NIFI的缺点

各个步骤中间结果落地导致磁盘IO成为Nifi的瓶颈，这个缺点在数据冗余量越大的时候表现的越明显。
在实现特定业务场景现有组件不能满足或实现复杂，需自定义开发组件

架构

NiFi主要功能概述本部分提供了20,000英尺的NiFi基础知识视图，以便您可以了解Apache NiFi的概况以及一些最有趣的功能。关键功能类别包括流管理，易用性，安全性，可扩展的体系结构和灵活的缩放模型。流管理保证交货NiFi的核心理念是，即使规模很大，也必须保证交付。这可以通过有效使用专用的持久性预写日志和内容存储库来实现。它们的共同设计方式允许很高的事务处理速率，有效的负载分散，写时复制以及发挥传统磁盘读/写的优势。带反压和泄压的数据缓冲NiFi支持缓冲所有排队的数据，并能够在这些队列达到指定的限制时提供反压力，或者在达到指定的使用期限（其值消失）时使数据过期。优先排队NiFi允许设置一种或多种优先级分配方案，以用于如何从队列中检索数据。默认值是最旧的优先，但是有时应该将数据拉到最新的优先，最大的优先或其他一些自定义方案。特定于流的QoS（延迟v吞吐量，丢失容限等）在数据流的某些点上，数据是绝对关键的并且不容忍丢失。在某些情况下，有时必须在几秒钟内将其处理并交付以具有任何价值。NiFi可以实现这些问题的细粒度流特定配置。使用方便视觉命令与控制数据流可能变得非常复杂。能够可视化这些流程并以视觉方式表达它们可以极大地降低复杂性并确定需要简化的区域。NiFi不仅可以直观地建立数据流，而且可以实时建立数据流。与其“设计和部署”，不如说它是模制粘土。如果您对数据流进行更改，则该更改将立即生效。更改是细粒度的，并且与受影响的组件隔离。您无需停止整个流程或一组流程即可进行某些特定的修改。流模板数据流往往是高度面向模式的，尽管通常有许多不同的方法可以解决问题，但能够共享这些最佳实践对它很有帮助。模板使主题专家可以构建和发布其流程设计，并让其他人从中受益并进行协作。资料来源当对象流过系统时，即使在扇入，扇出，转换等过程中，NiFi也会自动记录，索引并提供出处数据。在支持合规性，故障排除，优化和其他方案时，此信息变得至关重要。恢复/记录细粒度历史记录的滚动缓冲区NiFi的内容存储库旨在充当历史的滚动缓冲区。数据仅在内容存储库中老化或需要空间时才被删除。这与数据源功能相结合，为在对象生命周期中甚至跨越几代生命周期的特定点上实现单击内容，下载内容和重播提供了极为有用的基础。安全系统对系统数据流仅是安全的。数据流中每个点的NiFi均通过使用带有加密协议的协议（例如2路SSL）提供安全交换。另外，NiFi使流能够加密和解密内容，并在发送方/接收方的任一侧使用共享密钥或其他机制。用户到系统NiFi启用2-Way SSL身份验证并提供可插入授权，以便它可以在特定级别（只读，数据流管理器，管理）适当地控制用户的访问。如果用户在流中输入诸如密码之类的敏感属性，则会立即在服务器端对其进行加密，即使以加密形式也不会再在客户端公开。多租户授权给定数据流的权限级别适用于每个组件，从而允许admin用户具有细粒度的访问控制级别。这意味着每个NiFi集群都能够处理一个或多个组织的需求。与隔离的拓扑相比，多租户授权为数据流管理提供了一种自助服务模型，使每个团队或组织都可以在完全了解他们无法访问的其余流的情况下管理流。可扩展架构延期NiFi是为扩展而构建的核心，因此，它是一个平台，数据流流程可以在该平台上以可预测和可重复的方式执行和交互。扩展点包括：处理器，控制器服务，报告任务，优先级划分程序和客户用户界面。类加载器隔离对于任何基于组件的系统，依赖关系问题都可能很快发生。NiFi通过提供自定义类加载器模型来解决此问题，确保每个扩展捆绑包都暴露于非常有限的依赖项集合中。结果，可以很少考虑扩展是否会与另一个扩展冲突。这些扩展束的概念称为“ NiFi存档”，并在《开发人员指南》中进行了详细讨论。站点间通信协议NiFi实例之间的首选通信协议是NiFi站点到站点（S2S）协议。通过S2S，可以轻松，高效，安全地将数据从一个NiFi实例传输到另一个实例。NiFi客户端库可以轻松构建并捆绑到其他应用程序或设备中，以通过S2S与NiFi通信。S2S支持基于套接字的协议和HTTP（S）协议作为基础传输协议，从而可以将代理服务器嵌入到S2S通信中。弹性缩放模型横向扩展（聚类）如上所述，NiFi旨在通过将多个节点群集在一起来进行横向扩展。如果设置了一个节点并将其配置为每秒处理数百MB，则可以将适度的群集配置为每秒处理GB。这就带来了有趣的挑战，即在NiFi和从其获取数据的系统之间进行负载平衡和故障转移。使用基于异步排队的协议（例如消息传递服务，Kafka等）可以有所帮助。使用NiFi的“站点到站点”功能也非常有效，因为它是一种协议，它允许NiFi和客户端（包括另一个NiFi群集）相互交谈，共享有关加载的信息以及交换有关特定授权的数据端口。放大和缩小NiFi还设计为以非常灵活的方式放大和缩小。从NiFi框架的角度来看，在增加吞吐量方面，可以在配置时在“调度”选项卡下增加处理器上的并发任务数。这允许更多进程同时执行，从而提供更大的吞吐量。另一方面，您可以将NiFi完美缩小，以适合在由于硬件资源有限而需要占用空间小的边缘设备上运行。为了专门解决首英里数据收集挑战和边缘用例，您可以在此处找到更多详细信息：https : //cwiki.apache.org/confluence/display/NIFI/MiNiFi关于Apache NiFi的子项目MiMiFi（发音为“最小化”，[min-uh-fahy]）。

部署

单机部署 NIFI

上传Apache NIFI包到Linux上，解压安装包；或者将你的本地作为服务器，直接解压zip包。

在解压的目录下，找到conf目录，编辑bootstrap.conf文件，修改NIFI的内存配置，默认的值比较小，比如这里我改成启动2g，最大10g
java.arg.2=-Xms2g
java.arg.3=-Xmx10g

在解压的目录下，找到bin目录，可以看到里面有一些脚本
dump-nifi.bat
nifi-env.bat
nifi-env.sh
nifi.sh
run-nifi.bat
status-nifi.bat

在解压的目录下，找到conf目录，编辑nifi.properties文件，修改端口号，默认为8080
nifi.web.http.port=8080
Linux或者Mac，使用nifi.sh start启动NIFI，nifi.sh stop停止NIFI，nifi.sh restart重启NIFI。
Windows下，直接双击run-nifi.bat即可，退出的时候关闭运行窗口就可以了。

集群部署 NIFI

NiFi采用Zero-Master Clustering范例。集群中的每个节点对数据执行相同的任务，但每个节点都在不同的数据集上运行。其中一个节点自动选择（通过Apache ZooKeeper）作为集群协调器。然后，群集中的所有节点都会向此节点发送心跳/状态信息，并且此节点负责断开在一段时间内未报告任何心跳状态的节点。此外，当新节点选择加入群集时，新节点必须首先连接到当前选定的群集协调器，以获取最新流。如果群集协调器确定允许该节点加入（基于其配置的防火墙文件），则将当前流提供给该节点，并且该节点能够加入群集，假设节点的流副本与群集协调器提供的副本匹配。如果节点的流配置版本与群集协调器的版本不同，则该节点将不会加入群集。

zookeeper：NIFI内置zookeeper

编辑实例中，conf/nifi.properties文件，不同节点改成对应内容，内容如下：

nifi.state.management.configuration.file=./conf/state-management.xml
nifi.state.management.provider.local=local-provider
nifi.state.management.provider.cluster=zk-provider
#  指定此NiFi实例是否应运行嵌入式ZooKeeper服务器，默认是false
nifi.state.management.embedded.zookeeper.start=true
nifi.state.management.embedded.zookeeper.properties=./conf/zookeeper.properties

# 3个节点分别是8081 8082 8083
nifi.web.http.port=8081

# 如果实例是群集中的节点，请将此设置为true。默认值为false
nifi.cluster.is.node=true
# 3个节点分别是9081 9082 9083
nifi.cluster.node.protocol.port=9081

# 3个节点分别是6341 6342 6343
nifi.cluster.load.balance.port=6341

# 连接到Apache ZooKeeper所需的连接字符串。这是一个以逗号分隔的hostname：port对列表
nifi.zookeeper.connect.string=localhost:2181,localhost:2182,localhost:2183

修改zookeeper.properties

# 3个节点都一样
server.1=localhost:2111:3111;2181
server.2=localhost:2222:3222;2182
server.3=localhost:2333:3333;2183

修改state-management.xml(3个节点都一样)

<cluster-provider>
        <id>zk-providerid>
        <class>org.apache.nifi.controller.state.providers.zookeeper.ZooKeeperStateProviderclass>
        <property name="Connect String">localhost:2181,localhost:2182,localhost:2183property>
        <property name="Root Node">/nifiproperty>
        <property name="Session Timeout">10 secondsproperty>
        <property name="Access Control">Openproperty>
cluster-provider>

在3个节点的NIFI目录下(bin目录同级)，新建state/zookeeper,zookeeper文件夹里新建文件myid，3个节点分别写入1,2,3
#3个节点分别写入 1 2 3
echo 1 > myid
1
2
分别启动所有节点

数据同步（表字段相同）

整体流程如下：
GenerateTableFetch --> ExecuteSQLRecord --> PutDatabaseRecord --> LogAttribute
GenerateTableFetch组件：从源表中生成获取行的“页”的SQL select查询。分区大小属性以及表的行数决定页面和生成的流文件的大小和数量。此外，可以通过设置最大值列来实现增量获取，这将导致处理器跟踪列的最大值，从而只获取那些列的值超过观察到的最大值的行
ExecuteSQLRecord组件：执行提供的SQL选择查询。查询结果将转换为所指定格式输出。使用流，因此支持任意大的结果集。
PutDatabaseRecord组件：使用指定的记录器从传入流文件输入(可能是多个)记录。这些记录被转换为SQL语句，并作为单个批处理执行
连接池配置DBCPConnectionPool

数据同步（表字段不相同）

整体流程如下：
QueryDatabaseTable --> ConvertAvroToJSON --> SplitJson --> EvaluateJsonPath --> ReplaceText --> PutSQL
QueryDatabaseTable组件：生成一个SQL select查询，或使用提供的语句，并执行它来获取指定最大值列中值大于之前看到的最大值的所有行。查询结果将转换为Avro格式。
ConvertAvroToJSON组件：将二进制Avro记录转换为JSON对象。这个处理器提供了Avro字段到JSON字段的直接映射，这样得到的JSON将具有与Avro文档相同的层次结构
SplitJson组件：对于由JsonPath表达式指定的数组元素，将一个JSON文件拆分为多个单独的流文件。每个生成的FlowFile由指定数组的一个元素组成，并传输到关系“split”，同时将原始文件传输到关系“original”。如果没有找到指定的JsonPath，或者没有对数组元素求值，原始文件将被路由到“failure”，并且不生成任何文件。
EvaluateJsonPath组件：根据FlowFile的内容评估一个或多个JsonPath表达式。这些表达式的结果将分配给FlowFile属性，或者写入FlowFile本身的内容，具体取决于处理器的配置。
ReplaceText组件：通过对正则表达式(regex)求值并将与正则表达式匹配的内容部分替换为其他值，更新流文件的内容。通过替换成目标表字段的sql语句，数据可以从EvaluateJsonPath组件存放到的attribute属性中获取，获取方式${key},将替换后的sql语句传递到下游PutSql组件中。
PutSQL组件：执行SQL UPDATE或INSERT命令。传入流文件的内容应该是要执行的SQL命令。
以上两种数据同步都是基于mysql 到 mysql ，oracle只需要更换数据库连接池配置。
注意：oracle数据同步使用EvaluateJsonPath组件获取属性值时字段名称需要大写

NIFI 组件之间数据传递时通过队列的方式控制，因此不能控制事务，但如果有一个组件初始化失败时，上游传递下来的队列中的数据是不会被消费，当组件异常修复之后会继续执行队列中的内容。

binlog日志采集数据同步

为了不影响业务，可以通过binlog日志对数据库表数据进行同步
整体流程：
CaptureChangeMySQL --> RouteOnAttribute --> JoltTransformJSON --> EvaluateJsonPath --> ReplaceText --> PutSQL --> LogAttribute
CaptureChangeMySQL组件：从MySQL数据库中检索更改数据捕获(CDC)事件。CDC事件包括插入、更新、删除操作。事件输出为按操作发生时的顺序排列的单个流文件。读取binlog日志路由下游处理
redis存储客户端配置server服务端
此时你会发现多了一个RedisConnectionPoolService
继续配置RedisConnectionPoolService
最后启动redis服务端和客户端
RouteOnAttribute 组件：根据binlog中含有的类型参数,把binlog记录的日志操作根据类型进行路由处理,提供给不同的下游分支操作
Routing Strategy:路由策略用默认的Route toProperty name,根据属性名进行路由.添加的自定义属性可以根据业务分发给不同的下游处理器。
JoltTransformJSON组件：对flowfile JSON有效负载应用一系列的Jolt规范。使用转换后的内容创建一个新的FlowFile，并将其路由到“success”关系。如果JSON转换失败，原始的流文件将被路由到“failure”关系。

点击高级设置会打开如下图Jolt测试界面
上面有红叉子的那个区域Jolt Specification是填写我们的Jolt语句的;
左下方区域JSON Input是输入要被处理前的Json数据.
右下方区域JSON Output是输出Input被jolt语句处理后的结果.

Jolt Specification区域输入以下内容

[{
	"operation": "shift",
	"spec": {
		"columns": {
			"*": {
				"@(value)": "@(1,name)"
			}
		}
	}
}]

“operation”: “shift”:实现整理出key,value格式
“operation”: “modify-default-beta”:实现拼接了一个带前缀字符串的新字段apid,以及value是字符串ap_拼接id的value值.

JSON Input输入以下内容

{
  "type" : "delete",
  "timestamp" : 1592386594000,
  "binlog_filename" : "mysql-bin.000001",
  "binlog_position" : 229,
  "database" : "ipaas",
  "table_name" : "target",
  "table_id" : 33,
  "columns" : [ {
    "id" : 1,
    "name" : "id",
    "column_type" : -5,
    "value" : 50
  }, {
    "id" : 2,
    "name" : "username",
    "column_type" : 12,
    "value" : "徐朝"
  }, {
    "id" : 3,
    "name" : "userage",
    "column_type" : 4,
    "value" : 20
  }, {
    "id" : 4,
    "name" : "time",
    "column_type" : 12,
    "value" : "2020-06-17 10:31:45"
  } ]
}

最后点击TRANSFORM按钮查看效果
测试没问题,可以复制我们调试好的Jolt Specification内容,返回刚才Jolt Specification这里,贴进去保存配置
EvaluateJsonPath组件：根据FlowFile的内容评估一个或多个JsonPath表达式。这些表达式的结果将分配给FlowFile属性，或者写入FlowFile本身的内容，具体取决于处理器的配置。
ReplaceText组件：通过对正则表达式(regex)求值并将与正则表达式匹配的内容部分替换为其他值，更新流文件的内容。通过替换成目标表字段的sql语句，数据可以从EvaluateJsonPath组件存放到的attribute属性中获取，获取方式${key},将替换后的sql语句传递到下游PutSql组件中。
PutSQL组件：执行上游传递下来的sql语句
LogAttribute组件：记录执行日志

输出结果：

多表分别查询汇总入库（表字段不相同）

完整流程：
同**数据同步（表字段不同）**分别有多条处理流程将数据查询出来，然后使用funnel组件进行数据合并后统一入库

根据规则字段映射

完整流程：
从源数据表中查询出所有数据转换为json，然后通过SplitJson切分成多个json对象，在通过EvaluateJsonPath组件将值存放到属性列表中，再通过ExecuteSQL组件根据字段映射条件查询规则表并转换为json，再通过EvaluateJsonPath组件将规则表数据也添加到源表数据的属性列表中，再根据RouteOnAttribute组件判断条件路由需要的数据到下游;然后通过ReplaceText组件从属性列表中获取值拼接sql交由下游处理器PutSQL执行。

ExecuteSQL组件配置如下：
RouteOnAttribute组件配置如下：
自定义添加过滤条件

自定义组件Nifi Processor

创建Maven工程
父工程my-processor，子工程nifi-my-processor-nar和nifi-my-processor-processors，这里使用的版本时1.11.4
my-processor pom文件:


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
    <packaging>pompackaging>

    <parent>
        <groupId>org.apache.nifigroupId>
        <artifactId>nifiartifactId>
        <version>1.11.4version>
    parent>

    <groupId>org.apache.nifigroupId>
    <artifactId>my-processorartifactId>
    <version>1.11.4version>

    <name>my-processorname>
    
    <url>http://www.example.comurl>

    <dependencies>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.11version>
            <scope>testscope>
        dependency>
    dependencies>

    <modules>
        <module>nifi-my-processor-narmodule>
        <module>nifi-my-processor-processorsmodule>
    modules>

project>

nifi-my-processor-nar pom文件：


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>my-processorartifactId>
        <groupId>org.apache.nifigroupId>
        <version>1.11.4version>
    parent>
    <modelVersion>4.0.0modelVersion>

    <artifactId>nifi-my-processor-narartifactId>
    <packaging>narpackaging>

    <name>nifi-my-processor-narname>
    
    <url>http://www.example.comurl>

    <properties>
        <maven.javadoc.skip>truemaven.javadoc.skip>
        <source.skip>truesource.skip>
    properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.nifigroupId>
            <artifactId>nifi-standard-services-api-narartifactId>
            <version>1.11.4version>
            <type>nartype>
        dependency>
        <dependency>
            <groupId>org.apache.nifigroupId>
            <artifactId>nifi-my-processor-processorsartifactId>
            <version>1.11.4version>
        dependency>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.11version>
            <scope>testscope>
        dependency>
    dependencies>

project>

nifi-my-processor-processors pom文件：


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>my-processorartifactId>
        <groupId>org.apache.nifigroupId>
        <version>1.11.4version>
    parent>
    <modelVersion>4.0.0modelVersion>

    <artifactId>nifi-my-processor-processorsartifactId>
    <packaging>jarpackaging>

    <name>nifi-my-processor-processorsname>
    
    <url>http://www.example.comurl>


    <dependencies>
        <dependency>
            <groupId>org.apache.nifigroupId>
            <artifactId>nifi-apiartifactId>
            <version>1.11.4version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.nifigroupId>
            <artifactId>nifi-utilsartifactId>
            <version>1.11.4version>
        dependency>
        <dependency>
            <groupId>org.apache.nifigroupId>
            <artifactId>nifi-mockartifactId>
            <version>1.11.4version>
            <scope>testscope>
        dependency>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.11version>
            <scope>testscope>
        dependency>
    dependencies>

project>

修改项目编写代码
删除nifi-my-processor-processors子项目中，src/test中的测试文件（打包可能出现错误）

Nifi的要求是在/src/main/resources/META-INF/services/目录下新建一个文件org.apache.nifi.processor.Processor，这个类似于配置文件，指向该Processor所在的目录，比如我的配置文件内容就是

org.apache.nifi.processor.MyProcessor
代码编写，创建MyProcessor类。其中有设置状态，属性，及处理方法（onTrigger）等

package org.apache.nifi.processor;

import org.apache.nifi.annotation.behavior.ReadsAttribute;
import org.apache.nifi.annotation.behavior.ReadsAttributes;
import org.apache.nifi.annotation.behavior.WritesAttribute;
import org.apache.nifi.annotation.behavior.WritesAttributes;
import org.apache.nifi.annotation.documentation.CapabilityDescription;
import org.apache.nifi.annotation.documentation.SeeAlso;
import org.apache.nifi.annotation.documentation.Tags;
import org.apache.nifi.annotation.lifecycle.OnScheduled;
import org.apache.nifi.components.PropertyDescriptor;
import org.apache.nifi.flowfile.FlowFile;
import org.apache.nifi.processor.exception.ProcessException;
import org.apache.nifi.processor.util.StandardValidators;

import java.io.InputStreamReader;
import java.io.StringWriter;
import java.util.*;
import java.util.concurrent.atomic.AtomicReference;

/**
 * @Classname MyProcessor
 * @Description
 * @Author xuzhaoa
 * @Date 2020/7/2 9:49
 */
@Tags({
     "example"})
@CapabilityDescription("Provide a description")
@SeeAlso({
     })
@ReadsAttributes({
     @ReadsAttribute(attribute = "", description = "")})
@WritesAttributes({
     @WritesAttribute(attribute = "", description = "")})
public class MyProcessor extends AbstractProcessor {
     

    public static final PropertyDescriptor MY_PROPERTY = new PropertyDescriptor
            .Builder().name("MY_PROPERTY")
            .displayName("My property")
            .description("Example Property")
            .required(true)
            .addValidator(StandardValidators.NON_EMPTY_VALIDATOR)
            .build();

    public static final Relationship MY_RELATIONSHIP_SUCCESS = new Relationship.Builder()
            .name("sucess")
            .description("Example relationship Success")
            .build();

    public static final Relationship MY_RELATIONSHIP_FAILURE = new Relationship.Builder()
            .name("failure")
            .description("Example relationship Failure")
            .build();

    private List<PropertyDescriptor> descriptors;

    private Set<Relationship> relationships;

    @Override
    protected void init(final ProcessorInitializationContext context) {
     
        final List<PropertyDescriptor> descriptors = new ArrayList<PropertyDescriptor>();
        descriptors.add(MY_PROPERTY);
        this.descriptors = Collections.unmodifiableList(descriptors);

        final Set<Relationship> relationships = new HashSet<Relationship>();
        relationships.add(MY_RELATIONSHIP_SUCCESS);
        relationships.add(MY_RELATIONSHIP_FAILURE);
        this.relationships = Collections.unmodifiableSet(relationships);
    }

    @Override
    public Set<Relationship> getRelationships() {
     
        return this.relationships;
    }

    @Override
    public final List<PropertyDescriptor> getSupportedPropertyDescriptors() {
     
        return descriptors;
    }

    @OnScheduled
    public void onScheduled(final ProcessContext context) {
     

    }

    @Override
    public void onTrigger(final ProcessContext context, final ProcessSession session) throws ProcessException {
     
        FlowFile flowFile = session.get();
        if (flowFile == null) {
     
            return;
        }
        // TODO implement
        final AtomicReference<String> value = new AtomicReference<>();
        session.read(flowFile, in -> {
     
            try {
     
                StringWriter sw = new StringWriter();
                InputStreamReader inr = new InputStreamReader(in);
                char[] buffer = new char[1024];
                int n = 0;
                while (-1 != (n = inr.read(buffer))) {
     
                    sw.write(buffer, 0, n);
                }
                String str = sw.toString();

                String result = "处理了：" + str + context.getProperty("MY_PROPERTY").getValue();
                value.set(result);
            } catch (Exception ex) {
     
                ex.printStackTrace();
                getLogger().error("Failed to read json string.");
            }
        });

        String results = value.get();
        if (results != null && !results.isEmpty()) {
     
            flowFile = session.putAttribute(flowFile, "match", results);
        }

        flowFile = session.write(flowFile, out -> out.write(value.get().getBytes()));

        session.transfer(flowFile, MY_RELATIONSHIP_SUCCESS);

    }
}

我们使其extends AbstractProcessor这个抽象类，@Tag标签是为了在web GUI中，能够使用搜索的方式快速找到我们自己定义的这个Processor。CapabilityDescription内的值会暂时在Processor选择的那个页面中，相当于一个备注。
一般来说只需要继承AbstractProcessor就可以了，但是某些复杂的任务可能需要去继承更底层的AbstractSessionFactoryProcessor这个抽象类。

我们通过PropertyDescriptor以及Relationship中的模板方法定义了两个新的关系和属性描述值，这些值会出现在webUI中

该组件只是简单的测试将流中数据替换，功能实现主要通过该类自行实现

整个Processor的核心部分 -> onTrigger 部分， onTrigger方法会在一个flow file被传入处理器时调用。为了读取以及改变传递来的FlowFile，Nifi提供了三个callback接口方法

InputStreamCallback:
该接口继承细节如下: 将流中的数据读取处理进行替换
OutputStreamCallback :将内容写入值中
最后使用transfer()功能传递回这个flowFile以及成功标识。

打包部署
项目打包后将nifi-my-processor-nar工程target目录中的 nifi-my-processor-nar-1.0-SNAPSHOT.nar 文件，拷贝到 nifi\lib 目录中
新建流程使用自定义组件
GenerateFlowFile --> MyProcessor --> PutFile
GenerateFlowFile 组件配置生成内容
MyProcessor 组件替换内容

参考资料

http://nifi.apache.org/docs/nifi-docs/

FAQ

MiNiFi和NiFi有什么区别？
MiNiFi是用于从远程位置的传感器和设备上收集数据子集的代理。目的是帮助进行数据的“第一英里收集”，并获取尽可能接近其来源的数据。

这些设备可以是服务器、工作站和便携式计算机，也可以是传感器、自动驾驶汽车、工厂中的机器等，您希望在其中使用MiNiFi中的某些NiFi功能来收集特定数据。在将数据发送到目的地之前，可以对其进行过滤、选择和分类。MiNiFi的目标是使用Edge Flow Manager大规模管理整个流程，以便运营或IT团队可以部署不同的流程定义并根据业务需要收集任何数据。以下是一些需要考虑的细节：

NiFi被设计为通常位于数据中心或云中的中央位置，以在已知的外部系统（如数据库、对象存储等）中移动数据或从中收集数据。NiFi应该被视为将数据移回的网关在异构环境或混合云体系结构中来回切换。
MiNiFi在主机上本地运行，进行一些计算和逻辑运算，并且仅将您关心的数据发送到外部系统以进行数据分发。这样的系统当然可以是NiFi，但也可以是MQTT代理、云提供商服务等。MiNiFi还支持一些用例，在这些用例中，网络带宽可能受到限制，需要减少通过网络发送的数据量。
MiNiFi代理有两个版本：C ++和Java。MiNiFi C ++选项的占用空间非常小（几MB的内存，很少的CPU），但是可用的处理器却更少。MiNiFi Java选项是轻量级的NiFi单节点实例，是NiFi的无头版本，他没有用户界面也没有集群功能。尽管如此，它仍要求Java在主机上可用。
如果可以使用Kafka作为群集的入口点，为什么还要使用NiFi？
这是一个很好的问题，许多参加我的Live NiFi Demo Jam的人都问了这个问题。您可以通过以下方式确定何时使用NiFi和何时使用Kafka。

Kafka设计用于主要针对较小文件的面向流的用例，然而摄取大文件不是一个好主意。NiFi完全与数据大小无关，因为文件大小与NiFi无关。
Kafka就像一个将数据存储在Kafka主题中的邮箱，等待应用程序发布和/或使用它。NiFi就像邮递员一样，将数据传递到邮箱或其他目的地。
NiFi提供了广泛的协议（MQTT、Kafka协议、HTTP、Syslog、JDBC、TCP / UDP等）可以在数据导入时进行交互。NiFi是一款出色、一致且独特的软件，可以管理您的所有数据提取。您可能要考虑将数据发送到Kafka，以用于多个下游应用程序。但是，NiFi应该成为获取数据的网关，因为它支持多种协议，并且可以在相同的简单拖放界面中满足数据需求，从而使ROI很高。
使用NiFi将数据安全地移动到多个位置，尤其是采用多云策略时。
Kafka Connect可以回答一些问题，但是当您在移动数据时需要复杂的过滤、路由、扩充和转换时，这不是通用的解决方案。
NiFi还基于可扩展框架构建，该框架为用户提供了简便的方法来扩展NiFi的功能并快速构建非常自定义的数据移动流。
大规模公开用于实时数据收集的REST API的最佳方法是什么？
我们的客户使用NiFi公开REST API，供外部来源将数据发送到目的地。最常见的协议是HTTP。

如果您的目标是获取数据，则可以在NIFi中使用ListenHTTP处理器，让它侦听HTTP请求的给定端口，然后可以向其发送任何数据。
如果要使用NiFi提供Web服务，请查看HandleHTTPRequest和HandleHTTPResponse处理器。通过使用两个处理器的组合，您将通过HTTP接收来自外部客户端的请求。您将能够对请求中的数据进行处理，并将自定义答案/结果发送回客户端。例如，您可以使用NiFi通过HTTP访问外部系统，例如FTP服务器。您将使用两个处理器并通过HTTP发出请求。当您在NIFi中收到查询时，NiFi会针对FTP服务器进行查询以获取文件，然后将文件发送回客户端。
使用NiFi，所有这些独特的请求都可以很好地扩展。在这种用例中，NiFi将根据需求进行水平扩展，并在NiFi实例的前面设置负载均衡器，以平衡集群中NiFi节点之间的负载。
是否可以根据用户的访问权限和安全策略阻止或共享NiFi数据流？
NiFi提供了非常细粒度的多租户和策略模型。设置正确的策略以在多租户环境中提供NiFi很容易。您可以轻松地在NiFi中使用不同的策略集定义多个流程组，因此您有一个专用于处理用例1的团队A的流程组，以及一个专用于用例2的团队B的流程组。考虑：

NiFi确保不同的团队不应该访问其他流程组。使用Apache Ranger或NiFi中的内部策略可以轻松进行设置。您可以让多个团队在同一个NiFi环境中处理大量用例。
在NiFi集群中，所有资源均由所有现有流共享，并且没有资源隔离。例如，NiFi无法为用例＃1分配60％的资源，而为用例＃2分配40％的资源。对于关键用例，大多数客户将拥有专用的NiFi群集，以确保满足SLA。NiFi提供了监视功能，以确保在群集内正确使用资源并在群集过小时发出警报。
在2021年，Cloudera将发布新解决方案，使客户能够在大小合适的专用NiFi群集中运行NiFi流，并在自动缩放（上下）的k8上运行。此选项可确保每个用例在一段时间内使用所需的内容，而不会影响其他用例。
NiFi是否可以很好地替代ETL和批处理？
对于某些用例，NiFi当然可以代替ETL，也可以用于批处理。但是，应该考虑用例所需的处理/转换类型。在NiFi中，流文件是描述流过事件、对象和数据的方式。虽然您可以在NiFi中为每个Flow File执行任何转换，但您可能不想使用NiFi将Flow File基于公共列连接在一起或执行某些类型的窗口聚合。在这种情况下，Cloudera建议使用其他解决方案。

那么有什么建议呢？

在流使用情况下，最好的选择是使用NiFi中的记录处理器将记录发送到一个或多个Kafka主题。然后，基于我们对Eventador的收购，您可以让Flink使用Continuous SQL对数据进行所有想要的处理（加入流或执行窗口操作）。
在批处理用例中，您会将NiFi视为ELT而不是ETL（E =提取，T =转换，L =加载）。NiFi会捕获各种数据集，对每个数据集进行所需的转换（模式验证、格式转换、数据清理等），然后将数据集发送到由Hive支持的数据仓库中。将数据发送到那里后，NiFi可能会触发Hive查询以执行联合操作。

File to HDFS

FIle to Kafka

hive_to_mysql

kafka2Hdfs

复杂案例

MiNiFi 和 NiFi 有什么区别？

MiNiFi 是用于从远程位置的传感器和设备上收集数据子集的代理。目的是帮助进行数据的“第一英里收集”，并获取尽可能接近其来源的数据。

这些设备可以是服务器、工作站和便携式计算机，也可以是传感器、自动驾驶汽车、工厂中的机器等，您希望在其中使用 MiNiFi 中的某些 NiFi 功能来收集特定数据。在将数据发送到目的地之前，可以对其进行过滤、选择和分类。MiNiFi 的目标是使用 Edge Flow Manager 大规模管理整个流程，以便运营或 IT 团队可以部署不同的流程定义并根据业务需要收集任何数据。以下是一些需要考虑的细节：

NiFi 被设计为通常位于数据中心或云中的中央位置，以在已知的外部系统（如数据库、对象存储等）中移动数据或从中收集数据。NiFi 应该被视为将数据移回的网关在异构环境或混合云体系结构中来回切换。
MiNiFi 在主机上本地运行，进行一些计算和逻辑运算，并且仅将您关心的数据发送到外部系统以进行数据分发。这样的系统当然可以是 NiFi，但也可以是 MQTT 代理、云提供商服务等。MiNiFi 还支持一些用例，在这些用例中，网络带宽可能受到限制，需要减少通过网络发送的数据量。
MiNiFi 代理有两个版本：C ++ 和 Java。MiNiFi C ++ 选项的占用空间非常小（几 MB 的内存，很少的 CPU），但是可用的处理器却更少。MiNiFi Java 选项是轻量级的 NiFi 单节点实例，是 NiFi 的无头版本，他没有用户界面也没有集群功能。尽管如此，它仍要求 Java 在主机上可用。

如果可以使用 Kafka 作为群集的入口点

为什么还要使用 NiFi ？

这是一个很好的问题，许多参加我的 Live NiFi Demo Jam 的人都问了这个问题。您可以通过以下方式确定何时使用 NiFi 和何时使用 Kafka。

Kafka 设计用于主要针对较小文件的面向流的用例，然而摄取大文件不是一个好主意。NiFi 完全与数据大小无关，因为文件大小与 NiFi 无关。
Kafka 就像一个将数据存储在 Kafka 主题中的邮箱，等待应用程序发布和/或使用它。NiFi 就像邮递员一样，将数据传递到邮箱或其他目的地。
NiFi 提供了广泛的协议（MQTT、Kafka 协议、HTTP、Syslog、JDBC、TCP / UDP 等）可以在数据导入时进行交互。NiFi 是一款出色、一致且独特的软件，可以管理您的所有数据提取。您可能要考虑将数据发送到 Kafka，以用于多个下游应用程序。但是，NiFi 应该成为获取数据的网关，因为它支持多种协议，并且可以在相同的简单拖放界面中满足数据需求，从而使 ROI 很高。
使用 NiFi 将数据安全地移动到多个位置，尤其是采用多云策略时。
Kafka Connect 可以回答一些问题，但是当您在移动数据时需要复杂的过滤、路由、扩充和转换时，这不是通用的解决方案。
NiFi 还基于可扩展框架构建，该框架为用户提供了简便的方法来扩展 NiFi 的功能并快速构建非常自定义的数据移动流。

大规模公开用于实时数据收集的 REST API 的最佳方法是什么？

我们的客户使用 NiFi 公开 REST API，供外部来源将数据发送到目的地。最常见的协议是 HTTP。
如果您的目标是获取数据，则可以在 NIFi 中使用 ListenHTTP 处理器，让它侦听 HTTP 请求的给定端口，然后可以向其发送任何数据。

如果要使用NiFi提供Web服务，请查看HandleHTTPRequest 和HandleHTTPResponse 处理器。通过使用两个处理器的组合，您将通过 HTTP 接收来自外部客户端的请求。您将能够对请求中的数据进行处理，并将自定义答案/结果发送回客户端。例如，您可以使用 NiFi 通过 HTTP 访问外部系统，例如 FTP 服务器。您将使用两个处理器并通过 HTTP 发出请求。当您在 NIFi 中收到查询时， NiFi 会针对 FTP 服务器进行查询以获取文件，然后将文件发送回客户端。

使用 NiFi，所有这些独特的请求都可以很好地扩展。在这种用例中，NiFi 将根据需求进行水平扩展，并在 NiFi 实例的前面设置负载均衡器，以平衡集群中 NiFi 节点之间的负载。

是否可以根据用户的访问权限和安全策略阻止或共享 NiFi 数据流？

NiFi 提供了非常细粒度的多租户和策略模型。设置正确的策略以在多租户环境中提供 NiFi 很容易。您可以轻松地在 NiFi 中使用不同的策略集定义多个流程组，因此您有一个专用于处理用例1的团队 A 的流程组，以及一个专用于用例2的团队B的流程组。考虑：
NiFi 确保不同的团队不应该访问其他流程组。使用 Apache Ranger 或 NiFi 中的内部策略可以轻松进行设置。您可以让多个团队在同一个 NiFi 环境中处理大量用例。
在 NiFi 集群中，所有资源均由所有现有流共享，并且没有资源隔离。例如，NiFi 无法为用例＃1分配60％的资源，而为用例＃2分配40％的资源。对于关键用例，大多数客户将拥有专用的 NiFi 群集，以确保满足 SLA。NiFi 提供了监视功能，以确保在群集内正确使用资源并在群集过小时发出警报。
在2021年，Cloudera 将发布新解决方案，使客户能够在大小合适的专用 NiFi 群集中运行 NiFi 流，并在自动缩放（上下）的k8上运行。此选项可确保每个用例在一段时间内使用所需的内容，而不会影响其他用例。

NiFi 是否可以很好地替代 ETL 和批处理？

对于某些用例，NiFi 当然可以代替 ETL，也可以用于批处理。但是，应该考虑用例所需的处理/转换类型。在 NiFi 中，流文件是描述流过事件、对象和数据的方式。虽然您可以在 NiFi 中为每个 Flow File 执行任何转换，但您可能不想使用 NiFi 将 Flow File 基于公共列连接在一起或执行某些类型的窗口聚合。在这种情况下，Cloudera 建议使用其他解决方案。

那么有什么建议呢？

在流使用情况下，最好的选择是使用 NiFi 中的记录处理器将记录发送到一个或多个 Kafka 主题。然后，基于我们对 Eventador 的收购，您可以让 Flink 使用 Continuous SQL 对数据进行所有想要的处理（加入流或执行窗口操作）。
在批处理用例中，您会将 NiFi 视为 ELT 而不是 ETL（E =提取，T =转换，L =加载）。NiFi 会捕获各种数据集，对每个数据集进行所需的转换（模式验证、格式转换、数据清理等），然后将数据集发送到由 Hive 支持的数据仓库中。将数据发送到那里后，NiFi 可能会触发 Hive 查询以执行联合操作。

你可能感兴趣的:(大数据,NiFI,ELT最佳实践)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
C++中NULL等于啥奇妙之二进制嵌入式/Linux #C++编程法则 c++开发语言
文章目录**一、`NULL`的标准定义****二、常见实现方式**1.**定义为整数`0`**2.**定义为`0L`或`(void*)0`**（较少见）**三、与C语言的关键区别****四、`NULL`在C++中的问题**1.**重载函数匹配歧义**2.**模板参数推导错误****五、C++11+的替代方案：`nullptr`****六、最佳实践****七、总结**在C++中，NULL的定义与行为
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Go语言标识符命名规则详解：工程化实践码农老gou GO golang 开发语言后端
引言Go语言的命名规则是其简洁哲学和工程实用性的集中体现。下面从语法规范、最佳实践到实际应用进行全面解析：一、基础命名规则1.变量命名//小驼峰式（lowerCamelCase）varuserNamestringvarmaxRetryCount=3varisConnectedbool特殊场景：//短生命周期变量用缩写i:=0//索引n:=len(items)//数量ctx:=context.Bac
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python pip在自动化脚本中的应用 Python编程之道 Python编程之道 python pip 自动化 ai
Pythonpip在自动化脚本中的应用关键词：Pythonpip、自动化脚本、依赖管理、虚拟环境、包安装、持续集成、DevOps摘要：本文深入探讨Python包管理工具pip在自动化脚本开发中的应用实践。我们将从pip的核心功能出发，详细分析其在依赖管理、环境隔离、自动化部署等方面的应用场景，并通过实际案例展示如何利用pip构建可靠的自动化工作流。文章还将介绍pip的高级特性、最佳实践以及与CI/
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
k8s之configmap 西京刀客云原生(Cloud Native)云计算虚拟化 #Kubernetes(k8s)kubernetes 容器云原生
文章目录k8s之configmap什么是ConfigMap？为什么需要ConfigMap？ConfigMap的创建方式ConfigMap的使用方式实际应用场景ConfigMap最佳实践参考k8s之configmap什么是ConfigMap？ConfigMap是Kubernetes中用于存储非机密配置数据的API对象。它允许你将配置信息与容器镜像解耦，使应用程序更加灵活和可移植。ConfigMap以
前端开发常见问题
技术文章大纲性能优化问题页面加载速度慢的常见原因及解决方案渲染阻塞资源的处理方法图片与媒体文件优化策略懒加载与代码分割的实现方式浏览器兼容性问题不同浏览器对CSS特性的支持差异JavaScriptAPI的兼容性处理方案Polyfill的使用场景与实现方法自动化测试工具在兼容性测试中的应用响应式设计挑战移动端与桌面端布局适配问题媒体查询的最佳实践方案视口单位与相对单位的正确使用高DPI屏幕的图像处理
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
MVVMDemo：一款现代Android开发的最佳实践示例
MVVMDemo：一款现代Android开发的最佳实践示例本文将向您介绍项目，这是一个基于MVVM（Model-View-ViewModel）架构模式的Android应用实例，旨在帮助开发者更好地理解和应用这一流行的软件设计模式。项目概述MVVMDemo是由zhouxu88维护的一个开源项目，它展示了如何在Android平台上有效地实施MVVM架构。此项目包括了基本的数据绑定、LiveData观测
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
SpringBoot 与 JPA 整合全解析：架构优势、应用场景、集成指南与最佳实践 hdsoft_huge SpringBoot教程 spring boot 架构 java
文章目录一、SpringBoot与JPA技术概述1.1SpringBoot核心特性1.2JPA核心价值二、SpringBoot+JPA架构优势2.1开发效率提升2.2代码可维护性增强2.3测试便利性2.4生产就绪特性三、SpringBoot+JPA适用场景3.1企业级应用开发3.2RESTfulAPI开发3.3微服务架构3.4数据密集型应用四、SpringBoot与JPA集成步骤4.1项目初始化4
【常见滤波器】PCL 点云投影到拟合平面 X-Vision 《PCL算法案例开发》平面 3d pcl 计算机视觉算法点云
PCL点云投影到拟合平面-原理、实现与最佳实践目录平面投影的核心原理⚙️PCL平面投影架构基础平面投影实现高级投影技术与优化投影质量评估与分析️工程应用案例⚠️常见问题与解决方案可视化与调试平面投影的核心原理数学原理与几何概念点云投影到拟合平面是将三维点云数据降维到二维平面的过程，核心思想是正交投影：平面方程：ax+by+cz+d=0ax+by+cz+d=0ax+by+cz+d=0平面法向量：n=
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl