slivelight

Apache nifi开发指南

1. Apache Nifi 概念

1.1. NiFi简介

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统，用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目，目前已经代码开源，是Apache基金会的顶级项目之一。

NiFi是基于Java的，使用Maven支持包的构建管理。 NiFi基于Web方式工作，后台在服务器上进行调度。用户可以为数据处理定义为一个流程，然后进行处理，后台具有数据处理引擎、任务调度等组件。

1.2. Nifi核心概念

FlowFile：表示通过系统移动的每个对象，包含数据流的基本属性

FlowFile Processor（处理器）：负责实际对数据流执行工作

Connection（连接线）：负责不同处理器之间的连接，是数据的有界缓冲区

Flow Controller（流量控制器）：管理进程使用的线程及其分配

Process Group（过程组）：进程组是一组特定的进程及其连接，允许组合其他组件创建新组件

1.3. NIFI架构

NiFi是基于Java的，NiFi的核心部件在JVM里的位置如下图所示：

NiFi在主机操作系统上的JVM内执行。JVM上的NiFi的主要组件如下：

1.3.1 网络服务器

Web服务器的目的是托管NiFi的基于HTTP的命令和控制API。

1.3.2 流控制器

流控制器是操作的大脑。它提供用于扩展程序运行的线程，并管理扩展程序接收资源以执行的时间表。

1.3.3 扩展

有各种类型的NiFi扩展在其他文档中描述。这里的关键是扩展在JVM中运行和执行。

1.3.4 FlowFile存储库

FlowFile存储库是NiFi跟踪目前在流程中活动的给定FlowFile的知识状态。存储库

实现是可插拔的。默认方法是位于指定磁盘分区上的持久写入前端日志。

1.3.5 内容存储库

Content Repository是给定FlowFile的实际内容字节。存储库的实现是可插拔的。默认方法是一个相当简单的机制，它将数据块存储在文件系统中。可以指定多个文件系统存储位置，以便获得不同的物理分区，以减少任何单个卷上的争用。

1.3.6 源头存储库

Provenance Repository是存储所有来源的事件数据的地方。存储库构造是可插入的，默认实现是使用一个或多个物理磁盘卷。在每个位置内，事件数据被索引和可搜索。

1.3.7 作为功能强大的数据处理和分发组件，NiFi自然原生支持集群部署方式（推荐部署方式）。NiFi集群部署模式如下图：

集群模式下，NiFi集群中的每个节点对数据执行相同的任务，但是每个节点都在不同的数据集上进行操作。和大部分大数据组件一样，NiFi集群使用Apache ZooKeeper提供协调服务。 Apache ZooKeeper选择一个NiFi节点作为集群协调器，故障转移由ZooKeeper自动处理。所有集群节点向集群协调器报告心跳和状态信息。集群协调器负责节点的断开和连接。此外，ZooKeeper会为每个集群选举一个节点作为集群主节点。作为DataFlow管理器，您可以通过任何节点的用户界面（UI）与NiFi集群进行交互。您所做的任何更改都会同步到集群中的所有节点，从而允许多个入口点。

2. NiFi的搭建

2.1. 单机开发环境搭建

2.1.1运行环境准备。

Apache nifi即可运行在Windows平台，也可运行在Linux平台，需要安装jdk（nifi 1.x以上需要jdk8以上，0.x需jdk7以上）和maven（至少3.1.0以上版本）。

2.1.2下载

NIFI下载地址：http://nifi.apache.org/download.html

下载当前版本的NiFi二进制工程，目前最新的版本为1.6.0。

2.1.3支持浏览器：

· Internet Explorer 9+ (see note below)

· Mozilla FireFox 24+

· Google Chrome 36+

· Safari 8

2.1.4修改配置文件。

由于NIFI默认端口为8080，所以需要检查一下8080端口是否被占用，如果被占用可以使用别的未被占用的端口，如9090,9091等。

　检查端口是否被占用命令：netstat -ano|findstr "8080"

　NIFI配置文件：/usr/local/conf/nifi.properties,配置ip（134行nifi.web.http.host）和端口（135行：nifi.web.http.port）

2.1.5启动服务。

在linux平台，启动服务使用命令({NIFI ROOT})/bin/nifi.sh start;

在window平台使用命令{NIFI ROOT})\bin\run-nifi.bat。

（双击启动文件：({NIFI ROOT})\bin\run-nifi.bat）

2.1.6验证测试

启动服务后过大概3到5分钟，在浏览器中输入：http://localhost/nifi 或者：http://localhost:8080/nifi，即可开始使用了。

2.1.7基本命令

启动：./nifi.sh start

关闭：./nifi.sh stop

重启：./nifi.sh restart

状态：./nifi.sh status

报表：./nifi-app.log

2.1.8、NiFi的操作

（1）UI界面介绍

· 工具栏这里主要是构造数据流操作的主要面板。

添加模块（processor） nifi内部会提供各个处理模块，当我们在进行数据处理的过程中，可以选择不同的模块并调整变量进行拼装，从而组合成一个完整的数据流处理的组。

添加数据流传入点（input-port）虽说是数据流输入点，但是并不是整体数据流的起点。它是作为组与组之间的数据流连接的传入点与输出点。

添加数据流输出点（output-port）同理上面的输入点。它是作为组与组之间的数据流连接的传入点与输出点。

添加组（process-group）组相当于系统中的文件夹，作用就是使数据流的各个部分看起来更工整，思路更清晰，不至于从头到尾一条线阅读起来十分不方便。

添加远端的组（remote process-group）根据弹出框进行信息配置，可加入远程的组。

拉取已有的文件（template）每当做好一个完整的数据流后，可存储到本地为xml文件，nifi支持本地的template上传，这个按钮就是在上传本地template之后，选择上传过的一个获取到操作画布上。

添加便签（label）相当于便签，可放置在画布空白处，写上备注信息。

· Navigate这一部分是对区域一这个画布的缩小预览，点击放大缩小可调整视野，蓝框区域就是画布当前的界面，可用鼠标在这部分进行移动从而调整画布的视野。

· 操作栏

开始运行选中模块并点击运行按钮，开始进行对数据流的处理。

停止运行选中模块并点击停止按钮，则停止了进行对数据流的处理。

保存template选择你要保存的一个template，点击这个保存按钮，可把这个template保存到nifi系统里（并不是电脑本地，如果想保存到电脑本地，可点击右上角这个按钮，选择Template，弹出的页面上有下载选项）。

上传template可上传本地的template（xml文件）到nifi系统里。

（2）模板

创建模板：在要创建模板的group中点击模板左侧的create template或者鼠标右键空白处。

下载模板：

使用模板：选择界面上方的template拖放至画布，选择要使用的模板。

NiFi的模板会保存组中的处理器配置及controller servres。例如数据库连接，但是不会保存密码。

（3）Processor

添加处理器：

点击add将处理器拖到画布上后，可以通过右键单击处理器并从上下文菜单中选择一个选项来与其进行交互。根据分配给您的权限，上下文菜单中可用的选项会有所不同。

虽然上下文菜单中的选项有所不同，但是当您具有使用处理器的完全权限时，通常可以使用以下选项：

· Configure（配置）：此选项允许用户建立或更改处理器的配置。

· Start（启动或停止）：此选项允许用户启动或停止处理器; 该选项可以是Start或Stop，具体取决于处理器的当前状态。

· Disable（启用或禁用）：此选项允许用户启用或启用处理器; 该选项将为“启用”或“禁用”，具体取决于处理器的当前状态。

· View data provenance（查看数据来源）：此选项显示NiFi数据来源表，其中包含有关通过该处理器路由的FlowFiles的数据来源事件的信息。

· View status history（查看状态历史记录）：此选项打开处理器统计信息随时间的图形表示。

· View usage（查看用法）：此选项将用户带到处理器的使用文档。

· View connection → Upstream（查看连接→上游）：此选项允许用户查看和“跳转”入处理器的上游连接。当处理器连接进出其他进程组时，这尤其有用。

· View connection → Downstream（查看连接→下游）：此选项允许用户查看和“跳转”到处理器外的下游连接。当处理器连接进出其他进程组时，这尤其有用。

· Centere in view（视图中心）：此选项将画布的视图置于给定的处理器上。

· Change color（更改颜色）：此选项允许用户更改处理器的颜色，这可以使大流量的可视化管理更容易。

· Create template（创建模板）：此选项允许用户从所选处理器创建模板。

· Copy（复制）：此选项将所选处理器的副本放在剪贴板上，以便可以通过右键单击画布并选择“粘贴”将其粘贴到画布上的其他位置。复制/粘贴操作也可以使用按键Ctrl-C（Command-C）和Ctrl-V（Command-V）完成。

· Delete（删除）：此选项允许从画布中删除处理器。

（4）配置processor属性

要配置处理器，请右键单击处理器，然后Configure从上下文菜单中选择该选项。或者，只需双击处理器即可。

· 设置选项卡

“处理器配置”对话框中的第一个选项卡是“设置”选项卡

Name：Processor名称，默认与处理器类型相同，可以更改。处理器名称旁边是一个复选框，指示处理器是否已启用。

Id：Processor唯一标识符以及Processor的类型和NAR包，无法修改。

Type：Processor类型，无法更改。

Bundle：Processor 的NAR包，无法更改。

Penalty Duration（惩罚持续时间）：在处理一段数据（FlowFile）的正常过程期间，可能发生事件，该事件指示此时不但是数据可以在稍后的时间处理。

Yield Duration:：处理器可以确定存在某种情况，使得处理器不再能够进行任何进展，而不管其正在处理的数据，这将阻止处理器被安排运行一段时间。

Bulletin Level（公告）：每当处理器写入其日志时，处理器也将生成公告。此设置指示应在用户界面中显示的最低级别的公告。默认情况下，公告级别设置为WARN，这意味着它将显示所有警告和错误级别公告。

Automatically Terminate Relationships（自动终止关系）：为了使处理器被视为有效且能够运行，处理器定义的每个关系必须连接到下游组件或自动终止。

· 调度选项卡

“处理器配置”对话框中的第二个选项卡是“计划”选项卡：

NiFi支持三种调度策略，包括Time Driven（时间驱动）、CRON Driven（CRON驱动）和Event Driven（事件驱动，非可选）：

Time Driven：这是默认模式。处理器将安排定期运行。处理器运行的时间间隔由“运行计划”选项定义。

Event Driven：当选择此模式时，处理器将被触发以事件运行，并且当FlowFiles输入连接到此处理器的连接时会发生该事件。此模式目前被认为是实验性的，并且不受所有处理器的支持。选择此模式时，“运行计划”选项不可配置，因为处理器不会触发为定期运行，而是作为事件的结果。此外，这是“并行任务”选项可以设置为0的唯一模式。在这种情况下，线程数量仅受管理员配置的事件驱动线程池大小的限制。

CRON驱动：当使用CRON驱动的调度模式时，处理器被安排定期运行，类似于定时器驱动的调度模式。然而，CRON驱动模式提供了更大的灵活性，但增加了配置的复杂性。CRON驱动的调度值是由六个必填字段和一个可选字段组成的字符串，每个字段由一个空格分隔。

CRON的各参数含义分别代表：秒、分、时、日、月、周、年，需要配合*、？和L共同执行（*代表字段的值都有效；?代表对于指定的字段不指定值；L代表长整形）。如：“0 0 13 * * ?”代表想要在每天下午1点进行调度执行。根据业务需求进行参数的调度配置。

详情请参阅Quartz文档中的Chron Trigger教程。

http://www.quartz-scheduler.org/documentation/quartz-2.x/tutorials/crontrigger.html

· 属性选项卡

Properties选项卡提供了一种配置特定于Processor的行为的机制。

（5）连接processor

一旦处理器和其他组件被添加到画布中并进行配置，下一步就是将它们彼此连接起来，以便NiFi知道在处理完每个FlowFile后如何处理。这是通过在每个组件之间创建一个连接来完成的。用户将连接气泡从一个组件拖动到另一个组件，直到第二个组件被突出显示。当用户释放鼠标时，会出现一个“创建连接”对话框。必须至少选择一个关系。如果只有一个关系可用，则会自动选择它。

设置

“设置”选项卡提供配置连接名称，FlowFile到期，背压阈值和优先级的功能：

· FlowFlie Expiration

通过FlowFile到期可以自动从流中删除无法及时处理的数据。比如说，如果给定连接上的文件到期时间设置为“1小时”，并且已经在NiFi实例中一小时的文件到达该连接，则该文件将过期。默认值为0 sec表示数据永不过期。当设置了“0秒”以外的文件到期时，连接标签上会出现一个小时钟图标，因此当查看画布上的流时，DFM可以一目了然地看到它。

· Back Pressure

NiFi为背压提供两种配置元素。这允许系统避免数据溢出。

Back pressure object threshold（背压对象阈值）：在应用背压之前可以在队列中的FlowFiles的数量。

Back pressure data size threshold（背压数据大小阈值）：指定了在应用反压之前应排队的最大数据量（大小）。

启用背压时，连接标签上会出现小进度条，因此在查看画布上的流时，DFM可以一目了然地看到它。进度条根据队列百分比更改颜色：绿色（0-60％），黄色（61-85％）和红色（86-100％）。

将鼠标悬停在条形图上会显示确切的百分比。

队列完全填满后，Connection将以红色突出显示。

· 优先级

选项卡的右侧提供了对队列中数据进行优先级排序的功能，以便首先处理更高优先级的数据。优先级可以从顶部（'可用的优先级排序器'）拖动到底部（'选择优先级排序器'）。

可以选择多个优先级排序器。位于“所选优先级”列表顶部的优先级排序是最高优先级。如果两个FlowFiles根据此优先级排序器具有相同的值，则第二个优先级排序器将确定首先处理哪个FlowFile，依此类推。如果不再需要优先级排序器，则可以将其从“选定的优先级排序器”列表拖动到“可用的优先级排序器”列表。

可以使用以下优先顺序：

FirstInFirstOutPrioritizer：给定两个FlowFiles，首先处理首先到达连接的FlowFiles。

NewestFlowFileFirstPrioritizer：给定两个FlowFiles，将首先处理数据流中最新的FlowFiles。

OldestFlowFileFirstPrioritizer：给定两个FlowFiles，将首先处理数据流中最旧的FlowFiles。

PriorityAttributePrioritizer：给定两个都具有“priority”属性的FlowFile，将首先处理具有最高优先级值的FlowFiles。请注意，应该使用UpdateAttribute处理器将“priority”属性添加到FlowFiles，然后才能到达具有此优先级设置的连接。“优先级”属性的值可以是字母数字，其中“a”是比“z”更高的优先级，“1”是比“9”更高的优先级。

（6）处理器验证

在尝试启动处理器之前，确保处理器的配置有效非常重要。状态指示器显示在处理器的左上角。如果处理器无效，指示器将显示黄色警告指示器，并带有感叹号，表示存在问题：

在这种情况下，使用鼠标悬停在指示器图标上将提供工具提示，显示处理器的所有验证错误。一旦解决了所有验证错误，状态指示器将变为Stop图标，表示处理器有效并准备启动但当前未运行：

（7）启动processor

为了启动组件，必须满足以下条件：

· 组件的配置必须有效

· 所有为组件定义的关系必须连接到另一个组件或自动终止

· 组件必须停止

· 该组件必须没有活动任务

可以通过右键单击一个组件并从上下文菜单中选择Start来启动组件。

如果启动进程组，则该进程组中的所有组件（包括子进程组）都将启动，但那些无效或禁用的组件除外。

一旦启动，处理器的状态指示器将变为播放符号。

2.2. 集群环境搭建

从NiFi 1.0版本开始，NiFi采用Zero-Master聚类范例。NiFi集群中的每个节点都对数据执行相同的任务，但每个节点都运行在不同的数据集上。Apache ZooKeeper选择其中一个节点作为集群协调器，故障转移由ZooKeeper自动处理。所有群集节点都会向群集协调器报告心跳和状态信息。群集协调器负责断开和连接节点。作为DataFlow管理器，您可以通过群集中任何节点的UI与NiFi群集进行交互。您所做的任何更改都会复制到群集中的所有节点，从而允许多个入口点进入群集。

2.1核心模块： NiFi Cluster Coordinator（集群协调器）:集群中节点，负责控制任务和管理节点有负载均衡的功能。节点:负责实际的数据处理主节点:有zookeeper自动选择，此节点上运行隔离处理器Isolated Processors（隔离处理器）:不希望在每个节点上运行的任务。独立运行。Heartbeats（心跳）:传达节点的运行状态。与集群协调器通信特点：采用零主集群范例。每个节点对数据执行相同的任务，但每个节点对不同的数据集进行操作

2.2搭建集群

以一台电脑，两台虚拟机（最小的Centos 7）为例，在三个实例上部署二进制文件并解压缩。现在每个节点上都有一个NiFi目录。

首先要在配置文件“./conf/zookeep.properties”中配置ZK（ZooKeeper）实例的列表:

server.1=node-1:2888:3888

server.2=node-2:2888:3888

server.3=node-3:2888:3888

2.3配置myid

如果多个NiFi节点正在运行嵌入式ZK，则告诉服务器哪一个是重要的。

在nifi目录下创建文件夹/state/zookeeper/并创建文件myid，文件内容与第二步中的server.id一致。

2.4配置state-management.xml:

node-1:2888,node-2:2888,node-3:2888

2.5配置nifi节点属性

目录：conf/nifi.properties

指定NiFi必须运行嵌入式ZK实例，并具有以下属性：

nifi.state.management.embedded.zooker.start =true

使用内置zookeeper：nifi.zookeeper.connect.string=node-1:2181,node-2:2181,node-3:2181

下面需每个节点单独配，根据节点的IP相应配置，保持集群中节点使用的端口一致

nifi.cluster.is.node=true

nifi.cluster.node.address=node-1

nifi.cluster.node.protocol.port=9999

nifi.remote.input.host=node-1

nifi.remote.input.secure=false

nifi.remote.input.socket.port=9998

nifi.web.http.host =node-1

配置完成后就可以此启用节点，集群将选取产生主节点。

2.6测试集群

访问http：//node-2：8080 / nifi

正如在左上角看到的，集群中有3个节点。此外，如果我们进入菜单（右上角的按钮）并选择群集页面，将会出现三个节点的详细信息：

node-2已被选为集群协调器，而node-3则是主节点。这种区别很重要，因为某些处理器必须运行在一个唯一的节点上（为了数据一致性），在这种情况下，我们希望它运行在“主节点上”。

我们可以在特定节点上显示细节（左侧的“信息”图标）：

3. 典型技术场景

3.1. GetFile To PutFile

1. 整体流程图

涉及到的处理器以及功能

- GetFile:从指定的路径中读取文件

- PutFile:移动文件到指定位置

2. 细节说明：

（1）GetFile：读取文件

· Input Directory：从中提取文件的输入目录

· File Filter：仅拾取名称与给定正则表达式匹配的文件

（2）PutFile：存放文件

· Directory：文件存放目录

3.2. 从csv到mysql

3. 整体流程图

涉及到的处理器以及功能· GetFile:从指定的路径中读取文件 · ConvertRecord:通过指定Reader和Writer的类型，完成文件格式转换

· Splitjson：将JSON文件拆分为多个独立的FlowFiles

· ConvertJSONToSQL：将json中的元素转化为sql中的insert语句· PutSQL：执行SQL UPDATE或INSERT命令

4. 细节说明：

（3）GetFile：读取文件

设置循环时间为1 days ，防止数据重复插入

· Input Directory：输入目录，从中提取文件的输入目录

· File Filter：文件过滤器，只有名称与给定正则表达式匹配的文件才会被拾取

· Keep Source File：默认情况下，会将源文件删除

（2）ConvertRecord:转换文件格式

首先添加一个Record Reader和Record Writer，对于Record Reader，我们选择的是CSVReader，因为我们读取的文件是CSV格式，这个需要根据读取文件的格式选择。对于RecordWriter，我们选择的是JsonRecordSetWriter。

· Record Reader：CSVReader（根据所要读入数据的格式进行设定）,点击右侧的箭头，对CSVReader的属性进行设定

· Schema Access Strategy：这里我们选择通过Schema Test来找到对应的schema· Schema Registry：需要选择Scheme Registry的类型，这里选择的是AvroSchemaRegis try，右侧又出现一个小箭头，需要对AvroSchemaRegistry进行设置。

· Record Write进行类似的设置即可。

· 启动控制器

（3）SplitJson ：将JSON文件拆分为由JsonPath表达式指定的数组元素的多个独立的

FlowFiles

然后从ConvertAvroToJson拖一条线到SplitJson，关系为success。

· JsonPathExpression：一个JsonPath表达式，用于指示要拆分为JSON 的数组元素

（4）ConvertJSONToSQL处理器：将JSON格式的FlowFile转换为SQL语句

【注意】该处理器有一个特性，只能处理flat json，所谓flat是由一个JSON元素组成，每个字段映射到一个简单类型

· JDBC Connection Pool：根据要连接的数据库类型选择，我要连接的是mysql数据库，因此选择DBCPConnectionPool

· Statement Type：设置要执行的操作，INSERT和UPDATE等，这里要执行的是插入操作

· Table Name：语句应更新的表的名称

· Translate Field Name: 如果json中元素的属性名称与数据表中的列名称一致，则选择false，否则选择true

· JDBC Connection Pool的属性后面有一个小箭头，点击箭头对此项进行设置：

实际上这个java连接数据的设置是一致的， · Database Driver Class Name: 根据要连接的数据库类型选择

jdbc:mysql://localhost:3306/test

【注意】数据库和系统时区差异问题，在jdbc连接的url后面加上serverTimezone=GMT即可解决问题，如果需要使用gmt+8时区，需要写成GMT%2B8，否则会被解析为空。再一个解决办法就是使用低版本的MySQL jdbc驱动，5.1.28不会存在时区的问题。· Database Driver location：选择对应数据库连接jar包的完整路径

【注意】Jar包版本要与MySQL版本相匹配

D:\Java\maven-3.5.3\.m2\repository\mysql\mysql-connector-java\5.1.6

· Database User：登录数据库的用户名 · Password：用户名对应的密码

（5）PutSQL处理器：这里只设定了 JDBC Connection Pool

3.3. MySQL To Oracle

1. 整体流程图

涉及到的处理器以及功能 - ExecuteSQL:执行提供的SQL选择查询，查询结果将转换为Avro格式

- ConvertAvroToJson：将avro格式的数据转化成json格式

- Splitjson：将JSON文件拆分为多个独立的FlowFiles

- ConvertJSONToSQL：将json中的元素转化为sql中的insert语句

- PutSQL：执行SQL UPDATE或INSERT命令

2. 细节说明

（1）ExecuteSQL:

· 设置SQL select query为 select * from user

· service-->DBCPConnectionPool，然后再点击右侧的箭头，配置下一个选项

·Database Connection URL：jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=utf8&useSSL=true

· Database Driver Class Name: com.mysql.jdbc.Driver

· Database Driver location:/home/xxxx/mysql-connector-java-5.1.39.jar

· Database User：登录数据库的用户名

· Password：用户名对应的密码

（2）ConvertAvroToJson：将二进制Avro记录转换为JSON对象然后，从ExecuteSQL拖一条线到ConvertAvroToJson，关系为success。

（2）SplitJson ：将JSON文件拆分为由JsonPath表达式指定的数组元素的多个独立的

FlowFiles

然后从ConvertAvroToJson拖一条线到SplitJson，关系为success。

· JsonPathExpression：一个JsonPath表达式，用于指示要拆分为JSON 的数组元素

（3）添加一个ConvertJSONToSQL到界面，然后配置

（5）PutSQL

3.4. 执行javaScript脚本

ExecuteScript是一个多功能处理器，允许用户使用编程语言编写自定义逻辑，每次触发

ExecuteScript处理器时都会执行该编程语言。

以下变量绑定被提供给脚本以允许访问NiFi组件：

· session（会话）：这是对分配给处理器的ProcessSession的引用。会话允许您对流文件（如create（），putAttribute（）和transfer（）以及read（）和write（）（）进行操作。

· context（上下文）：这是对处理器的ProcessContext的引用。它可以用来检索处理器属性，关系，Controller服务和StateManager。

· log：这是对处理器ComponentLog的引用。用它来记录消息给NiFi，比如log.info（'Hello world！'）

· REL_SUCCESS：这是对处理器定义的“成功”关系的引用。它也可以通过引用父类（ExecuteScript）的静态成员来继承，但是一些引擎（如Lua）不允许引用静态成员，所以这是一个方便的变量。这也节省了必须使用关系的完全合格的名称。

· REL_FAILURE：这是对处理器定义的“失败”关系的引用。和REL_SUCCESS一样，它也可以通过引用父类（ExecuteScript）的静态成员来继承，但是一些引擎（如Lua）不允许引用静态成员，所以这是一个方便的变量。这也节省了必须使用关系的完全合格的名称。

· Dynamic Properties ：在ExecuteScript中定义的任何动态属性都将作为设置为与动态属性对应的PropertyValue对象的变量传递给脚本引擎。这允许您获取属性的String值，还可以针对NiFi表达式语言评估该属性，将该值作为适当的数据类型（例如布尔值）等进行转换。由于动态属性名称会成为脚本的变量名称，您必须知道所选脚本引擎的变量命名属性。例如，Groovy不允许在变量名称中使用句点（。），因此如果“my.property”是一个动态属性名称，则会发生错误。

· Script Engine：脚本引擎选择ECMAScript中

· Script File：脚本文件

· Script Body：脚本内容

（1）从会话中获取传入的流文件

方法：使用会话对象中的get（）方法。

var flowFile = session.get();

if (flowFile != null) {

// All processing code goes here

}

（4）从会话中获取多个传入的流文件

方法：使用会话对象中的get（maxResults）方法。

flowFileList = session.get(100) ;

if(!flowFileList.isEmpty()) {

for each (var flowFile in flowFileList) {

// Process each FlowFile here

}

（5）从父级FlowFile创建一个新的FlowFile

方法：使用会话对象的create（parentFlowFile）方法。

var flowFile = session.get();

if (flowFile != null) {

var newFlowFile = session.create(flowFile);

// Additional processing here

}

（6）为流文件添加一个属性

方法：使用会话对象中的putAttribute（flowFile，attributeKey，attributeValue）

方法。

var flowFile = session.get();

if (flowFile != null) {

flowFile = session.putAttribute(flowFile, 'myAttr', 'myValue')

}

（5）将多个属性添加到流文件

方法：使用会话对象中的putAllAttributes（flowFile，attributeMap）方法。

var number2 = 2;

var attrMap = {'myAttr1':'1', 'myAttr2': number2.toString()}

var flowFile = session.get()

if (flowFile != null) {

flowFile = session.putAllAttributes(flowFile, attrMap)

}

（6）从流文件中获取属性

方法：使用FlowFile对象的getAttribute（attributeKey）方法。

var flowFile = session.get();

if (flowFile != null) {

var myAttr = flowFile.getAttribute('filename')

}

（7）从流文件获取所有属性

方法：使用FlowFile对象的getAttributes（）方法。

var flowFile = session.get() if (flowFile != null) {

var attrs = flowFile.getAttributes();

for each (var attrKey in attrs.keySet()) {

// Do something with attrKey (the key) and/or attrs[attrKey] (the value)

}

（8）将流文件转移到关系

方法：使用会话对象的transfer（flowFile，relationship）方法。

var flowFile = session.get();

if (flowFile != null) {

// All processing code goes here

if(errorOccurred) {

session.transfer(flowFile, REL_FAILURE)

} else {

session.transfer(flowFile, REL_SUCCESS)

}

（9）以指定的日志记录级别向日志发送消息

方法：使用带有warn（），trace（），debug（），info（）或error（）方法的log变量。

var ObjectArrayType = Java.type("java.lang.Object[]");

var objArray = new ObjectArrayType(3);

objArray[0] = 'Hello';

objArray[1] = 1;

objArray[2] = true;

log.info('Found these things: {} {} {}', objArray)

3.5. Hive To Elasticsearch

1. 整体流程图

涉及到的处理器以及功能- SelectHiveQL:从Hive库中查取数据

- ConvertAvroToJson：将查出来的数据转换为Json格式

- Splitjson：将Json文件拆分为多个独立的FlowFiles

- PutElasticsearchHttp：将数据插入到ES库中

2. 细节说明

（1）SelectHiveQL：读取文件

· HiveQl Select Query ：查询语句

· Hive Database Connection Pooling Service : 点击箭头配置Hive库连接

· Database Connection URL :

jdbc:hive2://192.168.51.103:24002/sg_udm;serviceDiscoveryMode=zooKeeper;

zooKeeperNamespace=hiveserver2

· Database User : 用户名

· Password ：密码

（2）ConvertAvroToJson 默认设置

（3）Splitjson默认设置

（4）PutElasticsearchHttp

· Elasticsearch URL : 设置ES的ip:端口

注意：此处是http协议

· Index ：设置ES库的Index

· Type ：设置ES库的Type

【查询】http://192.168.6.244:9200/index1/_search?pretty

3.6. Elasticsearch To MySQL

1. 整体流程图

涉及到的处理器以及功能- InvokeHTTP:从ES库中查取数据

- Splitjson：将Json文件拆分为多个独立的FlowFiles

- ConvertJSONToSQL：将Json格式的数据转换为SQL语句

- PutSQL：将数据插入到MySQL数据库中

2.细节说明：

（1）InvokeHTTP：查询数据

· HTTP Method ：采用GET请求方式

· Remote URL ： ES查询 Rest API

（2）Splitjson：默认设置

（3）ConvertJSONToSQL：

· JDBC Connection Pool ：配置MySQL数据库连接

· Statement Type ：执行INSERT 方式

· Table Name ：数据库的表名

（4）PutSQL

· JDBC Connection Pool ：配置MySQL数据库连接

3.7. hbase To Kafka

1. 整体流程图

涉及到的处理器以及功能 - GetHBase:为HBase查询指定表中的任何记录

- PutKafka：将FlowFile的内容作为消息发送到Apache Kafka

2. 细节说明

（1）GetHBase：查询hbase中的数据

· Table Name是所要查询hbase中的表名

· HBase Client Service用于连接hbase，需要创建一个连接

创建hbase的连接配置如下

· ZooKeeper Quorum是zookeeper的ip地址列表

· ZooKeeper Client Port是zookeeper的端口号

· ZooKeeper ZNode Parent是hbase在zookeeper中的节点目录

（2）PutKafka：将数据发布到kafka

配置方式如下，

· Known Brokers是连接kafka的ip与端口；

· Topic Name是发布到kafka上的topic名称。

3.8. Hive To Kafka

1. 整体流程图

涉及到的处理器以及功能 - SelectHiveQL:为HBase查询指定表中的任何记录

- ConvertAvroToJson：将查询出来的数据转换成Json格式

- PutKafka：将FlowFile的内容作为消息发送到Apache Kafka

2. 细节说明

(1)SelectHiveQL：查询hive中的数据

· HiveQL Select Query ：查询hive中数据的查询语句。

· Hive Database Connection Pooling Service：用于连接hive，需要创建一个连接

Hive连接配置如下，

· Database Connection URL是连接hive的url

· Database User是连接hive的用户名

· Password是连接hive的密码

配置完成后需要启动连接，

（2）ConvertAvroToJSON

（3）PutKafka：将数据发布到kafka

· Known Brokers：连接kafka的ip与端口

· Topic Name是发布到kafka上的topic名称。

4. 组件扩展开发

4.1. 开始

Nifi有很多可用的、文档化的Processor资源，但是某些时候你依然需要去开发属于你自己的Processor，例如从某些特殊的数据库中提取数据、提取不常见的文件格式，或者其他特殊情况。

4.2. 项目依赖

本文以Eclipse开发为例，创建了一个基础的json文件读取Processor，将内容转化为属性值。

（1）安装JDK8，Maven，Eclipse配置Maven管理工具

（2）Eclipse新建Maven项目，如下图所示

（3）点击next，进入如下图所示页面

（4）默认选项，点击next进入如下页面

（5）点击上图中箭头所指的按钮Add Archetype进入如下所示页面

（6）填写：

Archetype Group Id：org.apache.nifi

Archetype Artifact Id：nifi-processor-bundle-archetype

Archetype Version：1.2.0

点击OK,可以看到nifi的archetype已经添加到meven中了。

（7）选择org.apache.nifi，点击Next，如下图所示

（8）填写项目信息后点击finish完成项目创建

（9）创建完成以后项目下新生成3个目录，我们要开发的东西在nifi-nifitest-processors中完成。

（10）打开nifi-nifitest-processors目录如下：

4.3. JSON Processor

现在自定义Nifi Processor的前期准备工作都做完了，可以开始构建属于我们自己的Processor了。

（1）在包下新加类起名JsonProcessor使之继承AbstractProcessor

@Tag标签是为了在web GUI中，能够使用搜索的方式快速找到我们自己定义的这个Processor。

@CapabilityDescription内的值会暂时在Processor选择的那个页面中，相当于一个备注。

一般来说只需要继承AbstractProcessor就可以了，但是某些复杂的任务可能需要去继承更底层的AbstractSessionFactoryProcessor这个抽象类。

@Tags({"JSON"})//快速搜索标签

@CapabilityDescription("提取的json文件的属性")

@SeeAlso({})

@ReadsAttributes({@ReadsAttribute(attribute="",description="")})

@WritesAttributes({@WritesAttribute(attribute="",description="")})

public class JsonProcessor extends AbstractProcessor{

（2）新建几个PropertyDescriptor（接受页面配置的参数，如果不需要，可以不进行配置）

public static final PropertyDescriptor JSON_PATH =

new PropertyDescriptor

.Builder().name("Json Path")

.required(true)

.addValidator(StandardValidators.NON_EMPTY_VALIDATOR)

.build();

（3）新建几个Relationship（输出状态，成功或者失败或者其他）

public static final Relationship SUCCESS = new Relationship.Builder()

.name("success").description("SUCCESS")

.build();

public static final Relationship FAILURE = new Relationship.Builder()

.name("failure").description("FAILURE")

.build();

（3）定义两个集合添加上面创建的PropertyDescriptor和Relationship

protected void init(final ProcessorInitializationContext context) {

final List descriptors = new ArrayList();

descriptors.add(JSON_PATH);

this.descriptors = Collections.unmodifiableList(descriptors);

final Set relationships = new HashSet();

relationships.add(SUCCESS);

relationships.add(FAILURE);

this.relationships = Collections.unmodifiableSet(relationships);

}

（4）添加新创建属性的get方法

public Set getRelationships(){

return relationships;

}

public final List getSupportedPropertyDescriptors(){

return descriptors;

}

如上是初始化Nifi进程，由于Nifi是高度并发条件，所以descriptors和relationship是存储在一个不可变的集合中。

（5）onTrigger方法中实现自己的业务，onTrigger方法会在一个flowfile被传入处理器时调用。

public void onTrigger(ProcessContext context, ProcessSession session) throws ProcessException {

final AtomicReference value = new AtomicReference<>();

//获取flowFile中的内容

FlowFile flowFile = session.get();

session.read(flowFile, in ->{

try {

String json = IOUtils.toString(in);

String result = JsonPath.read(json, "$.hello");

value.set(result);

} catch (Exception e) {

e.printStackTrace();

getLogger().error("Failed to read json string");

}

});

//将读取json数据写入flowFile中

String results = value.get();

if(results != null && !results.isEmpty()) {

flowFile = session.putAttribute(flowFile, "match", results);

}

//将处理结果返回flowFile

flowFile = session.write(flowFile, out -> out.write(value.get().getBytes()));

session.transfer(flowFile , SUCCESS);

}

4.4. 打包部署

找到文件org.apache.nifi.processor.Processor

在里面添加：包名+类名，将processor暴露出来

Maven运行nifitest，会在项目nifi-nifitest-nar下生成一个nar的包，将包放在nifi目录下的lib目录中，重新启动nifi服务器即可查看到自己添加的processor了。

4.5. 单元测试

Apache Nifi框架的单元测试是基于Junit的Test Runners的，在这一阶段，我们会将单元测试功能加入我们之前创建的JsonProcessor中。

（1）实例化TestRunner

处理器或控制器服务的大多数单元测试都是通过创建 TestRunner 类的实例来开始的。为了向处理器添加必要的类，我们需要在maven中添加nifi对应的依赖：

org.apache.nifi

nifi-mock

${nifi version}

（2）在测试中，有几个org.apache.nifi.utils包是需要被import的，比如TestRunner、TestRunners、MockFlowFile这三个类。

（3）在测试方法上添加@Test标签，在添加了这个JUnit 标签后，就可以在方法中去初始化Nifi提供的TestRunner等组件了。

（4）创建一个TestRunner类，然后把自定义的Processor传给它，接着对其的PropertiesDescription进行传值，为了测试可以模拟一个本地的json文件作为资源文件。

（5）当一个test runner创建时，使用runner.setProperties(PropertyDescriptor)以及runner.enqueue(content)进行值赋予。然后使用一些断言进行单元测试，测试结果情况。

public class TestProcessor{

@Test

public void testOnTrigger() throws IOException {

//json文件内容

InputStream content = new ByteArrayInputStream("{\"hello\":\"nifi rocks\"}".getBytes());

//模拟处理器

TestRunner runner = TestRunners.newTestRunner(new JsonProcessor());

//设置JSON_PATH

runner.setProperty(JsonProcessor.JSON_PATH, "$.hello");

//向处理器添加内容

runner.enqueue(content);

runner.run(1);

runner.assertQueueEmpty();

List results = runner.getFlowFilesForRelationship(JsonProcessor.SUCCESS);

assertTrue("1 match", results.size() == 1);

MockFlowFile result = results.get(0);

String resultValue = new String(runner.getContentAsByteArray(result));

System.out.println("Match: " + IOUtils.toString(runner.getContentAsByteArray(result)));

//测试属性和内容

result.assertAttributeEquals(JsonProcessor.MATCH_ATTR, "nifi rocks");

result.assertContentEquals("nifi rocks");

}

5. Nifi RestAPI

为方便用户使用NiFi 进行二次开发，NiFi 为开发者提供了 NIFI RestAPI。Rest Api提供实时命令和控制NiFi实例的编程访问。启动和停止处理器，监视队列，查询起源数据等。

5.1.控制器

· 创建一个新公告

/controller/bulletin

· 获取集群的内容

/controller/cluster

· 获取集群中的节点

/controller/cluster/nodes/{id}

· 检索此NiFi控制器的配置

/controller/config

· 创建一个新的控制器服务

/controller/controller-services

· 清除历史

/controller/history

· 获取可用注册表客户端的列表

/controller/registry-clients

· 获取注册表客户端

/controller/registry-clients/{id}

· 创建新的报告任务

/controller/reporting-tasks

5.2.控制器服务

获取控制器的服务

/controller-services/{id}

获取控制器服务属性描述符/controller-services/{id}/descriptors

获取控制器服务的状态/controller-services/{id}/state

5.3.报告任务

· 获取报告任务

/reporting-tasks/{id}

· 获取报告任务属性描述符

/reporting-tasks/{id}/descriptors

· 获取报告任务的状态

/reporting-tasks/{id}/state

· 清除报告任务的状态

/reporting-tasks/{id}/state/clear-requests

5.4.服务器

· 获取处理器

/processors/{id}

· 获取处理器属性的描述符

/processors/{id}/descriptors

· 获取有关处理器的诊断信息

/processors/{id}/diagnostics

· 获取处理器的状态

/processors/{id}/state

· 清除处理器的状态

/processors/{id}/state/clear-requests

· 终止处理器，实质上是“删除”其线程和任何活动任务

/processors/{id}/threads

5.5.连接

· 获取连接/connections/{id}

5.6. FlowFile队列

· 创建删除此连接中队列内容的请求。/flowfile-queues/{id}/drop-requests

· 获取指定连接的丢弃请求的当前状态/flowfile-queues/{id}/drop-requests/{drop-request-id}

· 从Connection获取FlowFile

/flowfile-queues/{id}/flowfiles/{flowfile-uuid}

· 获取Connection中FlowFile的内容

/flowfile-queues/{id}/flowfiles/{flowfile-uuid}/content

· 列出此连接中队列的内容

/flowfile-queues/{id}/listing-requests

· 获取指定连接的列表请求的当前状态

/flowfile-queues/{id}/listing-requests/{listing-request-id}

6. 集群压力测试

6.1. 压力测试场景

1.1背景

考虑到大数据管理平台有数据接入量大、数据源多样化、对数据的完整性和容错率要求高、延迟率低等特点，因此计划对Nifi的数据完整性、异常状态下的容错性以及服务器在高负载情况下的性能做一个全面的测试评估，以便于了解nifi的优点和缺陷，从而优化整个大数据管理平台架构。1.2测试概要（1）测试环境Nifi 1.6.0 集群版(4个节点)

（2）测试目标· 数据完整性测试。· 异常状态容错机制测试。· 不同负载下的响应时间测试。· Nifi集群模式下的主从切换测试。

6.2. 压力测试结果

2.1积压数据量越大，数据处理性能越差，处理时间随着数据量的增加呈指数级增长。2.2 数据是否丢失和连接池最大连接数参数以及批量处理SQL的批次条数有关，这个应该是数据处理代码层面的BUG，和Nifi本身无关。Nifi的数据完整性在小数据量下还是可以的。大数据量时候对参数优化要求显得比较严格。 2.3 数据处理速度和SQL批量处理的批次条数有关，每批处理的越多，处理性能越好。2.4 Nifi自身发生错误： Nifi集群的节点如果有宕机情况，会导致整个集群的任务流程无法启动，主节点挂掉会导致nifi的UI界面不可用。如果在任务执行过程中kill掉某个节点进程，会发生丢失数据情况，必须等待节点重新启动后数据会自动恢复。 2.5 处理模块发生错误：如：mysql挂掉后，数据会自动在入库操作的上游堆积，等待数据库恢复。数据库恢复后，可以完成自动入库，整体数据无丢失。Kafka挂掉后数据流也会进入等待，直至kafka恢复后数据自动流转。

6.3. 性能调优

3.1 Nifi的数据完整性还是有保障的，测试中出现的数据丢失问题主要是由于现在的代码层面对入库失败的数据未做处理造成的。 3.2 Nifi集群的处理性能和稳定性远高于Nifi单机模式。 3.3 Nifi集群的处理性能和数据冗余量有直接关系，即nifi处理数据主要依赖磁盘IO。 3.4 Nifi自身的集群容错率较低，并非传统的主从结构，但对数据处理模块中的组件容错率较强。

作者：我愿痴狂
链接：https://www.jianshu.com/p/109f7940c6ab
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(数据技术)

06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
2020年10月国产数据库排行：GoldenDB跃升异军突起 PolarDB和GaussDB云化融合数据和云微软 informix 分布式存储 microsoft cloudera
墨墨导读：2020年10月国产数据库流行度的前三位由TiDB、达梦数据库、GBase（南大通用）获得，其中TiDB以超过100分的优势领先第二位的达梦数据库。数据技术嘉年华，十周年盛大开启，点我立即报名！大会以“自研·智能·新基建——云和数据促创新生态融合新十年”为主题，相邀数据英雄，总结过往十年历程与成绩，展望未来十年趋势与目标！近60场演讲，大咖云集，李飞飞、苏光牛、林晓斌、黄东旭...，快来
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
Pinterest：从 Druid 到 StarRocks，实现 6 倍成本效益比提升 StarRocks_labs 数据库大数据
导读：开源无国界，StarRocks自开源以来，近3年的时间里已在全球数据技术领域崭露头角。我们欣喜地发现，越来越多的海外用户正在使用并积极推广着StarRocks。为了促进知识共享，StarRocks中文社区将精选优秀文章与大家共享。本篇文章摘自PinterestEngineering撰写的《DeliveringFasterAnalyticsatPinterest》，欢迎阅读原文深入了解：htt
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
Hadoop 中的大数据技术：调优篇（3）大数据深度洞察大数据 hadoop 分布式
HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失，如何恢复NameNode？故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/name/*问题解决从Se
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
大数据技术之HBase API(3) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBaseAPI环境准备创建连接单线程创建连接多线程创建连接DDLDMLHBaseAPI环境准备新建项目后，在pom.xml中添加如下依赖：org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06注意：javax.el包虽然会报错不存在，但这仅是一个测试用的依赖，不会影响实际使用。
大数据技术之HBase整合 Phoenix(6) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBase整合PhoenixPhoenix简介Phoenix定义为什么使用PhoenixPhoenix快速入门安装1）官网地址2）Phoenix部署PhoenixShell操作Table表的映射数字类型说明PhoenixJDBC操作Phoenix二级索引二级索引配置文件全局索引（globalindex）包含索引（coveredindex）本地索引（localindex）HBase整合Phoen
大数据技术之Zookeeper概述（1）大数据深度洞察 Zookeeper 大数据 zookeeper 分布式云原生
目录Zookeeper入门概述Zookeeper的主要特点包括：Zookeeper的应用场景：Zookeeper的基本概念：架构：Zookeeper工作机制Zookeeper数据结构Znode（ZookeeperNode）Znode的类型Znode路径Znode属性Watcher监听器使用示例总结Zookeeper入门概述Zookeeper是一个分布式的、开放源码的协调服务，用于大型应用中管理和协
综合治税的发展前景 alankuo 人工智能人工智能
综合治税的发展前景较为广阔，主要体现在以下几个方面：-技术应用持续深化：-大数据与人工智能助力精准治税：随着大数据技术的不断发展，税务部门能够整合来自多部门、多渠道的海量数据，包括企业的财务数据、交易数据、银行流水等，通过对这些数据的深度分析和挖掘，可以精准识别税收风险点和潜在的偷逃税行为。例如，利用大数据分析企业的销售数据与申报纳税数据的匹配度，发现异常及时预警和查处。人工智能技术则可以辅助税务
Kylin的工作原理及使用分享操作指南 vvvae1234 kylin
ApacheKylin是一个分布式的分析引擎，专为大数据环境中的快速分析和查询而设计。它通过构建OLAP（联机分析处理）立方体，使得对海量数据的实时分析成为可能，极大地提升了数据查询的效率。本文将详细介绍Kylin的工作原理，结合实际操作案例，分享如何有效使用Kylin进行大数据分析。1.Kylin概述Kylin是一个开源项目，支持SQL查询，兼容与Hive和MapReduce等大数据技术的集成。
《未来二十年，AI、区块链、云与大数据技术引领全球变革》久绊A 文献/论文人工智能区块链云计算大数据
摘要在未来二十年，全球社会与经济将深刻受到人工智能（AI）、区块链（Blockchain）、云计算（Cloud）和大数据（Data）四大核心技术的驱动。这些技术不仅从宏观上重塑产业结构，更在微观层面显著提升生活品质与效率。本文通过详尽的案例分析，结合国内外最新研究成果，深入剖析这四大技术如何在教育、智能家居、农业、金融等多个关键领域产生深远影响。关键字人工智能（AI）、区块链（Blockchain
向量数据库 Faiss 的搭建与使用 eqa11 数据库
向量数据库Faiss的搭建与使用一、引言在人工智能和大数据技术飞速发展的今天，向量数据库作为处理高维数据检索的关键技术，越来越受到重视。Faiss，作为由MetaAI（原FacebookAIResearch）开源的高效相似性搜索库，以其卓越的性能和灵活性，成为众多技术选型中的佼佼者。本文将深入探讨Faiss的搭建和使用，旨在为读者提供一个全面而详细的指南。二、Faiss简介与环境搭建1、Faiss
知识分享系列三：大数据技术（上） jinruimeng 知识分享大数据
本文系统地介绍了大数据技术的相关知识，由于篇幅比较长，分为上下两部分，其中上半部分先介绍基本概念、核心领域，下半部分介绍主要技术、平台架构，以及相关企业案例。目录一、基本概念1.1从数据资源到大数据1.2从大数据到数据要素二、核心领域2.1概述2.2数据存储与计算2.2.1发展历程2.2.2发展特点2.2.2.1云化改造全面加速2.2.2.2融合一体化持续加深2.2.2.3安全能力快速补强2.2.
Distrii办伴：空间+科技+服务解决企业办公全生命周期需求娱扒小公主
ToC市场风口之后，ToB的春天眼看来临。在消费级市场，中国BAT力抗欧美的谷歌、脸书、亚马逊。然而拥有相当体量企业市场的中国，却没有一个知名的企业服务巨头。随着人工智能、大数据技术的应用场景逐步扩大，更丰富、更落地的企业服务场景将在不远的未来不断涌现。作为一家自创立之初就专注于提供智慧办公解决方案的科技公司，Distrii办伴始终坚持以科技为内核，为企业带来更便捷高效的服务。三年来，办伴率旗下三
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出