G皮T

【大数据】Apache NiFi 助力数据处理及分发

Apache NiFi 助力数据处理及分发

1.什么是 NiFi ？
2.NiFi 的核心概念
3.NiFi 的架构
4.NiFi 的性能预期和特点
5.NiFi 关键特性的高级概览

1.什么是 NiFi ？

简单的说，NiFi 就是为了解决不同系统间数据自动流通问题而建立的。虽然 dataflow 这个术语在各种场景都有被使用，但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始，一些系统会有数据生成，一些系统要消费数据，而不同系统之间数据的流通问题就出现了。这些问题出现的相应的解决方案已经被广泛的研究和讨论，其中企业集成 eip（Enterprise Integration Patterns）就是一个全面且易于使用的方案。

dataflow 要面临的一些挑战包括：

Systems fail：网络故障，磁盘故障，软件崩溃，人为事故。
Data access exceeds capacity to consume：有时，给定的数据源可能会超过处理链或交付链的某些部分的处理能力，而只需要一个环节出现问题，整个流程都会受到影响。
Boundary conditions are mere suggestions：总是会得到太大、太小、太快、太慢、损坏、错误或格式错误的数据。
What is noise one day becomes signal the next：现实业务或需求变更快，设计新的数据处理流程或者修改已有的流程必须要迅速。
Systems evolve at different rates：给定的系统所使用的协议或数据格式可能随时改变，而且常常跟周围其他系统无关。dataflow 的存在就是为了连接这种大规模分布的，松散的，甚至根本不是设计用来一起工作的组件系统。
Compliance and security：法律，法规和政策发生变化。企业对企业协议的变化。系统到系统和系统到用户的交互必须是安全的，可信的，负责任的。
Continuous improvement occurs in production：通常不可能在测试环境中完全模拟生产环境。

多年来，数据流一直是架构中不可避免的问题之一。现在有许多活跃的、快速发展的技术，使得 dataflow 对想要成功的特定企业更加重要，比如 SOA，API，IOT，BigData。此外，合规性，隐私性和安全性所需的严格程度也在不断提高。尽管不停的出现这些新概念新技术，但 dataflow 面临的困难和挑战依旧，其中主要的区别还是复杂的范围，需要适应的需求变化的速度以及大规模边缘情况的普遍化。NiFi 旨在帮助解决这些现代数据流挑战。

2.NiFi 的核心概念

NiFi 的基本设计概念与基于流程的编程 FBP（Flow-based programming）的主要思想密切相关。以下是一些主要的 NiFi 概念以及它们如何映射到 FBP：

NiFi 术语	FBP 术语	描述
FlowFile	Information Packet	FlowFile 表示在系统中移动的每个对象，对于每个 FlowFile，NiFi 都会记录它一个属性键值对和 0 个或多个字节内容（FlowFile 有 `attribute` 和 `content`）
FlowFile Processor	Black Box	实际上是处理器起主要作用。在 eip 术语中，处理器就是不同系统间的数据路由，数据转换或者数据中介的组合。处理器可以访问给定 FlowFile 的属性及其内容。处理器可以对给定工作单元中的零或多个流文件进行操作，并提交该工作或回滚该工作
Connection	Bounded Buffer	Connections 用来连接处理器。它们充当队列并允许各种进程以不同的速率进行交互。这些队列可以动态地对进行优先级排序，并且可以在负载上设置上限，从而启用背压
Flow Controller	Scheduler	流控制器维护流程如何连接，并管理和分配所有流程使用的线程。流控制器充当代理，促进处理器之间流文件的交换
Process Group	Subnet	进程组里是一组特定的流程和连接，可以通过输入端口接收数据并通过输出端口发送数据，这样我们在进程组里简单地组合组件，就可以得到一个全新功能的组件（Process Group）

此设计模型也类似于 SEDA，带来了很多好处，有助于 NiFi 成为非常有效的、构建功能强大且可扩展的数据流的平台。其中一些好处包括：

有助于处理器有向图的可视化创建和管理。
本质上是异步的，允许非常高的吞吐量和足够的自然缓冲。
提供高并发的模型，开发人员不必担心并发的复杂性。
促进内聚和松散耦合组件的开发，然后可以在其他环境中重复使用并方便单元测试。
资源受限的连接（流程中可配置 connections）使得背压和压力释放等关键功能非常自然和直观。
错误处理变得像基本逻辑一样自然，而不是粗粒度的全部捕获（catch-all）。
数据进入和退出系统的点，以及它是如何流动的，都是容易理解和跟踪的。

3.NiFi 的架构

NiFi 在操作系统上的 JVM 内执行。JVM 上 NiFi 的主要组件如下：

Web Server：Web 服务器的目的是承载 NiFi 基于 http 的命令和控制 API。
Flow Controller：是整个操作的核心，为将要运行的组件提供线程，管理调度。
Extensions：有各种类型的 NiFi 扩展，这些扩展在其他文档中进行了描述。这里的关键点是 NiFi 扩展在 JVM 中操作和执行。
FlowFile Repository：对于给定一个流中正在活动的 FlowFile，FlowFile Repository 就是 NiFi 保持跟踪这个 FlowFile 状态的地方。FlowFile Repository 的实现是可插拔的（多种选择，可配置，甚至可以自己实现），默认实现是使用 Write-Ahead Log 技术（简单普及下，WAL 的核心思想是：在数据写入库之前，先写入到日志，再将日志记录变更到存储器中）写到指定磁盘目录。
Content Repository：Content Repository 是给定 FlowFile 的实际内容字节存储的地方。Content Repository 的实现是可插拔的。默认方法是一种相当简单的机制，它将数据块存储在文件系统中。可以指定多个文件系统存储位置，以便获得不同的物理分区以减少任何单个卷上的争用（所以环境最佳实践时可配置多个目录，挂载不同磁盘，提高 IO）。
Provenance Repository：Provenance Repository 是存储所有事件数据的地方。Provenance Repository 的实现是可插拔的，默认实现是使用一个或多个物理磁盘卷。在每个位置内的事件数据都是被索引并可搜索的。

NiFi 也能够在集群内运行。

从 NiFi 1.0 版本开始，NiFi 集群采用了 Zero-Master Clustering 模式。NiFi 集群中的每个节点对数据执行相同的任务，但每个节点都在不同的数据集上运行。Apache ZooKeeper 选择单个节点作为集群协调器，ZooKeeper 自动处理故障转移。所有集群节点都会向集群协调器发送心跳报告和状态信息。集群协调器负责断开和连接节点。此外，每个集群都有一个主节点，主节点也是由 ZooKeeper 选举产生。我们可以通过任何节点的用户界面与 NiFi 集群进行交互，并且我们所做的任何更改都将复制到集群中的所有节点上。

4.NiFi 的性能预期和特点

NiFi 的设计目的是充分利用其运行的底层主机系统的能力。这种资源的最大化在 CPU 和磁盘方面尤其明显。

For IO：不同系统不同配置可预期的吞吐量或延迟会有很大差异，具体取决于系统的配置方式。鉴于大多数 NiFi 子系统都有可插拔的实现方法，所以性能取决于实现。但是，对于一些具体和广泛适用的地方，请考虑使用现成的默认实现。这些实现都是持久的，有保证的让数据流传递，并且是使用本地磁盘来实现。因此，保守点说，假设在典型服务器中的普通磁盘或 RAID 卷上的每秒读 / 写速率大约为 50 MB，那么，对于大型数据流，NiFi 应该能够有效地达到每秒 100 MB 或更多的吞吐量。这是因为预期添加到 NiFi 的每个物理分区和 Content repository 都会出现线性增长，瓶颈将出现在 FlowFile repository 和 Provenance repository 的某个点上。我们计划提供一个基准测试和性能测试模板，然后允许用户能够轻松测试他们的系统并确定瓶颈在哪里，以及他们可能成为瓶颈的原因。此模板还应使系统管理员可以轻松进行更改并验证其影响。(期待这个测试功能的出现)
For CPU：Flow Controller 充当引擎的角色，指示特定处理器何时可以被分配线程去执行。编写处理器以在执行任务后立即释放线程。可以为 Flow Controller 提供一个配置值，该值指示它维护的各种线程池的可用线程。理想的线程数取决于主机系统内核数量，系统中是否正在运行其他服务，以及流程中要处理的流的性质。对于典型的 IO 大流量，合理的做法是让多线程可用。
For RAM：NiFi 在 JVM 中运行，因此限制于 JVM 提供的内存。JVM 垃圾回收成为限制实际堆总大小以及优化应用程序的运行的一个非常重要的因素。NiFi 作业在定期读取相同内容时可能会占用大量 I/O。可以配置足够大的磁盘以优化性能。

5.NiFi 关键特性的高级概览

Flow Management
- Guaranteed Delivery：NiFi 的核心理念是，即使在非常高的规模下，也必须保证交付。这是通过有效地使用专门构建的 Write-Ahead Log 和 Content repository 来实现的。它们一起被设计成具备允许非常高的事务速率、有效的负载分布、写时复制和能发挥传统磁盘读 / 写的优势。
- Data Buffering w/ Back Pressure and Pressure Release：NiFi 支持缓冲所有排队的数据，以及在这些队列达到指定限制时提供背压的能力，或在数据达到指定期限（其值已失效）时老化数据的能力。
- Prioritized Queuing：NiFi 允许设置一个或多个优先级方案，用于如何从队列中检索数据。默认情况是先进先出，但有时应该首先提取最新的数据（后进先出）、最大的数据先出或其他定制方案。
- Flow Specific QoS（latency v throughput, loss tolerance, etc.）：可能在数据流的某些节点上数据至关重要，不容丢失，并且在某些时刻这些数据需要在几秒钟就处理完毕传向下一节点才会有意义。对于这些方面 NiFi 也可以做细粒度的配置。
Ease of Use
- Visual Command and Control：数据流的处理逻辑和过程可能会非常复杂。能够可视化这些流程并以可视的方式来表达它们可以极大地帮助用户降低数据流的复杂度，并确定哪些地方需要简化。NiFi 可以实现数据流的可视化建立，而且是实时的。并不是 “设计、部署”，它更像泥塑。如果对数据流进行了更改，更改就会立即生效，并且这些更改是细粒度的和组件隔离的。用户不需要为了进行某些特定修改而停止整个流程或流程组。
- Flow Templates：FlowFile 往往是高度模式化的，虽然通常有许多不同的方法来解决问题，但能够共享这些最佳实践却大有帮助。流程模板允许设计人员构建和发布他们的流程设计，并让其他人从中受益和复用。
- Data Provenance：在对象流经系统时，甚至在扇入、扇出、转换等过程，NiFi 会自动记录、索引并提供可用的源数据。这些信息在支持法规遵从性、故障排除、优化以及其他方案中变得极其关键。
- Recovery / Recording a rolling buffer of fine-grained history：NiFi 的 Content repository 旨在充当历史数据的滚动缓冲区。数据仅在 Content repository 老化或需要空间时才会被删除。Content repository 与 Data provenance 能力相结合，为在对象的生命周期中的特定点（甚至可以跨越几代）实现可以查看内容，内容下载和重放等功能提供了非常有用的基础。
Security
- System to System：数据流越安全越好。对于数据流中每个节点 NiFi 都是通过使用加密协议（如双向 SSL）来安全地交换数据。此外，NiFi 的流程能够加密和解密内容，并在发送方 / 接收方任何一侧使用共享密钥或其他机制来保证数据的安全。
- User to System：NiFi 支持双向 SSL 身份验证，并提供可插拔授权方式，以便能够正确控制用户的访问权限和特定级别（只读，数据流管理，admin）。如果用户在流程中输入敏感属性（如密码），则会立即在服务器端加密，保证敏感信息不会再次暴露在客户端（前端 UI）中（比如用户 A 在流程中输入了 MySQL 的用户密码，填写完毕后任何人即使是用户 A 也看不到明文密码）。
- Multi-tenant Authorization：NiFi 数据流的权限级别适用于每个组件，并且允许管理员用户拥有细粒度的控制访问级别。这意味着每个 NiFi 集群都能够处理一个或多个组织的需求。与隔离拓扑相比，多租户授权支持数据流管理的自助服务，允许每个团队或组织在完全了解流的其余部分的情况下管理流，而无法访问流。
Extensible Architecture
- Extension：NiFi 的核心是可扩展，因此它是一个能以可预测和可重复的方式去执行和交互的数据流流程平台。可扩展的包括：processors，Controller Services，Reporting Tasks，Prioritizers 和 Customer User Interfaces。
- Classloader Isolation：对于任何基于组件的系统，涉及依赖的问题时常发生。NiFi 通过提供自定义类加载器来解决这个问题，确保每个扩展包都暴露在一组非常有限的依赖中。因此，构建扩展包的时候不必担心它们是否可能与另一个扩展包冲突。这些扩展包的概念称为 “NiFi Archives”，在 Developer’s Guide 中有更详细的讨论。
- Site-to-Site Communication Protocol：NiFi 实例之间的首选通信协议是 NiFi 站点到站点（S2S）协议。S2S 轻松，高效，安全地将数据从一个 NiFi 实例传输到另一个实例。NiFi 客户端库可以轻松构建并捆绑到其他应用程序或设备中，通过 S2S 协议与 NiFi 进行通信。S2S 中支持以 Socket 的协议和 HTTP / HTTPS 协议作为底层传输协议，使得可以将代理服务器嵌入到 S2S 协议的通信中。
Flexible Scaling Model
- Scale-out (Clustering)：NiFi 的设计是可集群，可横向扩展的。如果配置单个节点并将其配置为每秒处理数百 MB 数据，那么可以相应的将集群配置为每秒处理 GB 级数据。但这也带来了 NiFi 与其获取数据的系统之间的负载平衡和故障转移的挑战。采用基于异步排队的协议（如消息服务，Kafka 等）可以提供帮助解决这些问题。使用 NiFi 的 S2S 功能也非常有效，因为它是一种协议，允许 NiFi 和客户端（包括另一个 NiFi 群集）相互通信，共享有关加载的信息，以及交换特定授权的数据端口。
- Scale-up & down：NiFi 还可以非常灵活地扩展和缩小。从 NiFi 框架的角度来看，在增加吞吐量方面，可以在配置时增加 “调度” 选项卡下处理器上的并发任务数。这允许更多线程同时执行，从而提供更高的吞吐量。另一方面，您可以完美地将 NiFi 缩小到适合在边缘设备上运行，因为硬件资源有限，所需的占用空间很小，这种情况可以使用 MiNiFi。

探索ONES开放平台：超过50个常用API接口详解 ones开放平台
探索ONES开放平台：超过50个常用API接口详解获取自定义工作项属性UUID接口地址：{{base_url}}/project/api/project/team/:teamUUID/fields获取工作项自定义属性值接口地址：{{base_url}}/project/api/project/team/{{team_uuid}}/items/graphql获取项目下角色成员数据接口地址：{{bas
半导体晶圆精控：ethercat转profient网关数据提升制造精度北京耐用通信制造网络 ethercat ethercat总线
数据采集系统通过网关连接离子注入机，精细控制半导体晶圆制造过程中的关键参数。在半导体制造中，晶圆制造设备的精密控制是决定产品性能的关键因素。某半导体工厂采用耐达讯Profinet转EtherCAT协议网关NY-PN-ECATM，将其数据采集系统与离子注入机连接，实现了晶圆制造过程的精细控制与高效管理。Profinet网络负责传输数据采集系统中的各类监测数据，如温度、压力和电流等参数。这些数据通过网
Java并发与面试-每日必看（13） Starry-Walker Java后端开发面试题汇总 java 面试开发语言锁并发后端
前言Java不秃，面试不慌！欢迎来到这片Java修炼场！这里没有枯燥的教科书，只有每日一更的硬核知识+幽默吐槽，让你在欢笑中掌握Java基础、算法、面试套路，摆脱“写代码如写诗、看代码如看天书”的困境。什么是锁？用通俗易懂的方式解释锁（Lock）就像是一把“门锁”，控制多个线程（或者多个任务）访问同一个资源，防止它们互相踩踏，导致数据混乱。想象一下，你和朋友们一起去共享单车停车点，但是只有一辆单车
Linux基础32-C语言篇之二维数组案例与字符数组【入门级】 kk努力学编程 linux c语言算法
数组二维数组案例案例1：需求：二维数组的遍历代码：#includeintmain(intargc,char*argv[]){//创建一个二维数组，经过论证，二维数据组必须指定列的大小，行的大小可以省略intarr[][3]={{11},{21,22},{31,32,33}};//获取二维数组的大小intr_len=sizeof(arr)/sizeof(arr[0]);//遍历二维数组//外层循环，
数据结构-单链表模板实现-C语言版小刘不想改BUG 数据结构基础数据结构 c语言网络
《单链表实现模板-C语言版》——从零构建你的“数据火车”引言链表是数据结构中的“火车”，每节车厢（节点）通过“连接器”（指针）串联。本文将用C语言手把手教你搭建一列单链表火车，实现增删改查等核心操作，并附完整可运行代码！一、链表结构设计1.节点结构体typedefstructListNode{eleTypedata;//车厢装载的货物（数据）structListNode*next;//连接下一节车
消费者产品报告2025-在通用人工智能时代重新获得相关性报告300+份集萃解读|附PDF下载数据挖掘深度学习机器学习算法
原文链接：https://tecdat.cn/?p=40823在全球经济形势复杂多变、技术革新加速的当下，消费品行业正经历深刻变革。本报告汇总解读基于权威数据，深入剖析该行业在2024-2025年的发展态势，为企业提供市场洞察与策略建议，助力其在通用人工智能时代找准方向、重塑竞争优势。本报告汇总洞察基于文末470份消费者行业研究报告的数据，报告合集已分享在交流群，阅读原文进群和500+行业人士共同
Python客服机器人编织幻境的妖 python 机器人开发语言
1.功能概述实现一个简单的客服机器人应用，使用Python的Tkinter库构建了图形用户界面(GUI)，并通过与MySQL数据库交互来查询和回复用户的提问。此外，它还支持从CSV或Excel文件中导入话术模板，并提供下载模板的功能。2.实现逻辑初始化与GUI设置：通过tkinter库创建了一个窗口应用程序，设置了文本显示区、用户输入区、发送按钮、导入话术按钮和下载模板按钮。连接到数据库：尝试连接
Linux 下使用tracepath进行网络诊断分析 linux
简介tracepath命令是Linux中的一个网络诊断工具，类似于traceroute，但专门用于跟踪到目标主机的网络路径，同时自动处理路径MTU发现。这是一种简单的方法，可以找出机器和远程目的地之间的跃点，同时还可以识别沿途的任何问题。基本语法tracepath[options]：要跟踪路径的目标目的地的IP地址或主机名常用选项-n：以数字形式显示跳转地址（无需DNS解析）-l：设置数据包的长度
YashanDB数据操作数据库
本章节将介绍YashanDB数据库中表相关的基本语法和示例。插入数据通过执行INSERT语句往表中插入数据：CREATETABLEinsert_tb(c1INT,c2CHAR(10));INSERTINTOinsert_tbVALUES(4,'hello');INSERTINTOinsert_tbVALUES(1,'world'),(2,'nihao'),(3,'shijie');COMMIT;删
数据挖掘与数据分析「已注销」数据分析数据挖掘数据分析人工智能
目录数据挖掘与数据分析一．数据的本质二．什么是数据挖掘和数据分析三．数据挖掘和数据分析有什么区别案例及应用1.基于分类模型的案例2.基于预测模型的案例3.基于关联分析的案例4.基于聚类分析的案例5.基于异常值分析的案例6.基于协同过滤的案例7.基于社会网络分析的案例8.基于文本分析的案例结语数据挖掘与数据分析在当今数字化的时代，数据成为了我们生活和工作中不可或缺的一部分。数据的价值在于其所蕴含的信
JS ：移除数组中的指定数据 25号底片~ js javascript 前端开发语言
1.Array.prototype.filter()方法filter()方法会创建一个新数组，包含所有通过测试的元素。可以通过过滤掉不需要的元素来实现移除。constarray=[1,2,3,4,5];constitemToRemove=3;constnewArray=array.filter(item=>item!==itemToRemove);console.log(newArray);//输
JAVA面试常见题_基础部分_Mysql调优茂茂在长安 mysql JAVA java 面试 mysql
性能监控使用showprofile查询剖析工具，可以指定具体的type此工具默认是禁用的，可以通过服务器变量在绘画级别动态的修改setprofiling=1;当设置完成之后，在服务器上执行的所有语句，都会测量其耗费的时间和其他一些查询执行状态变更相关的数据。select*fromemp;在mysql的命令行模式下只能显示两位小数的时间，可以使用如下命令查看具体的执行时间showprofiles;执
python高级用法之pydantic atom goper python java 前端
Pydantic是一个基于Python类型提示的数据验证库。它利用Python的类型注解来定义数据模型，并自动进行类型检查、数据验证和错误处理。它被一些顶级的Python模块所采用，其中特别包括HuggingFace、FastAPI和Langchain。优势：IDE类型提示：通过数据建模，可以获得更好的IDE对类型提示和自动补全的支持。数据验证：通过使用Pydantic验证数据，当创建对象时，可以
zabbix安装使用吃不到的烤鱼运维 zabbix
文章目录1.zabbix安装1.1安装zabbix-release1.2安装server/proxy/前端1.2创建数据库1.2.1安装mysql(如果已有数据库可以跳过)1.2.2创建zabbix账号和数据库1.2.3导入zabbix数据库1.3配置zabbix服务1.4启动zabbix1.4.1启动zabbix服务1.4.2zabbixphp相关配置(主要为时区配置)1.4.3SELinux配
【基于PHP的CMS动态网站的渗透测试流程】 D-river security php 开发语言网络安全安全 web安全
基于PHP的CMS动态网站的渗透测试流程一、渗透测试流程优化1.智能信息收集阶段2.靶向漏洞扫描3.深度手动测试二、关键风险检测清单1.PHP环境风险2.数据库交互风险3.会话管理缺陷三、高效测试方法论1.自动化辅助技术2.逻辑漏洞快速定位3.WAF绕过技术四、企业级防护建议1.环境加固2.监控与响应五、典型漏洞验证（PHP对象注入）附：工具链推荐安全测试对网站意义重大，它能够提前发现网站在网络、
【Python爬虫(100)】从当下到未来：Python爬虫技术的进阶之路奔跑吧邓邓子 Python爬虫 python 爬虫开发语言未来发展
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、爬虫技术发展现状与瓶颈1.1爬虫技术发展现状1.2爬虫技术瓶颈
【Python爬虫(88)】当Python爬虫邂逅智能硬件：解锁数据新玩法奔跑吧邓邓子 Python爬虫 python 爬虫智能硬件开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、智能硬件的数据采集需求剖析2.1智能音箱的数据采集需求
【Python爬虫(98)】从数据抓取到产业变革：爬虫技术的跨界融合与生态进化奔跑吧邓邓子 Python爬虫 python 爬虫开发语言产业融合生态
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫技术在新兴产业中的深度融合2.1智能医疗领域的应用
MySQL面试学习 hxung 面试学习使用 mysql 面试学习
MySQL1.事务事务的4大特性事务4大特性：原子性、一致性、隔离性、持久性原⼦性：事务是最⼩的执⾏单位，不允许分割。事务的原⼦性确保动作要么全部完成，要么全不执行一致性：执⾏事务前后，数据保持⼀致，多个事务对同⼀个数据读取的结果是相同的；隔离性：并发访问数据库时，⼀个⽤户的事务不被其他事务所⼲扰，各并发事务之间数据库是独⽴的；持久性：⼀个事务被提交之后。它对数据库中数据的改变是持久的，即使数据库
在数据分析工作中运用因果推断模型的实践指南 theskylife #因果分析数据分析大数据人工智能 AI 因果分析
目录1.写在开头2.因果推断模型的基础2.1因果关系vs.相关关系2.2基本概念和术语3.常见的因果推断方法3.1随机对照试验（RCTs）3.2工具变量法（IV）3.3回归不连续设计（RDD）4.因果推断的实际应用4.1案例研究1：使用RCTs分析营销活动的效果4.1.1背景和问题描述4.1.2实验设计和数据收集4.1.3数据分析和结果解释4.2案例研究2：应用工具变量法解决价格对销量的影响问题4
大语言模型：数据分析报告自动化的未来趋势 theskylife 个人随笔数据分析语言模型数据分析自动化人工智能大语言模型
目录写在开头1.数据分析报告的传统挑战时间消耗技术壁垒错误风险可扩展性问题更新频率限制用户交互和定制化不足整合新技术的挑战2.大语言模型在报告生成中的作用自动化文本生成增强准确性和丰富性实时数据处理能力提高可访问性和用户交互3.一种实现的思路3.1.明确目标与设定任务3.2.数据准备3.3.使用大语言模型生成初步内容3.4.内容整合与优化3.5.数据可视化3.6.报告完善与发布3.7实际应用中的关
HTML基本标签详解请叫我飞哥@ HTML5 html 前端
HTML基本标签详解HTML（超文本标记语言）是构建网页的基础，以下是一些常用的HTML基本标签及其详细说明：定义：整个HTML文档的根元素。示例：定义：文档的头部，包含元数据（如标题、字符集、样式等）。示例：文档标题定义：文档的标题，显示在浏览器的标题栏或标签页上。示例：我的网页定义：文档的主体，包含可见的内容。示例：欢迎来到我的网页-定义：定义标题，从最重要的标题（）到最不重要的标题（）。示例
Qt 中，**信号与槽（Signals & Slots）机制 enyp80 qt 数据库开发语言
在Qt中，信号与槽（Signals&Slots）机制是实现对象间通信的核心模式，通常也被视为一种高效的“通知者模式”。它允许对象在特定事件发生时通知其他对象，且完全解耦。核心概念信号（Signal）由signals关键字声明，表示事件发生（如用户点击、数据更新）。无需实现代码，由Qt的元对象系统（Meta-ObjectSystem）自动生成。示例：voidvalueChanged(intnewVa
基于低代码的安全工具平台架构 ITPUB-微风低代码安全
随着网络安全的日益重要，安全工程师在日常工作中需要使用大量的工具和接口。然而，这些工具的多样性、复杂的安装方法以及数据格式的碎片化，使得安全工作变得繁琐且效率低下。为了解决这一问题，基于低代码的安全工具平台应运而生，以其高效、便捷的特点，为安全工程师提供了新的工作方式。一、工作场景网络安全工作中的典型场景包括情报收集、安全审计、资产梳理和信息收集。在这些场景中，安全工程师需要使用各种工具进行漏洞扫
PCA主成分分析降维算法及其可视化（附完整版代码） Jason_Orton 算法机器学习数据挖掘人工智能 matlab
一.PCA的介绍PCA（PrincipalComponentAnalysis）是一种数据降维技术，旨在将多维指标转换为少数几个综合指标。在统计学中，PCA是简化数据集的一种方法，通过线性变换将数据映射到新的坐标系中。在新的坐标系中，第一主成分捕获数据投影的最大方差，第二主成分捕获第二大方差，依此类推。主成分分析常用于减少数据集的维度，同时保留对方差贡献最大的特征。这是通过保留低阶主成分、忽略高阶主
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人闯江湖50年 langchain python 机器人人工智能
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
[python脚本]论文1.（一）CPU/内存数据分析和分组 weixin_45396500 python 数据分析开发语言
CPU收集到的CPU数据，格式如下：由于这里6个数据为一组来收集latency的数据以及各个分位值的数据，而本质上每一行都是一次完整的测试，因此这里将这个csv文件分为两个文件，第一个是和latency相关的，将6条数据融合为一条，而剩下的数据比如eps等，单独整理为一个文件。这里分为两步，第一步单独处理每个实例收集到的数据，第二步是汇总所有实例数据。对于50个实例收到的数据，先通过将6条合并为一
技术架构和工程架构区别 atom goper 架构
技术架构技术架构‌是对某一技术问题解决方案的结构化描述，包括组件结构及其交互关系。它涵盖部署方案、存储方案、缓存方案、日志方案等多个方面，旨在通过组织人员和技术，以最低的成本满足需求和应对变化，保障软件的稳定高效运行‌。一般技术架构，需要考虑如何实现这些功能，一部分是基础设施，一部分是系统设计。基础设施包括选择什么语言、什么框架、什么数据库，以及消息队列、搜索引擎、部署方案等等。系统设计是否采用微
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少