长风清留扬

2024年最新Flink教程,从基础到就业，大家一起学习--Flink DataStream API-第一篇+源码讲解

本文涉及到大量的底层原理知识，包括运行机制图解都非常详细，还有一些实战案例，所以导致本篇文章会比较长，内容比较多，由于内容太多，很多目录可能展示不出来，需要去细心的查看，非常适合深入了解学习flink的小伙伴们，如果你们喜欢这篇文章可以多多关注，大家一起学习，还可以在评论区留言谈论一下问题。

往期回顾：

2024年最新Flink教程,从基础到就业，大家一起学习--基础篇_flink tutorials提供了从基础到高级的教程-CSDN博客

2024年最新Flink教程,从基础到就业，大家一起学习--入门篇_flink 入门-CSDN博客

2024年最新Flink教程,从基础到就业，大家一起学习--Flink集群部署_flink集群管理-CSDN博客

2024年最新Flink教程,从基础到就业，大家一起学习--flink部署和集群部署(从本地测试到公司生产环境如何部署项目源码)_flink生产环境集群规模配置-CSDN博客

2024年最新Flink教程,从基础到就业，大家一起学习--Flink运行架构底层源码详解+实战-CSDN博客

一、前言

DataStream API是Flink的核心层API。一个Flink程序，其实就是对DataStream的各种转换。具体来说，代码基本上都由以下几部分构成：

上图就是Flink程序的基本构造，获取执行环境就是代码中env获取执行环境，然后需要有数据源来读取数据，读取完数据之后需要通过一些算子进行对数据的进一步操作，然后进行输出，最后需要使用Execute来执行程序

执行环境的类型

Flink提供了两种主要的执行环境类型：

本地执行环境（LocalExecutionEnvironment）：当程序在本地JVM中运行时使用。它允许开发者在本地机器上测试Flink程序，而无需部署到集群环境。
远程执行环境（RemoteExecutionEnvironment）：当程序需要提交到远程Flink集群上运行时使用。它要求指定集群中JobManager的主机名和端口号，并可能需要指定要在集群中运行的Jar包。

获取执行环境的方法

在Flink程序中，获取执行环境通常通过调用StreamExecutionEnvironment类的静态方法来实现。以下是几种常用的方法：

getExecutionEnvironment()

这是最简单且最常用的方法。它会根据当前运行的上下文自动选择返回本地执行环境还是远程执行环境。如果程序是独立运行的（如在IDE中运行），则返回一个本地执行环境；如果程序被打包成Jar包并通过命令行提交到集群执行，则返回集群的执行环境。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

此方法无需额外参数，使用起来简单高效。

createLocalEnvironment()

这个方法用于显式地创建一个本地执行环境。如果不带参数，它将使用本地机器的CPU核心数作为默认并行度。如果带有一个整数参数，它将使用该参数作为并行度。这对于在本地进行性能测试和调试时特别有用。

// 使用默认并行度（本地CPU核心数）  
StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment();  

// 使用自定义并行度  
StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment(4);  
// 接下来可以在localEnv或customParallelEnv上配置和构建你的Flink作业

createRemoteEnvironment(String host, int port, String... jarFiles)

此方法用于创建远程执行环境，允许指定JobManager的主机名和端口号，并可以指定要在集群中运行的Jar包。需要注意的是，从Flink 1.12开始，官方推荐使用DataStream API，并且不建议在createRemoteEnvironment方法中直接指定Jar包，因为这种方式更多地与DataSet API相关。在DataStream API中，通常是通过命令行提交Jar包到集群。

// 注意：在DataStream API中，此方法的使用场景较为有限  
StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment.createRemoteEnvironment("host", port, "path/to/jarFile.jar");

然而，在DataStream API的上下文中，更常见的做法是将程序打包成Jar包，并通过Flink的命令行工具（如bin/flink run）提交到集群，此时无需在代码中显式创建远程执行环境。

虽然它存在于Flink的API中，但通常不建议在DataStream API的上下文中直接使用它来配置远程环境。在DataStream API中，更常见的做法是通过flink run命令行工具将作业提交到远程集群。createRemoteEnvironment方法更多地与DataSet API或特定场景下的手动集群配置相关。

`createLocalEnvironmentWithWebUI(int parallelism)`

这个方法类似于createLocalEnvironment(int parallelism)，但它还会启动一个Web UI，以便你可以通过Web界面监控Flink作业的执行情况。这对于本地开发和调试非常有用。

StreamExecutionEnvironment localEnvWithWebUI = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(4);  
// 接下来可以在localEnvWithWebUI上配置和构建你的Flink作业  
// 作业运行时，可以通过Web UI访问作业的执行情况

FlinkAPI的层级

Flink的API主要分为三个层级，从底层到高层依次为：ProcessFunction、DataStream/DataSet API、SQL/Table API。

1. ProcessFunction

位置：最底层接口

特点：

ProcessFunction是Flink提供的最底层接口，用于处理一或两条输入数据流中的单个事件或者归入一个特定窗口内的多个事件。
它提供了对于时间和状态的细粒度控制，允许开发者在其中任意地修改状态，也能够注册定时器用以在未来的某一时刻触发回调函数。
利用ProcessFunction，可以实现许多有状态的事件驱动应用所需要的基于单个事件的复杂业务逻辑。

2. DataStream/DataSet API

位置：核心API

特点：

DataStream API：为许多通用的流处理操作提供了处理原语，包括窗口、逐条记录的转换操作，以及在处理事件时进行外部数据库查询等。DataStream API支持Java和Scala语言，预先定义了如map()、reduce()、aggregate()等函数，用户可以通过扩展实现预定义接口或使用Java、Scala的lambda表达式实现自定义的函数。
DataSet API（逐渐被DataStream API取代）：是Flink用于批处理应用程序的核心API，提供的基础算子包括map、reduce、(outer) join、co-group、iterate等。所有算子都有相应的算法和数据结构支持，对内存中的序列化数据进行操作。如果数据大小超过预留内存，则过量数据将存储到磁盘。

3. SQL/Table API

位置：高层API

特点：

Flink支持两种关系型的API，即Table API和SQL。这两个API都是批处理和流处理统一的API，意味着在无边界的实时数据流和有边界的历史记录数据流上，关系型API会以相同的语义执行查询，并产生相同的结果。
Table API和SQL借助了Apache Calcite来进行查询的解析、校验以及优化。它们可以与DataStream和DataSet API无缝集成，并支持用户自定义的标量函数、聚合函数以及表值函数。

Flink的API从底层到高层依次为ProcessFunction、DataStream/DataSet API、SQL/Table API。每一层API在简洁性和表达力上有着不同的侧重，用户可以根据具体的应用场景和需求选择合适的API进行开发。随着Flink的发展，DataStream API逐渐成为流处理的核心，而DataSet API则逐渐退出历史舞台，以实现流批一体化。SQL/Table API作为高层API，提供了更为简洁和强大的数据处理能力，尤其适合那些熟悉SQL语言的用户。

二、创建执行环境

Flink程序可以在各种上下文环境中运行：我们可以在本地JVM中执行程序，也可以提交到远程集群上运行。

不同的环境，代码的提交运行的过程会有所不同。这就要求我们在提交作业执行计算时，首先必须获取当前Flink的运行环境，从而建立起与Flink框架之间的联系。

package wordcount;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * @ClassName test
 * @Description TODO
 * @Author 长风清留扬
 * @Date 2024/8/25 18:57
 * @Version 1.0
 */
public class test {
    public static void main(String[] args) {
        StreamExecutionEnvironment
                //创建一个本地执行环境,idea会启动一个本地集群，可以执行并行度
//                .getExecutionEnvironment()
                //用于创建远程执行环境，允许指定JobManager的主机名和端口号，并可以指定要在集群中运行的Jar包
//                .createRemoteEnvironment("hadoop102",8081,"/opt/model/flink/flinkxxx.jar")
                //常用的
                .getExecutionEnvironment()
    }
}

这个 getExecutionEnvironment() 可以看下源码是什么样子的

public static StreamExecutionEnvironment getExecutionEnvironment(Configuration configuration) {
        return (StreamExecutionEnvironment)Utils.resolveFactory(threadLocalContextEnvironmentFactory, contextEnvironmentFactory).map((factory) -> {
            return factory.createExecutionEnvironment(configuration);
        }).orElseGet(() -> {
            return createLocalEnvironment(configuration);
        });
    }

看到这里有一个.map还有一个.orElseGet，在.map中创建了一个createExecutionEnvironment，执行环境,里面有一个configuration参数，这个参数就是配置文件，一些什么主机名端口号这些都是在这个里面，在集群中运行Flink程序的时候会自动加载这个配置文件，但是如果是在本地启动，没有这些配置文件的话，就会执行.orElseGet，创建一个createLocalEnvironment执行环境，是一个本地的执行环境

所以我们在平时开发Flink程序的时候直接使用getExecutionEnvironment就可以了，会自动帮我们识别集群环境还是本地环境

我们要获取的执行环境，是StreamExecutionEnvironment类的对象，这是所有Flink程序的基础。在代码中创建执行环境的方式，就是调用这个类的静态方法，具体有以下三种。

1）getExecutionEnvironment

最简单的方式，就是直接调用getExecutionEnvironment方法。它会根据当前运行的上下文直接得到正确的结果：如果程序是独立运行的，就返回一个本地执行环境；如果是创建了jar包，然后从命令行调用它并提交到集群执行，那么就返回集群的执行环境。也就是说，这个方法会根据当前运行的方式，自行决定该返回什么样的运行环境。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

这种方式，用起来简单高效，是最常用的一种创建执行环境的方式。

2）createLocalEnvironment

这个方法返回一个本地执行环境。可以在调用时传入一个参数，指定默认的并行度；如果不传入，则默认并行度就是本地的CPU核心数。

StreamExecutionEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment();

3）createRemoteEnvironment

这个方法返回集群执行环境。需要在调用时指定JobManager的主机名和端口号，并指定要在集群中运行的Jar包。

StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment
   .createRemoteEnvironment(
     "host",                   // JobManager主机名
     1234,                     // JobManager进程端口号
    "path/to/jarFile.jar"  // 提交给JobManager的JAR包

);

在获取到程序执行环境后，我们还可以对执行环境进行灵活的设置。比如可以全局设置程序的并行度、禁用算子链，还可以定义程序的时间语义、配置容错机制。

三、执行模式（Execution Mode）

从Flink 1.12开始，官方推荐的做法是直接使用DataStream API，在提交任务时通过将执行模式设为BATCH来进行批处理。不建议使用DataSet API。

// 流处理环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

DataStream API执行模式包括：流执行模式、批执行模式和自动模式。

在实际使用过程中非常建议在命令行中进行配置，如果在代码中配置的话，如果还要修改，那么就还要重新打包

流执行模式（Streaming）

这是DataStream API最经典的模式，一般用于需要持续实时处理的无界数据流。默认情况下，程序使用的就是Streaming执行模式。

（1）通过命令行配置

bin/flink run -Dexecution.runtime-mode=STREAMING ...

在提交作业时，增加execution.runtime-mode参数，指定值为STREAMING。

（2）通过代码配置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setRuntimeMode(RuntimeExecutionMode.STREAMING);

在代码中，直接基于执行环境调用setRuntimeMode方法，传入STREAMING模式。

实际应用中一般不会在代码中配置，而是使用命令行，这样更加灵活。

批执行模式（Batch）

专门用于批处理的执行模式，会一次性拿到所有数据，然后进行完数据处理之后进行输出，修改成该参数即可变成批处理

（1）通过命令行配置

bin/flink run -Dexecution.runtime-mode=BATCH ...

在提交作业时，增加execution.runtime-mode参数，指定值为BATCH。

（2）通过代码配置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setRuntimeMode(RuntimeExecutionMode.BATCH);

在代码中，直接基于执行环境调用setRuntimeMode方法，传入BATCH模式。

实际应用中一般不会在代码中配置，而是使用命令行，这样更加灵活。

自动模式（AutoMatic）

在这种模式下，将由程序根据输入数据源是否有界，来自动选择执行模式。

1）通过命令行配置

bin/flink run -Dexecution.runtime-mode=AUTOMATIC ...

在提交作业时，增加execution.runtime-mode参数，指定值为AUTOMATIC。

（2）通过代码配置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

在代码中，直接基于执行环境调用setRuntimeMode方法，传入AUTOMATIC模式。

实际应用中一般不会在代码中配置，而是使用命令行，这样更加灵活。

四、触发程序执行

需要注意的是，写完输出（sink）操作并不代表程序已经结束。因为当main()方法被调用时，其实只是定义了作业的每个执行操作，然后添加到数据流图中；这时并没有真正处理数据——因为数据可能还没来。Flink是由事件驱动的，只有等到数据到来，才会触发真正的计算，这也被称为“延迟执行”或“懒执行”。

所以我们需要显式地调用执行环境的execute()方法，来触发程序执行。execute()方法将一直等待作业完成，然后返回一个执行结果（JobExecutionResult）。

env.execute();

另外，execute()方法是有返回结果的，通过这个返回结果可以获取一些关于作业执行的基本信息，但主要关注的是作业的提交和执行状态，而不是作业的最终结果或中间处理结果。但是这些信息只在程序结束时能获取，也就是有界流的时候，通常使用Flink都是无界流，程序一旦启动就不会停止，所以一般使用的不多

获取作业的提交时间（getJobSubmissionTime()）
获取作业的完成时间（如果作业已完成的话，getJobEndTime()）
获取作业的执行状态（getJobState()），这可以告诉你作业是否成功、失败、取消等。
通过 toJobExecutionResult() 方法返回自身（对于链式调用可能有用，但通常不是主要用途）。

异步执行

一个Flink代码可以生成多个job，如果在Flink程序中写了两个execute()方法，那么就会生成两个job

package wordcount;

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

/**
 * @ClassName flink_wc_socket
 * @Description TODO
 * @Author 长风清留扬
 * @Date 2024/8/8 22:47
 * @Version 1.0
 */
public class flink_wc_socket {
    public static void main(String[] args) throws Exception {
        //创建执行环境
        //StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //常见执行环境，用于设置和初始化一个流处理环境（StreamExecutionEnvironment），特别是以本地模式（local mode）启动，并启用了一个Web UI以便监控和管理作业的执行。
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());
        
        //设置全局并行度为3
        env.setParallelism(3);

        //读取数据，从socket中读取数据
        DataStreamSource socket_DS = env.socketTextStream("127.0.0.1", 9999);

        //使用lambda表达式来实现
        SingleOutputStreamOperator> sum = socket_DS.flatMap(
                        (String value, Collector> out) -> {
                            //拆分
                            String[] words = value.split(" ");
                            for (String word : words) {
                                Tuple2 Tuple2_of = Tuple2.of(word, 1);
                                out.collect(Tuple2_of);
                            }
                        }
                )
                .setParallelism(2) // Flat Map的并行度设置为2
                .returns(Types.TUPLE(Types.STRING,Types.INT))
                .keyBy(value -> value.f0)
                .sum(1)
                ;

        //输出结果
        sum.print();
        //执行流处理
        env.execute();
        
        //这里在写一些代码
        //然后再次执行execute()方法
        env.execute();
    }
}

从上面的代码可以看到，先是执行了一个execute()方法，然后又写了一些代码之后再次执行了一个execute()方法，那么就是生成两个Job，但是当程序运行到第一个execute()的时候就会卡主的，因为是流式处理，这第一个execute()不结束运行第二个execute()不会执行的。所以只要第一个execute()的流处理没有结束，第二个execute()方法永远不会执行

但是！Flink提供了一种异步执行的方法

package wordcount;

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

/**
 * @ClassName flink_wc_socket
 * @Description TODO
 * @Author 长风清留扬
 * @Date 2024/8/8 22:47
 * @Version 1.0
 */
public class flink_wc_socket {
    public static void main(String[] args) throws Exception {
        //创建执行环境
        //StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //常见执行环境，用于设置和初始化一个流处理环境（StreamExecutionEnvironment），特别是以本地模式（local mode）启动，并启用了一个Web UI以便监控和管理作业的执行。
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());

        //设置全局并行度为3
        env.setParallelism(3);

        //读取数据，从socket中读取数据
        DataStreamSource socket_DS = env.socketTextStream("127.0.0.1", 9999);

        //使用lambda表达式来实现
        SingleOutputStreamOperator> sum = socket_DS.flatMap(
                        (String value, Collector> out) -> {
                            //拆分
                            String[] words = value.split(" ");
                            for (String word : words) {
                                Tuple2 Tuple2_of = Tuple2.of(word, 1);
                                out.collect(Tuple2_of);
                            }
                        }
                )
                .setParallelism(2) // Flat Map的并行度设置为2
                .returns(Types.TUPLE(Types.STRING,Types.INT))
                .keyBy(value -> value.f0)
                .sum(1)
                ;

        //输出结果
        sum.print();
        //执行异步流处理
        env.executeAsync();

        //这里在写一些代码
        //然后再次执行异步执行方法
        env.executeAsync();
    }
}

异步执行的逻辑就是，程序运行的时候会先走到第一个executeAsync()方法，这个时候不会卡主，会继续执行下面的代码，经过一些新的逻辑处理之后再次启动executeAsync()方法，就会再次生成一个job，两套job同时执行，这样就达到一个main方法中启动了两个Job

但是这种方式不推荐，如果需要两个job的话尽量还是写两个类比较好，如果没有什么特殊的需求，例如一套代码想运行不同的逻辑。

而且在yarn模式下，在yarn-application应用集群模式下，如果一个程序中有两个executeAsync()的话，也是会在一个应用集群中生成两个flink job

关于yarn模式可以看下这篇文章

2024年最新Flink教程,从基础到就业，大家一起学习--Flink运行架构底层源码详解+实战-CSDN博客

你可能感兴趣的:(flink,java,大数据,大数据,java,flink)

字节跳动后端开发一面面经我喝AD钙面经 java 后端面试
2023-08-07字节跳动后端开发一面1自我介绍：学历背景-实习/项目-校园经历-获奖2介绍一下java全栈实习：业务-解决方案-工作-成果-反思3xx功能怎么做的：业务-表设计-前端原型-功能-前后端接口-后端实现4订单管理货物管理怎么做的：xxx5数据存储用的啥：mysql给主键常用字段加索引6货物限量怎么处理：java加锁（锁的比较与选择）/数据库事务（考虑了吗，为什么没用）7单体应用，某
使用Kettle定时同步数据库的数据（详细实例操作）故里2130 包教会专栏数据库
数据库的数据同步、迁移在我们运维软件中，经常使用，而且非常的频繁。同步、迁移数据的工具非常多，比如Navicat、SqlServer等等，甚至很多公司，都是自己写的定时同步软件。今天，我们介绍一款Java开源免费的数据库同步软件，功能非常强大。本节只演示，定时同步数据库的数据，从test数据库定时同步到test1数据库的教程。（坑很多）1.首先下载安装包，进行解压。路径：迅雷云盘2.然后进入目录中
Linux中es启动成功，windows服务器访问不了的解决方案码代码的小仙女笔记 linux windows elasticsearch
1.在Linux服务器中安装elasticsearch。在bin目录下执行./elasticsearch报错信息：org.elasticsearch.bootstrap.StartupException:java.lang.RuntimeException:cannotrunelasticsearchasrootatorg.elasticsearch.bootstrap.Elasticsearch
基于springboot的鲜花销售商城网站程序猿麦小七毕业设计 Java 后台 Java Web spring boot java 后端
项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问题，今天给大家介绍一篇基于springboot的鲜花销售商城网站。功能需求本文设计并实现的商城系统，通过互联网来实现电子商城这一新兴产业，电子商城主要依靠于计算机互联网技术。如果缺少了这个技术
ssm002学院党员管理系统(文档+源码)_kaic 开心毕设开发语言 vue.js 前端 javascript java
摘要互联网发展至今，无论是其理论还是技术都已经成熟，而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播，搭配信息管理工具可以很好地为人们提供服务。针对鄂尔多斯应用技术学院党员信息管理混乱，出错率高，信息安全性差，劳动强度大，费时费力等问题，采用鄂尔多斯应用技术学院党员管理系统可以有效管理，使信息管理能够更加科学和规范。鄂尔多斯应用技术学院党员管理系统在Eclipse环境中，使用Java语
springboot527基于Java企业项目管理系统(论文+源码)_kaic 开心毕设数据库 rabbitmq kafka
摘要如今社会上各行各业，都喜欢用自己行业的专属软件工作，互联网发展到这个时候，人们已经发现离不开了互联网。新技术的产生，往往能解决一些老技术的弊端问题。因为传统企业项目管理系统信息管理难度大，容错率低，管理人员处理数据费工费时，所以专门为解决这个难题开发了一个企业项目管理系统，可以解决许多问题。企业项目管理系统按照操作主体分为管理员和用户。管理员的功能包括操作日志管理、字典管理、论坛管理、公告管理
解决IDEA创建SpringBoot项目时不能选择java8的问题奔跑吧小吕 intellij-idea java ide
问题原因：当我创建一个springboot项目时，发现选不了java8了，查看官方文档之后，springboot不在支持java8了。解决方式：改成阿里云的服务
java.lang.NoSuchMethodError: org.elasticsearch.client.RestClient.performRequest(Ljava/lang/String；Lj 频繁输入，积极输出 es es
es创建索引时，报：java.lang.NoSuchMethodError:org.elasticsearch.client.RestClient.performRequest(Ljava/lang/String;Ljava/lang/String;Ljava/util/Map;Lorg/apache/http/HttpEntity;[Lorg/apache/http/Header;)Lorg/e
linux常用基础命令_最新版脚大江山稳 linux
常用命令查看当前目录下个各个文件大小查看当前系统储存使用情况查看当前路径删除当前目录下所有包含".log"的文件linux开机启动jar更改自动配置文件后操作关闭自启动linux静默启动java服务查询端口被占用查看软件版本重启关机开机启动取别名清空当前行创建文件touch创建文件夹查找文件/文件名/大小查找查看文件内容cat/more删除文件或文件夹管道符|过滤grep命令echo命令输出内容重
《Kafka 理解： Broker、Topic 和 Partition》频繁输入，积极输出 kafka 分布式
Kafka核心架构解析：从概念到实践Kafka是一个分布式流处理平台，广泛应用于日志收集、实时数据分析和事件驱动架构。本文将从Kafka的核心组件、工作原理、实际应用场景等方面进行详细解析，帮助读者深入理解Kafka的架构设计及其在大数据领域的重要性。1.Kafka的背景与应用场景1.1Kafka的背景Kafka最初由LinkedIn开发，用于解决其大规模数据处理的挑战。2011年，Kafka开源
Hutool - Setting：功能更强大的 Setting 配置文件和 Properties 封装五行星辰业务系统应用技术开发语言 java 后端
一、简介在Java开发中，配置文件是管理项目配置信息的重要手段，常见的配置文件格式有.properties文件。然而，传统的Properties类在处理配置信息时功能相对有限，例如不支持分组、注释等。Hutool-Setting模块对配置文件进行了更强大的封装，提供了比Properties更丰富的功能，支持分组配置、自动加载、变量引用等，让配置文件的管理和使用更加便捷。二、引入依赖如果你使用Mav
探寻 Hutool - System：开启系统信息便捷获取之旅五行星辰业务系统应用技术 java 后端
Hutool-System：系统参数调用封装（JVM信息等）一、简介在Java开发中，有时需要获取系统的相关信息，例如JVM的配置信息、操作系统信息、用户信息等。Java本身提供了一些API来获取这些信息，但使用起来较为分散和复杂。Hutool-System模块对这些系统参数的调用进行了封装，提供了统一、便捷的接口，让开发者可以更轻松地获取各种系统信息。二、引入依赖如果你使用Maven项目，在po
11个大数据在日常生活中的应用场景雪兽软件科技前沿大数据
在我们的日常生活围绕着智能手机、智能相机、智能标签、智能手表和智能扬声器等小工具的时代，从这些不同的数字来源中积累了大量数据。然而，人们应该如何分析和检查这些大量令人困惑的数据呢？这就是大数据发挥魔力的地方。大数据技术和工具的出现有助于应对这些挑战，使世界认识到该技术提供的广泛应用，企业从中受益以进行扩张。什么是大数据？通俗地说，大数据描述了每天吞噬企业的大量结构化和非结构化数据。它主要被定义为三
JAVA版本GDAL安装使用教程(详细步骤） Roc-xb java GDAL
GDAL由加拿大航天代理局开发，采用MIT/X开源协议，由OpenSourceGeospatialFoundation维护。它通过抽象数据模型统一支持多种地理数据格式，包括栅格数据（如GeoTIFF、JPEG2000、HDF）和矢量数据（如Shapefile、GeoJSON）。其跨平台性支持Windows、Linux、macOS等操作系统，并提供了Python、C/C++、Java等多种语言接口一
【Spring】配置文件的使用 m0_74823507 面试学习路线阿里巴巴 spring java 后端
在Spring框架中，application.properties（或application.yml）文件用于配置Spring应用程序的各种属性。我们可以通过多种方式来使用这些配置，包括使用@Value和@ConfigurationProperties注解来绑定配置到Java对象。下面是对不同配置类型的说明，以及如何在代码中使用它们的示例。1.配置变量（单个属性）可以在application.pr
J-LangChain，用Java实现LangChain编排！轻松加载PDF、切分文档、向量化存储，再到智能问答花千树-010 JLangChain-TG langchain java pdf AIGC nlp AI编程
Java如何玩转大模型编排、RAG、Agent？？？在自然语言处理（NLP）的浪潮中，LangChain作为一种强大的模型编排框架，已经在Python社区中广受欢迎。然而，对于Java开发者来说，能否有一个同样高效、灵活的工具来实现类似功能？答案是肯定的！今天，我们将聚焦J-LangChain——一个专为Java打造的LangChain实现，带你探索如何用Java语言轻松构建从PDF处理到智能问答
【Java】如何高效计算斐波那契数列：递归与循环的比较与优化小ᶻ☡꙳ᵃⁱᵍᶜ꙳ Java java 开发语言
博客主页：[小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏:Java文章目录前言斐波那契数列的递归实现1.递归的基本思路2.递归实现的细节解析3.递归效率分析斐波那契数列的循环实现1.循环实现的代码2.循环实现的细节解析3.循环实现的优缺点4.举例说明优化：递归与循环的改进1.记忆化递归（Memoization）2.优化效果总结前言斐波那契数列是计算机科学和数学中经典的数列之一，它不仅在理论上具有重要意义，在实际编
MySQL的日期时间类型大地爱面试学习路线阿里巴巴 mysql 数据库
一MySQL的日期时间类型MySQL数据库的日期时间类型有date、time和datetime类型，还有timestamp类型，在Java代码中无论日期时间是什么样的格式，转换sql语句时统一为yyyy-MM-ddHH:mm:ss.S(Timestamp)的格式，创建案例简单演示。1.1创建数据库表CREATETABLE`apple`(`id`varchar(255)DEFAULTNULL,`da
后端开发技术栈和知识点的分类，以及按学习顺序推荐的相关书籍输出输入学习后端
以下是后端开发技术栈和知识点的分类，以及按学习顺序推荐的相关书籍：1.基础编程语言后端开发通常需要掌握至少一种编程语言，如Java、Python、Go或Node.js。推荐书籍：•Java：•《Java核心技术卷I》：适合Java初学者，涵盖语言基础、面向对象编程、异常处理等内容。•《Java编程思想》：深入讲解Java的核心概念和编程思想。•《EffectiveJava》：Java开发的最佳实践
【大数据】es ElasticSearch常用操作：查询与聚合篇 roshy 大数据
0说明基于es5.4和es5.6，列举的是个人工作中经常用到的查询（只是工作中使用的是JavaAPI），如果需要看完整的，可以参考官方相关文档https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search.html。1查询先使用一个快速入门来引入，然后后面列出的各种查询都是用得比较多的（在我的工作环境是这样），其它没怎么用的这里
SpringCloud微服务详解：java项目业绩怎么写 m0_56712078 程序员 java 后端面试
前言原来，一瞬间，一句话，真的可以改变一个人的命运。说一个前几年一个热门话题：“是否应该跳出舒适圈。”一时间，这个话题便引发众人议论：支持方：愿意挑战不擅长领域的人，勇气可嘉，值得学习。反对派：做自己擅长的事情不好吗？为何非要跳出舒适圈呢？其实，每个人的决定都取决于当下自己的状态以及那一瞬间的冲动，也可能你成了雷军，也可能你和下图一样，大家懂我意思吧一念之间的决定，你敢尝试吗？今天想说的是对于想转
JAVA【微服务】Spring AI 使用详解 C_V_Better java AI人工智能人工智能 java 微服务后端数据结构开发语言
目录一、前言二、SpringAI概述2.1什么是SpringAI2.2SpringAI特点2.3SpringAI带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本2.4.4嵌入大模型使用2.4.5矢量数据库支持2.4.6数据工程ETL框架三、SpringAI对接ChatGPT3.1前置准备3.2添加必要的依赖3.3接入操作流程3.3.1配置文件3
Java容器化环境一致性：3大绝招教你告别“薛定谔的Bug”！从踩坑到闭眼部署的终极指南墨瑾轩 Java乐园 bug
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第一章：为什么你的Java容器像薛定谔的猫？“本地跑得好好的，一上容器就翻车？”“测试环境稳如狗，生产环境秒变脆皮鸭？”这都是环境一致性在作妖！容器化本为解决环境差异而生，但如果连Dockerfile都写得像抽盲盒…（摇头）第二章：容器化环境三大杀手️♀️杀手
深入理解 Java 中的 ArrayList ^辞安 java 开发语言 idea
1.引言ArrayList是Java集合框架中最常用的数据结构之一。它基于动态数组实现，提供了快速的随机访问和高效的尾部插入操作。无论是初学者还是资深开发者，`ArrayList`都是日常开发中不可或缺的工具。本文将深入探讨`ArrayList`的实现原理、常见操作及其性能特点，并结合源码解析其内部机制。2.ArrayList的基本概念2.1什么是ArrayList？ArrayList是Java集
关于idea中新建springboot项目Java版本不能选择11和8的解决办法 aniceperson999 intellij-idea java ide
原因：spring2.X版本在2023年11月24日停止维护了，因此创建spring项目时不再有2.X版本的选项，只能从3.1.X版本开始选择而Spring3.X版本不支持JDK8，JDK11，最低支持JDK17，因此JDK11也无法选择了当然，停止维护只代表我们无法用idea主动创建spring2.X版本的项目了，不代表我们无法使用，该使用依然能使用，丝毫不受影响目前阿里云还是支持创建Sprin
人事管理系统设计与实现 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
人事管理系统设计与实现1.背景介绍在现代企业管理中,人力资源管理是一个非常重要的环节。传统的人事管理方式效率低下,无法满足企业快速发展的需求。因此,开发一套功能完善、高效实用的人事管理系统就显得尤为重要。本文将详细介绍一个基于Web的人事管理系统的设计与实现过程,该系统采用B/S架构,后端使用Java语言,前端采用Vue.js框架。系统主要包括员工信息管理、招聘管理、考勤管理、薪酬管理、绩效考核等
java计算机毕业设计企业销售管理系统源代码+数据库+系统+lw文档今晚的月亮真好看 java 开发语言
java计算机毕业设计企业销售管理系统源代码+数据库+系统+lw文档java计算机毕业设计企业销售管理系统源代码+数据库+系统+lw文档本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https://p
Springboot 整合 Java DL4J 实现企业门禁人脸识别系统伏羲栈人工智能深度学习 Java DL4J -深度学习实战 spring boot java Deeplearning4j deep learning 人工智能深度学习 spring
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
解锁Java在客户旅程映射中的无限潜力：从数据收集到优化的全方位指南墨夶 Java学习资料2 java python 开发语言
在当今竞争激烈的市场环境中，了解并优化客户的旅程成为企业成功的关键。通过客户旅程映射（CustomerJourneyMapping,CJM），企业能够识别出客户在与品牌互动过程中遇到的痛点，并据此改进服务。而Java作为一门强大的编程语言，其灵活性和广泛的应用场景使其成为实现这些目标的理想选择。本文将深入探讨如何使用Java进行客户旅程的分析与优化，并提供详尽的代码示例和最佳实践。第一部分：理解客
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p