星辰大帅

Flink13基础-DataStream API（转换算子 Transformation）

一、基本转换算子

1. 映射（map）

用于将数据流中的数据进行转换，形成新的数据流

自定义MapFunction

 // 自定义MapFunction
 public static class MyMapper implements MapFunction {

    @Override
    public String map(Event value) throws Exception {
         return value.user;
    }
}

加载Map方法

// 1. 使用自定义类，实现MapFunction接口
SingleOutputStreamOperator result1 = stream.map(new MyMapper());

使用匿名类实现MapFunction

// 2. 使用匿名类实现MapFunction接口
SingleOutputStreamOperator result2 = stream.map(new MapFunction() {

      @Override
      public String map(Event event) throws Exception {
           return event.user;
       }
});

传入lambda表达式

SingleOutputStreamOperator result3 = stream.map(data -> data.user);

完整代码

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;


public class TransformMapTest {

    public static void main(String[] args) throws Exception {
        // 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Alice", "./prod?id=100", 3000L)
        );

        // 进行转换计算，提取user字段
        // 1. 使用自定义类，实现MapFunction接口
        SingleOutputStreamOperator result1 = stream.map(new MyMapper());

        // 2. 使用匿名类实现MapFunction接口
        SingleOutputStreamOperator result2 = stream.map(new MapFunction() {
            @Override
            public String map(Event event) throws Exception {
                return event.user;
            }
        });

        // 3. 传入lambda表达式
        SingleOutputStreamOperator result3 = stream.map(data -> data.user);

        result3.print();

        env.execute();

    }

    // 自定义MapFunction
    public static class MyMapper implements MapFunction {

        @Override
        public String map(Event value) throws Exception {
            return value.user;
        }
    }
}

2. 过滤（filter）

通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为 true 则元素正常输出，若为 false 则元素被过滤掉

进行 filter 转换之后的新数据流的数据类型与原数据流是相同的。filter 转换需要传入的参

数需要实现 FilterFunction 接口，而 FilterFunction 内要实现 filter()方法，就相当于一个返回布

尔类型的条件表达式。

实现FilterFunction的类对象

 // 实现一个自定义的FilterFunction
 public static class MyFilter implements FilterFunction {

     @Override
     public boolean filter(Event event) throws Exception {

          return event.user.equals("Mary");
     }
}

加载filter方法

 // 1. 传入一个实现了FilterFunction的类的对象
 SingleOutputStreamOperator result1 = stream.filter(new MyFilter());

一个匿名类实现FilterFunction的接口

SingleOutputStreamOperator result2 = stream.filter(new FilterFunction() {
      @Override
      public boolean filter(Event event) throws Exception {
          return event.user.equals("Bob");
      }
});

传入lambda表达式

stream.filter(data -> data.user.equals("Alice")).print("lambda: Alice click");

完整代码

import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class TransformFilterTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Alice", "./prod?id=100", 3000L)
        );

        // 1. 传入一个实现了FilterFunction的类的对象
        SingleOutputStreamOperator result1 = stream.filter(new MyFilter());

        // 2. 传入一个匿名类实现FilterFunction接口
        SingleOutputStreamOperator result2 = stream.filter(new FilterFunction() {
            @Override
            public boolean filter(Event event) throws Exception {
                return event.user.equals("Bob");
            }
        });

        // 3. 传入lambda表达式
        stream.filter(data -> data.user.equals("Alice")).print("lambda: Alice click");

        result2.print();

        env.execute();
    }

    // 实现一个自定义的FilterFunction
    public static class MyFilter implements FilterFunction {

        @Override
        public boolean filter(Event event) throws Exception {

            return event.user.equals("Mary");
        }
    }
}

3. 扁平映射（flatMap）一对多

flatMap 操作又称为扁平映射，主要是将数据流中的整体（一般是集合类型）拆分成一个

一个的个体使用。消费一个元素，可以产生 0 到多个元素。flatMap 可以认为是“扁平化”（flatten）

和“映射”（map）两步操作的结合，也就是先按照某种规则对数据进行打散拆分，再对拆分

后的元素做转换处理

同 map 一样，flatMap 也可以使用 Lambda 表达式或者 FlatMapFunction 接口实现类的方式

来进行传参，返回值类型取决于所传参数的具体逻辑，可以与原数据流相同，也可以不同。

flatMap 操作会应用在每一个输入事件上面，FlatMapFunction 接口中定义了 flatMap 方法，用户可以重写这个方法，在这个方法中对输入数据进行处理，并决定是返回 0 个、1 个或多个结果数据。因此 flatMap 并没有直接定义返回值类型，而是通过一个“收集器”（Collector）来指定输出。希望输出结果时，只要调用收集器的.collect()方法就可以了；这个方法可以多次调用，也可以不调用。所以 flatMap 方法也可以实现 map 方法和 filter 方法的功能，当返回结果是 0 个的时候，就相当于对数据进行了过滤，当返回结果是 1 个的时候，相当于对数据进行了简单的转换操作。

实现一个自定义的FlatMapFunction

public static class MyFlatMap implements FlatMapFunction {

    @Override
    public void flatMap(Event event, Collector collector) throws Exception {
        collector.collect(event.user);
        collector.collect(event.url);
        collector.collect(event.timestamp.toString());
     }
}

加载flatMap方法

// 1. 实现FlatMapFunction
stream.flatMap(new MyFlatMap()).print();

传入一个Lambda表达式

stream.flatMap((Event value,Collector out) -> {
            if (value.user.equals("Mary"))
                out.collect(value.url);
            else if (value.user.equals("Bob")) {
                out.collect(value.user);
                out.collect(value.url);
                out.collect(value.timestamp.toString());
            }
        }).returns(new TypeHint(){}).print();

完整代码

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class TransformFlatMapTest {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Alice", "./prod?id=100", 3000L)
        );

        // 1. 实现FlatMapFunction
        stream.flatMap(new MyFlatMap()).print();

        stream.flatMap(new FlatMapFunction() {
            @Override
            public void flatMap(Event value, Collector out) throws Exception {
                if (value.user.equals("Mary"))
                    out.collect(value.url);
                else if (value.user.equals("Bob")) {
                    out.collect(value.user);
                    out.collect(value.url);
                    out.collect(value.timestamp.toString());
                }
            }
        });

        // 2. 传入一个Lambda表达式
        stream.flatMap((Event value,Collector out) -> {
            if (value.user.equals("Mary"))
                out.collect(value.url);
            else if (value.user.equals("Bob")) {
                out.collect(value.user);
                out.collect(value.url);
                out.collect(value.timestamp.toString());
            }
        }).returns(new TypeHint(){}).print();

        env.execute();
    }

    // 实现一个自定义的FlatMapFunction
    public static class MyFlatMap implements FlatMapFunction {

        @Override
        public void flatMap(Event event, Collector collector) throws Exception {
            collector.collect(event.user);
            collector.collect(event.url);
            collector.collect(event.timestamp.toString());
        }
    }
}

3. 聚合算子（Aggregation）

当计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并

——这就是所谓的“聚合”（Aggregation），也对应着MapReduce中的reduce操作。

1. 按键分区（keyBy）

在Flink中，要做聚合，需要先进行分区；这个操作就是通过keyBy来完成的。keyBy是聚合前必须要用到的一个算子。keyBy通过指定键（key），可以将一条流从逻辑上划分成不同的分区（partitions）。这里所说的分区，其实就是并行处理的子任务，也就对应着任务槽（task slot）。keyby算子后，具有相同的key的数据，都将被发往同一个分区，那么下一步算子操作就将会在同一个slot中进行处理了。

在内部，是通过计算key的哈希值（hash code），对分区数进行取模运算来实现的。所以这里key如果是POJO的话，必须要重写hashCode()方法。

keyBy()方法需要传入一个参数，这个参数指定了一个或一组key。有很多不同的方法来指

定key：比如对于Tuple数据类型，可以指定字段的位置或者多个位置的组合；对于POJO类

型，可以指定字段的名称（String）；另外，还可以传入Lambda表达式或者实现一个键选择器

（KeySelector），用于说明从数据中提取key的逻辑。

我们可以以id作为key做一个分区操作，代码实现如下：

1.使用Lambda表达式

KeyedStream keyedStream = stream.keyBy(e -> e.user);

2.使用匿名类实现KeySelector

KeyedStream keyedStream1 = stream.keyBy(new KeySelector() {
    @Override
    public String getKey(Event e) throws Exception {
        return e.user;
    }
});

需要注意的是，keyBy得到的结果将不再是DataStream，而是会将DataStream转换为

KeyedStream。KeyedStream可以认为是“分区流”或者“键控流”，它是对DataStream按照

key的一个逻辑分区，所以泛型有两个类型：除去当前流中的元素类型外，还需要指定key的

类型。

KeyedStream也继承自DataStream，所以基于它的操作也都归属于DataStream API。但它

跟之前的转换操作得到的SingleOutputStreamOperator不同，只是一个流的分区操作，并不是

一个转换算子。KeyedStream是一个非常重要的数据结构，只有基于它才可以做后续的聚合操

作（比如sum，reduce）；而且它可以将当前算子任务的状态（state）也按照key进行划分、限

定为仅对当前key有效。

2. 简单聚合

有了按键分区的数据流KeyedStream，我们就可以基于它进行聚合操作了。Flink为我们

内置实现了一些最基本、最简单的聚合API，主要有以下几种：

sum()：在输入流上，对指定的字段做叠加求和的操作。

min()：在输入流上，对指定的字段求最小值。

max()：在输入流上，对指定的字段求最大值。

minBy()：与min()类似，在输入流上针对指定字段求最小值。不同的是，min()只计

算指定字段的最小值，其他字段会保留最初第一个数据的值；而minBy()则会返回包

含字段最小值的整条数据。

maxBy()：与max()类似，在输入流上针对指定字段求最大值。两者区别与

min()/minBy()完全一致。

完整代码

import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class TransformSimpleAggTest {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Bob", "./prod?id=100", 3000L),
                new Event("Bob", "./home", 4000L)
        );

        // 按分组之后的进行聚合，提取当前用户最近一次访问数据
        // max: 是提取当前 max字段的值，其余字段保存上次的记录
        stream.keyBy(new KeySelector() {
            @Override
            public String getKey(Event event) throws Exception {
                return event.user;
            }
        }).max("timestamp").print("max：");

        // maxBy是完整的一条数据
        stream.keyBy(data -> data.user)
                .maxBy("timestamp")
                .print("maxBy：");

        env.execute();

    }
}

3. 归约聚合（reduce）

我们对reduce操作就不陌生：它可以对已有的数据进行归约处理，把每一个新输入的数据和当前已经归约出来的值，再做一个聚合计算。

与简单聚合类似，reduce 操作也会将 KeyedStream 转换为 DataStream。它不会改变流的元素数据类型，所以输出类型和输入类型是一样的。调用 KeyedStream 的 reduce 方法时，需要传入一个参数，实现 ReduceFunction 接口。接口在源码中的定义如下：


public interface ReduceFunction extends Function, Serializable {
    T reduce(T value1, T value2) throws Exception;
}

我们将数据流按照用户id进行分区，然后用一个reduce算子实现sum的功能，统计每个

用户访问的频次；进而将所有统计结果分到一组，用另一个reduce算子实现maxBy的功能，

记录所有用户中访问频次最高的那个，也就是当前访问量最大的用户是谁。

完整代码

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class TransformReduceTest {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Bob", "./prod?id=100", 3000L),
                new Event("Bob", "./home", 4000L)
        );

        // 1. 统计每个用户的访问频次
        SingleOutputStreamOperator> reduce = stream.map(new MapFunction>() {

            @Override
            public Tuple2 map(Event event) throws Exception {
                return Tuple2.of(event.user, 1L);
            }
        }).keyBy(new KeySelector, String>() {
            @Override
            public String getKey(Tuple2 stringLongTuple2) throws Exception {
                return stringLongTuple2.f0;
            }
        }).reduce(new ReduceFunction>() {
            @Override
            public Tuple2 reduce(Tuple2 stringLongTuple2, Tuple2 t1) throws Exception {
                return Tuple2.of(stringLongTuple2.f0, stringLongTuple2.f1 + t1.f1);
            }
        });

        // 2. 选取当前最活跃的用户
        SingleOutputStreamOperator> result = reduce.keyBy(data -> "key").reduce(new ReduceFunction>() {
            @Override
            public Tuple2 reduce(Tuple2 t1, Tuple2 t2) throws Exception {
                return t1.f1 > t2.f1 ? t1 : t2;
            }
        });

        result.print();

        env.execute();
    }
}

4. 富函数类（Rich Function Classes）

“富函数类”也是 DataStream API 提供的一个函数类的接口，所有的 Flink 函数类都有其 Rich 版本。富函数类一般是以抽象类的形式出现的。例如：RichMapFunction、RichFilterFunction、 RichReduceFunction 等。 Rich Function 有生命周期的概念。典型的生命周期方法有：

open()方法，是 Rich Function 的初始化方法，也就是会开启一个算子的生命周期。当一个算子的实际工作方法例如 map()或者 filter()方法被调用之前，open()会首先被调用。所以像文件 IO 的创建，数据库连接的创建，配置文件的读取等等这样一次性的工作，都适合在 open()方法中完成。。 close()方法，是生命周期中的最后一个调用的方法，类似于解构方法。一般用来做一些清理工作。需要注意的是，这里的生命周期方法，对于一个并行子任务来说只会调用一次；而对应的，实际工作方法，例如 RichMapFunction 中的 map()，在每条数据到来后都会触发一次调用。

完整代码

import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class TransformRichFunctionTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);

        DataStreamSource stream = env.fromElements(
                new Event("Mary", "./home", 1000L),
                new Event("Bob", "./cart", 2000L),
                new Event("Bob", "./prod?id=100", 3000L),
                new Event("Bob", "./home", 4000L)
        );

        stream.map(new MyRichMapper()).setParallelism(2).print();

        env.execute();
    }

    // 实现一个自定义的富函数类
    public static class MyRichMapper extends RichMapFunction {

        @Override
        public void open(Configuration parameters) throws Exception {
            super.open(parameters);
            System.out.println("open生命周期被调用 " + getRuntimeContext().getIndexOfThisSubtask()+"号任务启动");
        }

        @Override
        public Integer map(Event event) throws Exception {
            return event.url.length();
        }

        @Override
        public void close() throws Exception {
            super.close();
            System.out.println("close生命周期被调用 " + getRuntimeContext().getIndexOfThisSubtask()+"号任务结束");
        }
    }
}

一个常见的应用场景就是，如果我们希望连接到一个外部数据库进行读写操作，那么将连接操作放在 map()中显然不是个好选择——因为每来一条数据就会重新连接一次数据库；所以我们可以在 open()中建立连接，在 map()中读写数据，而在 close()中关闭连接。所以我们推荐的最佳实践如下：

public class MyFlatMap extends RichFlatMapFunction> {

     @Override
     public void open(Configuration configuration) {
         // 做一些初始化工作
         // 例如建立一个和 MySQL 的连接
     }

     @Override
     public void flatMap(IN in, Collector

Flink同步数据mysql到doris问题合集土豆沒加常用工具 flink mysql 大数据
Flink同步数据mysql到doris官方同步流程Doris安装下载地址导入镜像启动配置Flink-cdc安装（自制）下载地址导入镜像启动命令启动问题修复Flink报错Couldnotacquiretheminimumrequiredresources.作业报错Mysql8.0PublicKeyRetrievalisnotallowed作业报错Connectto127.0.0.1:8040[/1
Flink架构体系：深入解析Apache Flink的架构与工作原理雨中徜徉的思绪漫溢 flink 架构 apache 大数据
Flink架构体系：深入解析ApacheFlink的架构与工作原理ApacheFlink是一种高性能、分布式、流式处理引擎，被广泛应用于大数据处理和实时分析场景。本文将深入解析Flink的架构体系和工作原理，包括核心组件和数据流处理过程，并提供相应的示例代码。Flink架构概述ApacheFlink的架构基于流式处理模型，它通过将数据流划分为有向无环图（DAG）的形式，将大规模的数据处理任务划分为
Flink的架构体系 GDDGHS_ flink 架构大数据
Flink中的重要角⾊JobManager处理器JobManager处理器也称之为Master，用于协调分布式执行，它们用来调度task，协调检查点，协调失败时恢复等。Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个master处理器，它们其中有一个是leader，而其他的都是standby。TaskManager处理器TaskManager处理器也称之为Worker
Streampark 入门到生产实践大数据学习爱好者 spark开发和机器学习数据仓库数据仓库大数据
Streampark入门到生产实践1.StreamPark初探1.1什么是StreamPark1.2Features1.3架构2.环境安装要求如何插入一段漂亮的代码片3.安装apache-streampark最新版4.使用教程4.1配置Flink_home4.2git拉取项目和构建项目4.3企业微信告警4.4相关参数配置4.5相关参数配置yarn-session1.StreamPark初探1.1什
Flink——部署StreamPark penghaichao 实时-Flink篇 flink 大数据
环境准备提前部署好了Flink1.18，官方要求1.12及以上jdk1.8Mysql5.7，官方要求5.6及以上，也可省略，系统自带h2Step1：通过streampark官网下载安装包Step2：跟着官网的userguide进行操作部署成功后即可通过http://host:10000进行访问，ui界面如下图遇到的问题：原因是mysql数据库默认为localhost主机进行访问，修改权限为'%'后
Flink K8s Application任务的使用老哥哥-老刘 flink
FlinkK8sApplication任务的使用FlinkK8sApplication任务的使用构键k8s集群提供flink运行任务的环境下载flink客户端任务编程任务jar生成过程k8sApplication运行Application模式架构启动命令PodTemplateFlinkK8sApplication任务的使用构键k8s集群在这里，我们需要搭建一个K8S环境用于提供flink任务的运行
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
StreamPark发布：Flink迎来首个Apache版本 MfvShell flink apache 大数据 Flink
近日，流处理计算平台StreamPark重磅发布了其首个Apache版本，为用户带来了更强大的功能和性能优化。这一版本的发布标志着StreamPark与ApacheFlink的融合迈出了重要的一步，为用户提供了更好的流处理体验。ApacheFlink是一个开源的流处理框架，具有强大的扩展性和容错性，被广泛应用于实时数据处理和分析场景。而StreamPark则是基于ApacheFlink构建的流处理
Flink CDC LonelyProgramme flink 数据库大数据
我先说说我的业务需求,我想要实时从mysql数据库中读取配置数据,我以前没接触这个技术之前是定时从数据库中获取数据,但是将数据间隔设置太小就会出现问题,所以达不到纯实时的效果.下面开始介绍一下准备工作:支持的数据库(下面是官方的建议:MySQL|ApacheFlinkCDC)ConnectorDatabaseDrivermysql-cdcMySQL:5.6,5.7,8.0.xRDSMySQL:5.
Doris、ClickHouse 和 Flink 这三个技术典型的应用场景每天瞎忙的农民工大数据 clickhouse flink 大数据 doris
Doris、ClickHouse和Flink这三个技术在不同业务场景下有各自的成功落地方案，主要用于数据分析、实时计算和高性能查询。以下是一些典型的应用场景：1.ApacheDoris落地方案应用场景Doris适用于海量数据的实时查询和分析，尤其适用于报表查询、OLAP分析和BI工具对接。案例某互联网广告公司业务背景：广告业务需要分析用户点击行为，监测广告投放效果，并进行精准推荐。技术方案：数据来
使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris 一天两晒网 doris mysql flink doris flink cdc
背景现有数据库：mysql数据：库表较多，每个企业用户一个分库，每个企业下的表均不同，无法做到聚合,且表可以被用户随意改动，增删改列等，增加表分析：用户自定义分析，通过拖拽定义图卡，要求实时，点击确认即出现相应结果，其中有无法预判的过滤问题：随业务增长，企业用户越来越多，mysql压力越来越大，已经出现一些图卡加载过慢[mysqlsql]同步流程脚本读取mysql中需要同步的企业，在获取需要同步的
Streaming ELT 同步 MySQL 到 StarRocks 慧一居士大数据 mysql 数据库
StreamingELT同步MySQL到StarRocks这篇教程将展示如何基于FlinkCDC快速构建MySQL到StarRocks的StreamingELT作业，包含整库同步、表结构变更同步和分库分表同步的功能。本教程的演示都将在FlinkCDCCLI中进行，无需一行Java/Scala代码，也无需安装IDE。准备阶段准备一台已经安装了Docker的Linux或者MacOS电脑。准备Flink
kafka stream对比flink 后季暖 kafka flink 分布式
KafkaStreams和ApacheFlink虽然都支持实时计算，但它们的定位、架构和适用场景存在显著差异。选择哪一个取决于具体的需求、场景和技术栈。以下是两者的核心区别和适用场景分析：1.定位与架构差异KafkaStreams定位：轻量级库（无需独立集群），深度集成Kafka，适用于构建与Kafka紧密耦合的流处理应用。架构：作为Java库嵌入应用中，依赖Kafka的Broker和Consum
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Flink事件时间案例：电商订单实时分析的奇妙之旅[特殊字符] 狮歌~资深攻城狮 linq c#
Flink事件时间案例：电商订单实时分析的奇妙之旅嘿，小伙伴们！今天咱们通过一个具体的案例来看看Flink在处理事件时间方面的强大威力这个案例就是电商订单的实时分析，就像我们平时在电商平台购物时，平台需要实时了解订单的各种信息一样案例背景假设我们有一个电商平台，每天有大量的用户下单购买各种商品我们希望能够实时统计每个商品的销量，并且按照订单的实际发生时间来进行分析，而不是按照系统处理订单的时间。这
深入理解 Flink 中的 .name() 和 .uid() 方法 Ray.1998 大数据 flink kafka spark hive hadoop
在ApacheFlink中，.name()和.uid()是两个常用的配置方法。虽然它们看起来相似，但它们各自有着不同的功能和用途，理解这两个方法的区别和各自的应用场景，能够帮助开发者更好地管理Flink作业，提升作业的可读性、可维护性和容错性。本文将详细讲解.name()和.uid()的作用、用途以及如何在实际开发中正确使用它们。1.name()方法：为操作命名1.1.作用：.name()方法的作
Flink Checkpoint机制详解 Ray.1998 大数据 flink 大数据开发语言 spark zookeeper kafka hive
在分布式流处理系统中，容错性和一致性是核心要求。ApacheFlink作为流处理的领先框架，提供了一种强大的机制来确保系统的容错性与数据的一致性，这就是Flink的Checkpoint机制。通过定期保存应用程序的状态快照，Flink能够在系统发生故障时迅速恢复到最近的一致状态，并且提供精确一次（exactly-once）的语义保证。本文将详细介绍Flink的Checkpoint机制，包括其触发方式
Spring Boot中整合Flink CDC 数据库变更监听器来实现对MySQL数据库坚定信念，勇往无前 java 数据库 spring boot flink
FlinkCDC（ChangeDataCapture）是Flink的一种数据实时获取的扩展，用于捕获数据库中的数据变化，并且通过实时流式处理机制来操作这些变化的数据，在FlinkCDC中通过Debezium提供的数据库变更监听器来实现对MySQL数据库的监听操作，通过与SpringBoot技术的集成可以更加高效的实现数据实时同步的操作。下面我们就来介绍一下如何在SpringBoot中集成Flink
华为云FusionInsight MRS FlinkSQL 复杂嵌套Json解析最佳实践华为云技术精粹云计算华为云
背景说明随着流计算的发展，挑战不再仅限于数据量和计算量，业务变得越来越复杂，开发者可能是资深的大数据从业者、初学Java的爱好者，或是不懂代码的数据分析者。如何提高开发者的效率，降低流计算的门槛，对推广实时计算非常重要。SQL是数据处理中使用最广泛的语言，它允许用户简明扼要地展示其业务逻辑。Flink作为流批一体的计算引擎，致力于提供一套SQL支持全部应用场景，FlinkSQL的实现也完全遵循AN
图数据库的易用性—GES与Flink的对接华为云技术精粹云计算华为云
数字化时代，业务的实时处理需求越来越迫切，实时预警、实时风控、实时推荐等，Flink作为新一代流批统一的计算引擎，具有独特的天然流式计算特性和更为先进的架构设计的特点，它可以从不同的第三方存储引擎中读取数据，进行处理，然后再写出到另外的存储引擎中。GES拥抱变化，开发了与Flink的对接工具GES-Flink-Connector。GES-Flink-Connector是一款自定义的离线/实时数据同
消息中间件 --- Apache Pulsar johnrui 云计算
使用场景，参考地址：最佳实践｜ApachePulsar在拉卡拉的技术实践_开源_ApachePulsar_InfoQ写作社区场景1：流式队列场景2：消息队列：OpenMessaging协议实现（透明层协议）场景3：流式队列：自定义Kafka0.8-Source（Source开发）场景4：流式队列：Function消息过滤（消息过滤）场景5：流式队列：PulsarFlinkConnector流式计算
Flink-02-flink技术架构及工作原理 TRX1024 Flink
Flink组件栈自下而上，分别针对每一层进行解释说明：Deployment该层主要涉及了Flink的部署模式，Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）。Runtime层Runtime层提供了支持Flink计算的全部核心实现，比如：支持分布式Stream处理、JobGraph到ExecutionGraph的映射、调度等等，为上层API层提供基础服
Flink集群架构流量留 Apache Flink FLINK java 运维数据库
在上一章节我们对flink有了一个基本的了解。从它的应用的场景以及它的一些基本的一些核心的一些概念。从本章节开始，我们对flink从它的一个集群的一个架构以及它的一个部署模式着手，去了解flink如何去部署在不同的这样的一个集群的一些资源管理器上面，以及相应的一些原理的一些解析。本节课开始我们了解一下flink的一个集群的一个基本的架构，了解里面核心的一些组件，比如说dropmanager，tas
maven引包爆红 failed to transfer from http://maven.aliyun.com/nexus/content/groups/public during a previ sui5yue6_ maven java
之前一致可以正常使用，然后突然无法引入新的包无法引包org.apache.flink:flink-streaming-java_2.12:pom:1.13.1failedtotransferfromhttp://maven.aliyun.com/nexus/content/groups/publicduringapreviousattempt.Thisfailurewascachedinthelo
《聊聊Flink：大数据世界的神秘“小能手”》狮歌~资深攻城狮大数据技术大数据
《聊聊Flink：大数据世界的神秘“小能手”》宝子们，咱今天来唠唠一个有点神秘的东西——Flink。你要是刚听到这个名字，可能会觉得像什么魔法咒语似的。其实啊，它可没那么玄乎，但确实挺厉害的。一、Flink是啥？简单来说咱先从最简单的概念说起。Flink就像是一个超级快递员‍✈️在大数据的世界里，每天都有海量的数据像包裹一样到处跑。这些数据有的来自咱们的手机，像你刷短视频的记录、购物的信息；有的来
构建多维度用户特征矩阵，开发基于Flink CEP的高风险用户识别模型千叶真尹 linq c#
基于FlinkSQLCEP构建多维度用户特征矩阵与高风险用户识别模型，需结合实时特征计算、动态规则管理和复杂事件检测能力。以下是分步骤实现方案（关键点引用搜索结果中的技术方案）：一、多维度用户特征矩阵构建1.数据源整合实时行为流：通过FlinkSQL连接Kafka，定义用户行为表（如登录、交易事件）：SQLCREATETABLEuser_behavior(user_idSTRING,event_t
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
优化 Flink 消费 Kafka 数据的速度：实战指南 Ray.1998 大数据 flink kafka 大数据
在使用Flink消费Kafka数据时，你可能会遇到消费速率较慢的问题。本文将从Kafka并行消费、批量拉取、Checkpoint频率、ConsumerPoll速率以及Flink任务Slot资源等多个方面，详细解析如何优化Flink消费Kafka的速度。1.增加Kafka并行消费（提高并行度）问题Flink默认的Kafka消费者并行度可能较低，导致消费速度无法充分利用Kafka的吞吐能力。✅解决方案
【Flink实战】Flink网络内存和托管内存 roman_日积跬步-终至千里 #flink 实战 flink 网络服务器
文章目录一、网络内存与托管内存1.网络内存1.1.网络内存的主要作用1.2.网络内存配置项2.托管内存二、网络内存与托管内存的关系1、互相依赖，优化执行性能2、基于任务特性设置内存分配3、内存竞争与背压机制网络内存主要负责Taskmanager之间的网络数据传输的内存，托管内存主要负责Flink的状态计算，比如window等操作。一、网络内存与托管内存1.网络内存网络内存：主要用于任务间（不同的T
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

Flink13基础-DataStream API（转换算子 Transformation）

一、基本转换算子

1. 映射（map）

2. 过滤（filter）

3. 扁平映射（flatMap）一对多

3. 聚合算子（Aggregation）

4. 富函数类（Rich Function Classes）

你可能感兴趣的:(flink)