陆继森

Flink1.10实战：两种分流器Spilt-Select和Side-Outputs

微信公众号：大数据开发运维架构

关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;

如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈

从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读

一、概述

Flink两种分流器Split和Side-Outputs，新版本中Split分流接口已经被置为“deprecated”，Split只可以进行一级分流，不能进行二级分流，Flink新版本推荐使用Side-Outputs分流器，它支持多级分流。

二、分流器使用

我这里有一份演示数据，里面是人的一些籍贯信息，每条数据有5个字段，分别代表：姓名、所在省份、所在城市、年龄、身份证号码，这里一级分流主要是将不同省份的人进行分流、二级分流在一级分流的基础上对各个省份的人进行城市分流，这里先给大家画一个分流流程图：

1.数据准备,人员信息

lujisen1,shandong,jinan,18,370102198606431256lujisen2,jiangsu,nanjing,19,330102198606431256lujisen3,shandong,qingdao,20,370103198606431256lujisen4,jiangsu,suzhou,21,330104198606431256

2.定义一个人员信息类PersonInfo,代码如下：


package com.hadoop.ljs.flink110.split;
/**
 * @author: Created By lujisen
 * @company ChinaUnicom Software JiNan
 * @date: 2020-04-05 09:20
 * @version: v1.0
 * @description: com.hadoop.ljs.flink110.split
 */
public class PersonInfo {
    String name;
    String province;
    String city;
    int age;
    String idCard;
    public String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    public String getProvince() {
        return province;
    }
    public void setProvince(String province) {
        this.province = province;
    }
    public String getCity() {
        return city;
    }
    public void setCity(String city) {
        this.city = city;
    }
    public int getAge() {
        return age;
    }
    public void setAge(int age) {
        this.age = age;
    }
   public String getIdCard() {
        return idCard;
    }
    public void setIdCard(String idCard) {
        this.idCard = idCard;
    }
   public String toString(){
        return "name:"+name +" province:"+province+" city:"+city+" age:"+age+" idCard"+idCard;
    }
}

3.先用Split进行一级分流，代码如下：

package com.hadoop.ljs.flink110.split;

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.collector.selector.OutputSelector;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SplitStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.util.ArrayList;
import java.util.List;
/**
 * @author: Created By lujisen
 * @company ChinaUnicom Software JiNan
 * @date: 2020-04-05 09:14
 * @version: v1.0
 * @description: com.hadoop.ljs.flink110
 */
public class SplitSelectTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment senv= StreamExecutionEnvironment.getExecutionEnvironment();
        /*为方便测试 这里把并行度设置为1*/
        senv.setParallelism(1);

        DataStream sourceData = senv.readTextFile("D:\\projectData\\sideOutputTest.txt");

        DataStream personStream = sourceData.map(new MapFunction() {
            @Override
            public PersonInfo map(String s) throws Exception {
                String[] lines = s.split(",");
                PersonInfo personInfo = new PersonInfo();
                personInfo.setName(lines[0]);
                personInfo.setProvince(lines[1]);
                personInfo.setCity(lines[2]);
                personInfo.setAge(Integer.valueOf(lines[3]));
                personInfo.setIdCard(lines[4]);
                return personInfo;
            }
        });
        //这里是用spilt-slect进行一级分流
        SplitStream splitProvinceStream = personStream.split(new OutputSelector() {
            @Override
            public Iterable select(PersonInfo personInfo) {
                List split = new ArrayList<>();
                if ("shandong".equals(personInfo.getProvince())) {
                    split.add("shandong");
                } else if ("jiangsu".equals(personInfo.getProvince())) {
                    split.add("jiangsu");
                }
                return split;
            }
        });
        DataStream shandong = splitProvinceStream.select("shandong");
        DataStream jiangsu = splitProvinceStream.select("jiangsu");

        /*一级分流结果*/
        shandong.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("山东分流结果:");
        /*一级分流结果*/
        jiangsu.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("江苏分流结果: ");
        senv.execute();
    }
}

分流结果输出：

4.这里如果我们用Split对分流后的山东人进行二级分流，代码如下：


package com.hadoop.ljs.flink110.split;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.collector.selector.OutputSelector;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SplitStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.util.ArrayList;
import java.util.List;
/**
 * @author: Created By lujisen
 * @company ChinaUnicom Software JiNan
 * @date: 2020-04-05 09:14
 * @version: v1.0
 * @description: com.hadoop.ljs.flink110
 */
public class SplitSelectTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment senv= StreamExecutionEnvironment.getExecutionEnvironment();
        /*为方便测试 这里把并行度设置为1*/
        senv.setParallelism(1);

        DataStream sourceData = senv.readTextFile("D:\\projectData\\sideOutputTest.txt");

        DataStream personStream = sourceData.map(new MapFunction() {
            @Override
            public PersonInfo map(String s) throws Exception {
                String[] lines = s.split(",");
                PersonInfo personInfo = new PersonInfo();
                personInfo.setName(lines[0]);
                personInfo.setProvince(lines[1]);
                personInfo.setCity(lines[2]);
                personInfo.setAge(Integer.valueOf(lines[3]));
                personInfo.setIdCard(lines[4]);
                return personInfo;
            }
        });
        SplitStream splitProvinceStream = personStream.split(new OutputSelector() {
            @Override
            public Iterable select(PersonInfo personInfo) {
                List split = new ArrayList<>();
                if ("shandong".equals(personInfo.getProvince())) {
                    split.add("shandong");
                } else if ("jiangsu".equals(personInfo.getProvince())) {
                    split.add("jiangsu");
                }
                return split;
            }
        });
        //到这里一级分流没有问题
        DataStream shandong = splitProvinceStream.select("shandong");
        DataStream jiangsu = splitProvinceStream.select("jiangsu");

        //下面就是二级分流，由于split不支持二级分流，这里会报错
        SplitStream splitSDCityStream = shandong.split(new OutputSelector() {
            @Override
            public Iterable select(PersonInfo personInfo) {
                List split = new ArrayList<>();
                if ("jinan".equals(personInfo.getProvince())) {
                    split.add("jinan");
                } else if ("qingdao".equals(personInfo.getProvince())) {
                    split.add("qingdao");
                }
                return split;
            }
        });
        DataStream jinan = splitSDCityStream.select("jinan");
        DataStream qingdao = splitSDCityStream.select("qingdao");
        jinan.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("山东-济南二级分流结果:");
        qingdao.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("山东-青岛二级分流结果:");
        senv.execute();
    }
}

这里用Split进行二级分流会报错，报错信息如下，建议用side-outputs进行分流：

5.鉴于Spilt不能进行二级分流，我们用Side-Outputs进行二级分流，代码如下：

package com.hadoop.ljs.flink110.split;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.collector.selector.OutputSelector;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.SplitStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;
import java.util.ArrayList;
import java.util.List;
/**
 * @author: Created By lujisen
 * @company ChinaUnicom Software JiNan
 * @date: 2020-04-05 09:14
 * @version: v1.0
 * @description: com.hadoop.ljs.flink110
 */
public class SideOutputTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment senv= StreamExecutionEnvironment.getExecutionEnvironment();
        /*为方便测试 这里把并行度设置为1*/
        senv.setParallelism(1);

        DataStream sourceData = senv.readTextFile("D:\\projectData\\sideOutputTest.txt");

        DataStream personStream = sourceData.map(new MapFunction() {
            @Override
            public PersonInfo map(String s) throws Exception {
                String[] lines = s.split(",");
                PersonInfo personInfo = new PersonInfo();
                personInfo.setName(lines[0]);
                personInfo.setProvince(lines[1]);
                personInfo.setCity(lines[2]);
                personInfo.setAge(Integer.valueOf(lines[3]));
                personInfo.setIdCard(lines[4]);
                return personInfo;
            }
        });
        //定义流分类标识  进行一级分流
        OutputTag shandongTag = new OutputTag("shandong") {};
        OutputTag jiangsuTag = new OutputTag("jiangsu") {};

        SingleOutputStreamOperator splitProvinceStream = personStream.process(new ProcessFunction() {

            @Override
            public void processElement(PersonInfo person, Context context, Collector collector)
                    throws Exception {
                if ("shandong".equals(person.getProvince())) {
                    context.output(shandongTag, person);
                } else if ("jiangsu".equals(person.getProvince())) {
                    context.output(jiangsuTag, person);
                }
            }
        });
        DataStream shandongStream = splitProvinceStream.getSideOutput(shandongTag);
        DataStream jiangsuStream = splitProvinceStream.getSideOutput(jiangsuTag);
        
        /*下面对数据进行二级分流，我这里只对山东的这个数据流进行二级分流，江苏流程也一样*/
        OutputTag jinanTag = new OutputTag("jinan") {};
        OutputTag qingdaoTag = new OutputTag("qingdao") {};

        SingleOutputStreamOperator cityStream = shandongStream.process(new ProcessFunction() {
            @Override
            public void processElement(PersonInfo person, Context context, Collector collector)
                    throws Exception {
                if ("jinan".equals(person.getCity())) {
                    context.output(jinanTag, person);
                } else if ("qingdao".equals(person.getCity())) {
                    context.output(qingdaoTag, person);
                }
            }
        });
        DataStream jinan = cityStream.getSideOutput(jinanTag);
        DataStream qingdao = cityStream.getSideOutput(qingdaoTag);

        jinan.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("山东-济南二级分流结果:");
        qingdao.map(new MapFunction() {
            @Override
            public String map(PersonInfo personInfo) throws Exception {
                return personInfo.toString();
            }
        }).print("山东-青岛二级分流结果:");
        senv.execute();
    }
}

分流结果如下图所示：

至此，分流演示完毕，我们知道Split-Select只能进行一级分流，二Side-Ouputs可以进行二级及以上分流，这里多级分流我就不再演示，道理是一样的，平时我们也经常用Fliter进行分流，那个比较简单，有空自己实操下就行，感谢关注！！！

如果觉得我的文章能帮到您，请关注微信公众号“大数据开发运维架构”，并转发朋友圈，谢谢支持！！！

Flink 源码笔记03—StreamGraph到JobGraph 董嘻嘻 Flink源码笔记 flink java big data
文章目录简介入口函数traverseStreamGraphAndGenerateHashesgenerateDeterministicHashgenerateUserSpecifiedHashsetChainingisChainable简介JobGraph可以认为是StreamGraph的优化图，它将一些符合特定条件的operators合并成一个operatorchain，以减少数据在节点之间序列
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
flink反压详解 24k小善 flink 架构大数据 AI编程
Flink背压/反压（Backpressure）详解在ApacheFlink中，背压（Backpressure）是一个常见的性能问题，通常表现为数据流在某些节点处积压，导致整体处理速度下降甚至停滞。背压的发生可能源于硬件资源限制、任务逻辑复杂性、数据分布不均或外部系统瓶颈等因素。本文将从多个角度详细讲解Flink的背压问题，包括其成因、影响以及解决方案。一、什么是Flink背压？背压是指在数据流处
十四、Flink源码阅读--JobGraph生成过程灰二和杉菜 Apache Flink Flink JobGraph生成源码分析
上篇分析了client整个提交任务过程，最终提交的是一个JobGraph对象，那么是如何从jar或sql任务转为JobGraph的呢，这篇我们仔细研究一下,版本为1.6.3源码分析上篇我们介绍client端提交任务最终会到到ClusterClient.run()方法，就在这个方法中封装了JobGraph的步骤。publicJobSubmissionResultrun(FlinkPlancompil
最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理 Toroidals 大数据组件安装部署教程 hudi1.0.1 源码编译教程最新
1.最新ApacheHudi1.0.1源码编译2.Flink、Spark、Hive集成Hudi1.0.13.flinkstreaming写入hudi目录1.版本介绍2.安装maven2.1.下载maven2.2.设置环境变量2.3.添加Maven镜像3.编译hudi3.1.下载hudi源码3.2.修改hudi源码3.3.修改hudi-1.0.1/pom.xml，注释或去掉410行内容3.4.安装c
Flink提交pyflink任务 Leo_Hu666 flink 大数据 python pyflink
1.官方文档：flink1.14:https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/cli/#submitting-pyflink-jobsflink1.18:https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deploy
Flink在指定时间窗口内统计均值，超过阈值后报警小的~~ flink 均值算法大数据
1、需求统计物联网设备收集上来的温湿度数据，如果5分钟内的均值超过阈值(30摄氏度)则发出告警消息，要求时间窗口和阈值可在管理后台随时修改，实时生效(完成当前窗口后下一个窗口使用最新配置)。物联网设备的数据从kafka中读取，配置数据从mysql中读取，有个管理后台可以调整窗口和阈值大小。2、思路使用flink的双流join，配置数据使用广播流，设备数据使用普通流。3、实现代码packagecu.
Flink SQL 优化实战 - 维表 JOIN 优化腾讯云大数据大数据数据库 flink sql
作者：龙逸尘，腾讯CSIG高级工程师背景介绍维表（DimensionTable）是来自数仓建模的概念。在数仓模型中，事实表（FactTable）是指存储有事实记录的表，如系统日志、销售记录等，而维表是与事实表相对应的一种表，它保存了事实表中指定属性的相关详细信息，可以跟事实表做关联；相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。在实际生产中，我们经常会有这样的需求，以原始数据流
阿里云RDS到亚马逊云RDS的实时数据同步方案详解 ivwdcwso 运维阿里云云计算 aws kda 数据同步
1.需求背景在当今的多云环境中,企业经常需要在不同云平台之间同步数据。本文将详细介绍如何实现从阿里云RDSMySQL数据库到亚马逊云RDSMySQL数据库的实时数据同步。这种同步对于数据备份、跨区域数据访问、数据分析等场景都非常有用。2.方案概述我们将使用AWSKinesisDataAnalytics(KDA)作为核心组件来实现这个实时同步方案。KDA基于ApacheFlink,支持使用SQL或J
Flink 安装阿里云docker compose部署及相关组件 vellerzheng 部署运维 flink docker 大数据
Flink安装脚本文件version:"2.2"services:jobmanager:image:flink:1.15.2-java11expose:-"6123"ports:-"8081:8081"command:jobmanagervolumes:-/home:/homeenvironment:-JOB_MANAGER_RPC_ADDRESS=jobmanagerprivileged:tru
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
Flink-k8s弹性扩缩容原理和部署步骤 spring208208 flink kubernetes 贪心算法
背景和现状目前行内提交flink作业采用Nativekubernetes模式，提交作业时会指定并行度和taskmanager使用的内存及cpu数量。这种情况下会导致在作业运行高峰可能存在资源不足问题运行低峰又会造成资源浪费，这种粗放的使用资源的模式在实时计算业务量不多的时候还可以勉强接受，而随着实时计算业务的增多，则会造成大量的资源浪费和性能瓶颈。为了使存储和计算资源得到更加合理有效的使用，能跟据
20250124 Flink 增量聚合 vs 全量聚合靈臺清明 Flink flink
1.增量聚合vs全量聚合(1)增量聚合（ReduceFunction/AggregateFunction）工作方式：逐步计算：每一条数据到达窗口时，立即与当前聚合结果结合，生成新的中间结果。仅保存中间状态：内存中只保留当前的聚合值（如累加和、最大值等），不保存原始数据。触发窗口计算时：直接输出最终的聚合结果，无需遍历所有数据。示例：计算窗口内数字的和DataStreamnumbers=...;nu
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践大数据flink阿里云数据分析
摘要：本文整理自FlinkForwardAsia2024大会中阿里云DataWorks数据集成团队陈吉通的分享，主要分享FlinkCDC在阿里云DataWorks数据集成入湖场景的应用实践。内容分为以下四个部分：1.阿里云DataWorks数据集成介绍2.DataWorks数据集成入湖解决方案的架构和原理3.DataWorks数据集成入湖场景的产品化案例分享4.未来规划一、阿里云DataWorks
Flink-提交job 笨鸟先-森大数据 flink
目录一、Flink流处理扩展及说明二、Flink部署三、Standalone模式四、在命令行提交job：五、在网页中提交flinkjob一、Flink流处理扩展及说明涉及：自定义线程优先级=socket流中读取数据并行度只能是11、特定的算子设定了并行度最优先2、算子没有设定并行度就是用整体运行环境设置的并行度3、环境的并行度没有设置就使用提交时候提交参数设置的并行度4、都没有设置就遵循flink
Flink 实践教程-入门（10）：Python作业的使用腾讯云大数据数据库大数据 java python 数据分析
作者：腾讯云流计算Oceanus团队流计算Oceanus简介流计算Oceanus是大数据产品生态体系的实时化分析利器，是基于ApacheFlink构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算Oceanus以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。教程链接：Flink实践教程-入门（10）：Python作业的使用-云+社区-
pyflink作业提交的踩坑过程，看完少走两个星期弯路 Li_yi_chao 大数据
flink在努力地将Python生态和大数据生态融合，但目前的版本还不够成熟，尤其是在官方对python现有资料有限的情况下，用户想要使用python完成一个flinkjob并提交到flink平台上，还是有很多雷需要踩的。以下对pyflink环节问题，pythonjob编写到提交做了总结，可减少不必要的弯路。一、部署环境JDK1.8+&Python3.5+(3.7.6)&apache-flink1
Paimon实战 -- paimon原理解析阿华田512 Paimon学习必读系列 paimon 数据湖 paimon介绍 flink写入
一.简介ApachePaimon原名FlinkTableStore，2022年1月在ApacheFlink社区从零开始研发，Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。二.基本概念1、快照（Snapshot）快照捕获表在某个时间点的状态。用户可以通过最新的快照访
paimon实战 --核心原理和Flink应用进阶阿华田512 Paimon学习必读系列 Flink学习必读系列 flink 大数据 flink读写 paimon 数据湖
简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代的StreamingLakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink社区内部孵化了FlinkTableStore（简称FTS）子项目，一个真正面向Streaming以及Realtime的数据湖存储项目。2023年3月1
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
flink实时集成利器 - apache seatunnel - 核心架构详解 24k小善 flink apache 架构
SeaTunnel（原名Waterdrop）是一个分布式、高性能、易扩展的数据集成平台，专注于大数据领域的数据同步、数据迁移和数据转换。它支持多种数据源和数据目标，并可以与ApacheFlink、Spark等计算引擎集成。以下是SeaTunnel的核心架构详解：SeaTunnel核心架构SeaTunnel的架构设计分为以下几个核心模块：1.数据源（Source）功能：负责从外部系统读取数据。支持的
Flink怎么保证Exactly - Once 语义我明天再来学Web渗透后端技术总结 flink 大数据开源开发语言
Exactly-Once语义是消息处理领域中的一种严格数据处理语义，指每条数据都只会被精确消费和处理一次，既不会丢失，也不会重复。以下从消息传递语义对比、实现方式、应用场景等方面详细介绍：与其他消息传递语义对比在消息传递中，常见三种语义：最多一次（at-most-once）：消息可能丢失，但绝不会重复。至少一次（at-least-once）：消息不会丢失，但可能重复。精确一次（exactly-on
Flink内存配置和优化 Leo_Hu666 flink 大数据
在ApacheFlink1.18的Standalone集群中，内存设置是一个关键配置，它直接影响集群的性能和稳定性。Flink的内存配置主要包括JobManager和TaskManager的内存分配。以下是如何在Standalone模式下配置内存的详细说明。JobManager内存配置JobManager是Flink集群的主节点，负责协调任务调度和资源管理。它的内存配置可以通过以下参数进行调整：配
Flink入门-通过DataStream Api实现消费欺诈检测似水_逆行 Flink flink 大数据
1信用卡消费欺诈信用卡消费欺诈是指在信用卡的使用过程中，通过不正当手段获取或使用信用卡资金，侵犯他人或银行的财产权益的行为。这种行为可能包括但不限于盗刷、伪造信用卡、冒用他人信用卡、恶意透支等2模拟场景我们模拟不同账户的信用卡消费记录，通过分析实时的消费记录，针对常见的消费欺诈进行检测，检测出来的欺诈行为进行告警。3核心流程与代码1）通过TransactionSource构建消费记录，主要包含ac
Flink-DataStream快速上手 code@fzk 大数据 flink 大数据 java
文章目录1.安装部署安装2.执行任务Standalone模式启动/停止执行任务Yarn模式Session-cluster模式启动yarn-session执行任务Per-Job-Cluster模式3.执行环境EnvironmentgetExecutionEnvironment（常用）createLocalEnvironmentcreateRemoteEnvironmentSource、SinkTra
Flink之DataStream API 概述小虎牙_43437171 flink flink 大数据 java
DataStreamAPI概述前言一、DataStreamAPI应用实例DataStream程序主要包含3部分：1、StreamExecutionEnvironment初始化：该部分主要创建和初始化StreamExecutionEnvironment，提供通过DataStreamAPI构建Flink作业需要的执行环境，包括设定ExecutionConfig、CheckpointConfig等配置信
Flink KafkaConsumer offset是如何提交的红烛暗盗梦 flink 大数据
一、fllink内部配置client.id.prefix，指定用于KafkaConsumer的客户端ID前缀partition.discovery.interval.ms，定义KafkaSource检查新分区的时间间隔。请参阅下面的动态分区检查一节register.consumer.metrics指定是否在Flink中注册KafkaConsumer的指标commit.offsets.on.chec
Java分布式流处理，flink+kafka实现电商网站个性化商品推荐系统图苑分布式 java flink
文章目录戳底部名片，一起变现技术栈选择设计实现思路实现步骤及示例代码1.数据采集2.数据预处理3.特征工程4.模型训练5.结果输出6.前端展示戳底部名片，一起变现在现代电商环境中，用户每天都会浏览大量商品页面，而这些行为数据中蕴藏着丰富的信息。通过分析用户的浏览历史、购买记录以及对特定商品的兴趣程度，我们可以为用户提供更加个性化的商品推荐，从而提升用户体验和转化率。为了实现实时的个性化推荐，我们需
Flink 内存模型各部分大小计算公式 bluedraam_pp flink 大数据
Flink的运行平台如果Flink是运行在yarn或者standalone模式的话，其实都是运行在JVM的基础上的，所以首先Flink组件运行所需要给JVM本身要耗费的内存大小。无论是JobManager或者TaskManager，他们JVM内存的大小都是一样的，都是由JVMmetaspace和JVMoverhead组成的。metaspace元空间的部分，保存JVM中class类等区域，然后JVM
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Flink1.10实战：两种分流器Spilt-Select和Side-Outputs

你可能感兴趣的:(Flink)