daijiguo

Flink原理：定时器

文章目录

- - 1. 用途
  - 2. 示例
  - 3. 原理
  - - 3.1 注册
    - 3.2 触发
    - 3.3 延迟队列state
    - 3.4 定时器注意事项

1. 用途

Flink定时器存在于窗口的触发，窗口状态的清理，TTL等诸多用途，因此搞清楚其原理对于理解这些知识点至关重要。

2. 示例

在flink实时处理中，涉及到延时处理可使用KeyedProcessFunction来完成，KeyedProcessFunction是flink提供面向用户的low level api，可以访问状态、当前的watermark或者当前的processingtime, 更重要的是提供了注册定时器的功能，分为：

注册处理时间定时器，直到系统的processingTime超过了注册的时间就会触发定时任务
注册事件时间定时器，直到watermark值超过了注册的时间就会触发定时任务另外也可以删除已经注册的定时器。

示例代码如下：

// 创建bean类CountWithTimestamp，里面有三个字段
package com.bolingcavalry.keyedprocessfunction;

public class CountWithTimestamp {
     
    public String key;
    public long count;
    public long lastModified;
}

// 创建FlatMapFunction的实现类Splitter，作用是将字符串分割后生成多个Tuple2实例，f0是分隔后的单词，f1等于1：
package com.bolingcavalry;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;
import org.apache.flink.util.StringUtils;

public class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
     
    @Override
    public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {
     

        if(StringUtils.isNullOrWhitespaceOnly(s)) {
     
            System.out.println("invalid line");
            return;
        }

        for(String word : s.split(" ")) {
     
            collector.collect(new Tuple2<String, Integer>(word, 1));
        }
    }
}

// 最后是整个逻辑功能的主体：ProcessTime.java，这里面有自定义的KeyedProcessFunction子类，还有程序入口的main方法
package com.bolingcavalry.keyedprocessfunction;

import com.bolingcavalry.Splitter;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks;
import org.apache.flink.streaming.api.functions.KeyedProcessFunction;
import org.apache.flink.streaming.api.watermark.Watermark;
import org.apache.flink.util.Collector;
import java.text.SimpleDateFormat;
import java.util.Date;


/**
 * @author will
 * @email [email protected]
 * @date 2020-05-17 13:43
 * @description 体验KeyedProcessFunction类(时间类型是处理时间)
 */
public class ProcessTime {
     

    /**
     * KeyedProcessFunction的子类，作用是将每个单词最新出现时间记录到backend，并创建定时器，
     * 定时器触发的时候，检查这个单词距离上次出现是否已经达到10秒，如果是，就发射给下游算子
     */
    static class CountWithTimeoutFunction extends KeyedProcessFunction<Tuple, Tuple2<String, Integer>, Tuple2<String, Long>> {
     

        // 自定义状态
        private ValueState<CountWithTimestamp> state;

        @Override
        public void open(Configuration parameters) throws Exception {
     
            // 初始化状态，name是myState
            state = getRuntimeContext().getState(new ValueStateDescriptor<>("myState", CountWithTimestamp.class));
        }

        @Override
        public void processElement(
                Tuple2<String, Integer> value,
                Context ctx,
                Collector<Tuple2<String, Long>> out) throws Exception {
     

            // 取得当前是哪个单词
            Tuple currentKey = ctx.getCurrentKey();

            // 从backend取得当前单词的myState状态
            CountWithTimestamp current = state.value();

            // 如果myState还从未没有赋值过，就在此初始化
            if (current == null) {
     
                current = new CountWithTimestamp();
                current.key = value.f0;
            }

            // 单词数量加一
            current.count++;

            // 取当前元素的时间戳，作为该单词最后一次出现的时间
            current.lastModified = ctx.timestamp();

            // 重新保存到backend，包括该单词出现的次数，以及最后一次出现的时间
            state.update(current);

            // 为当前单词创建定时器，十秒后后触发
            long timer = current.lastModified + 10000;

            ctx.timerService().registerProcessingTimeTimer(timer);

            // 打印所有信息，用于核对数据正确性
            System.out.println(String.format("process, %s, %d, lastModified : %d (%s), timer : %d (%s)\n\n",
                    currentKey.getField(0),
                    current.count,
                    current.lastModified,
                    time(current.lastModified),
                    timer,
                    time(timer)));

        }

        /**
         * 定时器触发后执行的方法
         * @param timestamp 这个时间戳代表的是该定时器的触发时间
         * @param ctx
         * @param out
         * @throws Exception
         */
        @Override
        public void onTimer(
                long timestamp,
                OnTimerContext ctx,
                Collector<Tuple2<String, Long>> out) throws Exception {
     

            // 取得当前单词
            Tuple currentKey = ctx.getCurrentKey();

            // 取得该单词的myState状态
            CountWithTimestamp result = state.value();

            // 当前元素是否已经连续10秒未出现的标志
            boolean isTimeout = false;

            // timestamp是定时器触发时间，如果等于最后一次更新时间+10秒，就表示这十秒内已经收到过该单词了，
            // 这种连续十秒没有出现的元素，被发送到下游算子
            if (timestamp == result.lastModified + 10000) {
     
                // 发送
                out.collect(new Tuple2<String, Long>(result.key, result.count));

                isTimeout = true;
            }

            // 打印数据，用于核对是否符合预期
            System.out.println(String.format("ontimer, %s, %d, lastModified : %d (%s), stamp : %d (%s), isTimeout : %s\n\n",
                    currentKey.getField(0),
                    result.count,
                    result.lastModified,
                    time(result.lastModified),
                    timestamp,
                    time(timestamp),
                    String.valueOf(isTimeout)));
        }
    }


    public static void main(String[] args) throws Exception {
     
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 并行度1
        env.setParallelism(1);

       // 处理时间
        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

        // 监听本地9999端口，读取字符串
        DataStream<String> socketDataStream = env.socketTextStream("localhost", 9999);

        // 所有输入的单词，如果超过10秒没有再次出现，都可以通过CountWithTimeoutFunction得到
        DataStream<Tuple2<String, Long>> timeOutWord = socketDataStream
                // 对收到的字符串用空格做分割，得到多个单词
                .flatMap(new Splitter())
                // 设置时间戳分配器，用当前时间作为时间戳
                .assignTimestampsAndWatermarks(new AssignerWithPeriodicWatermarks<Tuple2<String, Integer>>() {
     

                    @Override
                    public long extractTimestamp(Tuple2<String, Integer> element, long previousElementTimestamp) {
     
                        // 使用当前系统时间作为时间戳
                        return System.currentTimeMillis();
                    }

                    @Override
                    public Watermark getCurrentWatermark() {
     
                        // 本例不需要watermark，返回null
                        return null;
                    }
                })
                // 将单词作为key分区
                .keyBy(0)
                // 按单词分区后的数据，交给自定义KeyedProcessFunction处理
                .process(new CountWithTimeoutFunction());

        // 所有输入的单词，如果超过10秒没有再次出现，就在此打印出来
        timeOutWord.print();

        env.execute("ProcessFunction demo : KeyedProcessFunction");
    }

    public static String time(long timeStamp) {
     
        return new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date(timeStamp));
    }
}

3. 原理

上图表示flink延时调用的总体流程，其设计也是借助于优先级队列（小顶堆）来完成，堆使用二叉树实现，而二叉树使用数组存储。队列中存储的数据结构如下：

| Key | Namespace | Timestamp |

Key 表示KeyedStream中提取的Key
Namespace 表示命名空间，在普通的KeyedStream中是固定的VoidNamespace,在WindowedStream表示的是Window
Timestamp表示触发的时间戳，long类型优先级队列使用其Timestamp升序排序，每一次的定时触发都是与固定的key与时间戳绑定，即使注册多次相同的key与时间戳，但是也只会触发一次。

3.1 注册

ProcessingTime类型注册使用registerProcessingTimeTimer，传入的是一个触发的时间戳，内部会将获取到当前的Key、VoidNamespace 、timestamp封装成为一个InternalTimer对象存入优先级队列（小顶堆）中，并且会使用ScheduledThreadPoolExecutor注册一个触发时间与当前时间差值大小的延时调用；
EventTime类型注册使用registerEventTimeTimer,与ProcessingTime类型注册不同的是不需要做延时调用，并且二者使用的是不同的队列

3.2 触发

ProcessingTime类型的定时触发由注册的时候的延时调度触发，会不断遍历优先级队列触发任务，直到获取到InternalTimer对象中的时间大于延时调度时间（ScheduledThreadPoolExecutor中注册的延时时间，亦即while逻辑再次执行的时间）；

public class InternalTimerServiceImpl<K, N> implements InternalTimerService<N>, ProcessingTimeCallback {
     

  @Override
	public void onProcessingTime(long time) throws Exception {
     
		// null out the timer in case the Triggerable calls registerProcessingTimeTimer()
		// inside the callback.
		nextTimer = null;

		InternalTimer<K, N> timer;

		while ((timer = processingTimeTimersQueue.peek()) != null && timer.getTimestamp() <= time) {
     
			processingTimeTimersQueue.poll();
			keyContext.setCurrentKey(timer.getKey());
			triggerTarget.onProcessingTime(timer);
		}

    // 这段逻辑调用processingTimeService实现类SystemProcessingTimeService中的registerTimer方法，该方法中将上次遍历中的最后一个timer的触发时间注册到ScheduledThreadPoolExecutor线程池中，实现再次延迟调用当前  InternalTimerServiceImpl#onProcessingTime，以此实现while逻辑的不断执行，即优先级队列的不断遍历
		if (timer != null && nextTimer == null) {
     
			nextTimer = processingTimeService.registerTimer(timer.getTimestamp(), this);
		}
	}
  
}

可见，当onProcessingTime()方法被触发回调时，就会按顺序从队列中获取到比时间戳time小的所有Timer，并挨个执行Triggerable.onProcessingTime()方法，也就是在KeyedProcessOperator类中的同名方法，用户自定义的onTimer()逻辑也就被执行了。

EventTime类型的定时器触发是由Watermark决定的，同样会不断遍历优先级队列触发任务，直到获取到InternalTimer对象中的时间大于Watermark值；

3.3 延迟队列state

为了保证任务重启仍然能够执行未完成的延时调用，flink会在checkpoint过程中将优先级队列中的数据一起持久化到hdfs上，待下次任务重启仍然能够获取到这部分数据。由于EventTime类型定时器是由Watermark,那么只要任务产生watermark就能正常触发恢复的定时任务，但是ProcessingTime类型的定时器是由系统注册的延时调度来触发，所以在重启的时候获取到队列中第一个元素来注册延时调度，保证其恢复之后的正常触发。

3.4 定时器注意事项

优先级队列默认使用的是内存存储，在一些数据量比较大并且重度依赖定时触发的任务会占用比较大的内存，可以选择Rocksdb存储定时信息
flink为了保证定时触发操作(onTimer)与正常处理(processElement)操作的线程安全，做了同步处理，在调用触发时必须要获取到锁，也就是二者同时只能有一个执行，因此一定要保证onTimer处理的速度，以免任务发生阻塞。

如果不做同步处理，processElement方法中会进行state.update()，onTimer中会进行state.value()，两者会发生不一致从而引发线程安全问题

参考：
https://blog.csdn.net/u013516966/article/details/102927825
https://mp.weixin.qq.com/s/kRpG2lQRgvIi7VHBBXV-KQ

Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
FlinkCDC3.3 使用 Mysql 8.4 报错 _lizhiqiang mysql 数据库 flink flinkcdc seatunnel
一、报错日志Causedby:io.debezium.DebeziumException:org.apache.flink.util.FlinkRuntimeException:Cannotreadthebinlogfilenameandpositionvia'SHOWMASTERSTATUS'.Makesureyourserveriscorrectlyconfiguredatorg.apache
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Flink实时流处理入门与实践随风九天 spring java Flink 实时流
一、引言1.1实时流处理的重要性在当今数据驱动的时代，实时数据处理变得越来越重要。企业需要从不断产生的大量数据中快速提取有价值的信息，以支持决策制定和业务优化。实时流处理技术能够实时处理数据流，提供即时的洞察和响应，从而提高业务效率和竞争力。1.2Flink简介ApacheFlink是一个开源的分布式流处理框架，支持批处理和流处理。Flink提供了高吞吐量、低延迟和精确一次（exactly-onc
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
Flink 实战：如何计算实时热门合约 WuJiWeb3 区块链链上数据分析 flink 大数据 web3 数据分析智能合约 kafka big data
本文将通过使用Flink框架实现实时热门合约需求。实际业务过程中，如何判断合约是否属于热门合约，可以从以下几个方面进行分析，比如：交易数量：合约被调用的次数可以作为其热门程度的指标之一。交易金额：合约处理的资金量也是评判热门程度的重要指标。活跃用户数量：调用合约的用户数量可以反映合约的受欢迎程度。交易频率：合约的调用频率可以反映其热门程度和使用情况。但我们本次目的主要是关于学习FlinkAPI的一
Hadoop、Spark、Flink Shuffle对比逆袭的小学生 hadoop spark flink
一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认
大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件 2401_84181942 程序员大数据 flink 架构
于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构，都是以分布式作为系统架构的基本形态的。我们已经知道，Flink就是一个分布式的并行流处理系统。简单来说，它会由多个进
大数据运维实战指南：零基础入门与核心技术解析（第一篇） emmm形成中大数据运维
大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark运维指南第六篇：大数据监控体系与自动化运维第七篇：云原生时代的大数据运维实践第八篇：数据安全与合规性管理第九篇：性能调优与故障排查案例集第
快慢指针【等分链表、判断链表中是否存在环】山风wind JAVA基础链表 java 网络
一、等分链表：找到链表的中间节点Java实现classListNode{intval;ListNodenext;ListNode(intval){this.val=val;this.next=null;}}publicclassMiddleOfLinkedList{publicListNodefindMiddleNode(ListNodehead){if(head==null){returnnul
flink入门 Thomas2143 总结 flink scala kafka
flink安装flink本地安装demo运行本地模式安装|ApacheFlinkflink1.13.1为例:cd/optwgethttps://mirrors.advancedhosters.com/apache/flink/flink-1.13.1/flink-1.13.1-bin-scala_2.12.tgz
Apache Flink详解：流处理与批处理的强大框架微笑听雨。大数据 apache flink 大数据
ApacheFlink详解：流处理与批处理的强大框架ApacheFlink是一个开源的流处理框架，旨在处理大规模数据流。Flink能够处理实时流数据和批处理数据，具有高吞吐量、低延迟、容错等特性。以下是对Flink的详细介绍：核心概念流与批处理:流处理(StreamProcessing):持续不断地处理实时生成的数据流。批处理(BatchProcessing):处理已经收集好的静态数据集。Data
Flink的市场竞争力：大数据浪潮中的“潜力股”还是“青铜”？狮歌~资深攻城狮大数据
Flink的市场竞争力：大数据浪潮中的“潜力股”还是“青铜”？嘿，各位小伙伴！今天咱来聊聊Flink在市场中的竞争力这个超有意思的话题。你要是搞大数据的，那肯定对Flink不陌生；要是还不太懂的，也别担心，咱就像唠家常一样把这事给你讲清楚。一、Flink市场竞争力啥意思？咱先说说这市场竞争力是个啥。打个比方，它就好比一场商场大促，每个品牌都在拼命展示自己的优势，吸引顾客掏钱包。Flink在市场里也
【Flink】（二）详解 Flink 运行架构_flink的运行架构负荷分担是什么 2301_82242724 flink 架构大数据
作业管理器（JobManager）、资源管理器（ResourceManager）、任务管理器（TaskManager），以及分发器（Dispatcher）。因为Flink是用Java和Scala实现的，所以所有组件都会运行在Java虚拟机上。每个组件的职责如下：作业管理器（JobManager）控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager所控制执行。Jo
flink分发策略详解 24k小善 flink 大数据 java
一、分发策略核心逻辑与分类Flink的数据分发策略决定了数据在算子间上下游的传输方式，直接影响作业的并行度利用、负载均衡、网络开销。其核心分类如下：1.本地通信策略Forward适用场景：上下游算子并行度相同且为一对一传输（如Source→Map）。特点：数据不跨节点，直接通过内存传递，零网络开销。限制：必须保证上下游并行度严格一致，否则抛出异常。Rescale适用场景：上下游并行度成整数倍关系（
【Flink银行反欺诈系统设计方案】1.短时间内多次大额交易场景的flink与cep的实现 *星星之火* Flink反欺诈 flink 大数据 flink反欺诈
【flink应用系列】1.Flink银行反欺诈系统设计方案1.经典案例：短时间内多次大额交易1.1场景描述1.2风险判定逻辑2.使用Flink实现2.1实现思路2.2代码实现2.3使用Flink流处理3.使用FlinkCEP实现3.1实现思路3.2代码实现4.总结1.经典案例：短时间内多次大额交易1.1场景描述规则1：单笔交易金额超过10,000元。规则2：同一用户在10分钟内进行了3次或更多次交
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$