gongpulin

Flink DataStream API 中的多面手——Process Function详解

https://mp.weixin.qq.com/s/SOCAE-t25DPVlQMxuOT0jw

引言

在Flink的时间与watermarks详解这篇文章中，阐述了Flink的时间与水位线的相关内容。你可能不禁要发问，该如何访问时间戳和水位线呢？首先通过普通的DataStream API是无法访问的，需要借助Flink提供的一个底层的API——Process Function。Process Function不仅能够访问时间戳与水位线，而且还可以注册在将来的某个特定时间触发的计时器(timers)。除此之外，还可以将数据通过Side Outputs发送到多个输出流中。这样以来，可以实现数据分流的功能，同时也是处理迟到数据的一种方式。下面我们将从源码入手，结合具体的使用案例来说明该如何使用Process Function。

简介

Flink提供了很多Process Function，每种Process Function都有各自的功能，这些Process Function主要包括：

ProcessFunction

KeyedProcessFunction

CoProcessFunction

ProcessJoinFunction

ProcessWindowFunction

ProcessAllWindowFunction

BaseBroadcastProcessFunction

KeyedBroadcastProcessFunction

BroadcastProcessFunction

继承关系图如下：

从上面的继承关系中可以看出，都实现了RichFunction接口，所以支持使用open()、close()、getRuntimeContext()等方法的调用。从名字上可以看出，这些函数都有不同的适用场景，但是基本的功能是类似的，下面会以KeyedProcessFunction为例来讨论这些函数的通用功能。

源码

KeyedProcessFunction

/** * 处理KeyedStream流的低级API函数 * 对于输入流中的每个元素都会触发调用processElement方法.该方法会产生0个或多个输出. * 其实现类可以通过Context访问数据的时间戳和计时器(timers).当计时器(timers)触发时，会回调onTimer方法. * onTimer方法会产生0个或者多个输出，并且会注册一个未来的计时器. * * 注意：如果要访问keyed state和计时器(timers)，必须在KeyedStream上使用KeyedProcessFunction. * 另外，KeyedProcessFunction的父类AbstractRichFunction实现了RichFunction接口，所以，可以使用 * open()，close()及getRuntimeContext()方法. * * @param  key的类型 * @param  输入元素的数据类型 * @param  输出元素的数据类型 */@PublicEvolvingpublic abstract class KeyedProcessFunction extends AbstractRichFunction {
  private static final long serialVersionUID = 1L;  /**   * 处理输入流中的每个元素   * 该方法会输出0个或者多个输出，类似于FlatMap的功能   * 除此之外，该方法还可以更新内部状态或者设置计时器(timer)   * @param value 输入元素   * @param ctx  Context，可以访问输入元素的时间戳，并其可以获取一个时间服务器(TimerService)，用于注册计时器(timers)并查询时间   *  Context只有在processElement被调用期间有效.   * @param out  返回的结果值   * @throws Exception   */  public abstract void processElement(I value, Context ctx, Collector out) throws Exception;
  /**   * 是一个回调函数，当在TimerService中注册的计时器(timers)被触发时，会回调该函数   * @param timestamp 触发计时器(timers)的时间戳   * @param ctx  OnTimerContext，允许访问时间戳，TimeDomain枚举类提供了两种时间类型：   * EVENT_TIME与PROCESSING_TIME   * 并其可以获取一个时间服务器(TimerService)，用于注册计时器(timers)并查询时间   * OnTimerContext只有在onTimer方法被调用期间有效   * @param out 结果输出   * @throws Exception   */  public void onTimer(long timestamp, OnTimerContext ctx, Collector out) throws Exception {}  /**   * 仅仅在processElement()方法或者onTimer方法被调用期间有效   */  public abstract class Context {
    /**     * 当前被处理元素的时间戳，或者是触发计时器(timers)时的时间戳     * 该值可能为null，比如当程序中设置的时间语义为：TimeCharacteristic#ProcessingTime     * @return     */    public abstract Long timestamp();
    /**     * 访问时间和注册的计时器(timers)     * @return     */    public abstract TimerService timerService();
    /**     * 将元素输出到side output (侧输出)     * @param outputTag 侧输出的标记     * @param value 输出的记录     * @param      */    public abstract  void output(OutputTag outputTag, X value);    /**     * 获取被处理元素的key     * @return     */    public abstract K getCurrentKey();  }  /**   * 当onTimer方法被调用时，才可以使用OnTimerContext   */  public abstract class OnTimerContext extends Context {    /**     * 触发计时器(timers)的时间类型，包括两种：EVENT_TIME与PROCESSING_TIME     * @return     */    public abstract TimeDomain timeDomain();    /**     * 获取触发计时器(timer)元素的key     * @return     */    @Override    public abstract K getCurrentKey();  }}

上面的源码中，主要有两个方法，分析如下：

processElement(I value, Context ctx, Collector out)

该方法会对流中的每条记录都调用一次，输出0个或者多个元素，类似于FlatMap的功能，通过Collector将结果发出。除此之外，该函数有一个Context 参数，用户可以通过Context 访问时间戳、当前记录的key值以及TimerService(关于TimerService，下面会详细解释)。另外还可以使用output方法将数据发送到side output，实现分流或者处理迟到数据的功能。

onTimer(long timestamp, OnTimerContext ctx, Collector out)

该方法是一个回调函数，当在TimerService中注册的计时器(timers)被触发时，会回调该函数。其中@param timestamp参数表示触发计时器(timers)的时间戳，Collector可以将记录发出。细心的你可能会发现，这两个方法都有一个上下文参数，上面的方法传递的是Context 参数，onTimer方法传递的是OnTimerContext参数，这两个参数对象可以实现相似的功能。OnTimerContext还可以返回触发计时器的时间域(EVENT_TIME与PROCESSING_TIME)。

TimerService

在KeyedProcessFunction源码中，使用TimerService来访问时间和计时器，下面来看一下源码：

@PublicEvolvingpublic interface TimerService { String UNSUPPORTED_REGISTER_TIMER_MSG = "Setting timers is only supported on a keyed streams."; String UNSUPPORTED_DELETE_TIMER_MSG = "Deleting timers is only supported on a keyed streams."; // 返回当前的处理时间 long currentProcessingTime(); // 返回当前event-time水位线(watermark) long currentWatermark(); /** * 注册一个计时器(timers)，当processing time的时间等于该计时器时钟时会被调用 * @param time */ void registerProcessingTimeTimer(long time); /** * 注册一个计时器(timers),当event time的水位线(watermark)到达该时间时会被触发 * @param time */ void registerEventTimeTimer(long time); /** * 根据给定的触发时间(trigger time)来删除processing-time计时器 * 如果这个timer不存在，那么该方法不会起作用， * 即该计时器(timer)之前已经被注册了，并且没有过时 * * @param time */ void deleteProcessingTimeTimer(long time); /** * 根据给定的触发时间(trigger time)来删除event-time 计时器 * 如果这个timer不存在，那么该方法不会起作用， * 即该计时器(timer)之前已经被注册了，并且没有过时 * @param time */ void deleteEventTimeTimer(long time);}

TimerService提供了以下几种方法：

currentProcessingTime()

返回当前的处理时间

currentWatermark()

返回当前event-time水位线(watermark)时间戳

registerProcessingTimeTimer(long time)

针对当前key，注册一个processing time计时器(timers)，当processing time的时间等于该计时器时钟时会被调用

registerEventTimeTimer(long time)

针对当前key，注册一个event time计时器(timers)，当水位线时间戳大于等于该计时器时钟时会被调用

deleteProcessingTimeTimer(long time)

针对当前key，删除一个之前注册过的processing time计时器(timers)，如果这个timer不存在，那么该方法不会起作用

deleteEventTimeTimer(long time)

针对当前key，删除一个之前注册过的event time计时器(timers)，如果这个timer不存在，那么该方法不会起作用

当计时器触发时，会回调onTimer()函数，系统对于ProcessElement()方法和onTimer()方法的调用是同步的

注意:上面的源码中有两个Error 信息,这就说明计时器只能在keyed streams上使用，常见的用途是在某些key值不在使用后清除keyed state，或者实现一些基于时间的自定义窗口逻辑。如果要在一个非KeyedStream上使用计时器，可以使用KeySelector返回一个固定的分区值(比如返回一个常数)，这样所有的数据只会发送到一个分区。

使用案例

下面将使用Process Function的side output功能进行分流处理，具体代码如下：

public class ProcessFunctionExample { // 定义side output标签 static final OutputTag buyTags = new OutputTag("buy") { }; static final OutputTag cartTags = new OutputTag("cart") { }; static final OutputTag favTags = new OutputTag("fav") { }; static class SplitStreamFunction extends ProcessFunction { @Override public void processElement(UserBehaviors value, Context ctx, Collector out) throws Exception { switch (value.behavior) { case "buy": ctx.output(buyTags, value); break; case "cart": ctx.output(cartTags, value); break; case "fav": ctx.output(favTags, value); break; default: out.collect(value); } } } public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment().setParallelism(1); // 模拟数据源[userId,behavior,product] SingleOutputStreamOperator splitStream = env.fromElements( new UserBehaviors(1L, "buy", "iphone"), new UserBehaviors(1L, "cart", "huawei"), new UserBehaviors(1L, "buy", "logi"), new UserBehaviors(1L, "fav", "oppo"), new UserBehaviors(2L, "buy", "huawei"), new UserBehaviors(2L, "buy", "onemore"), new UserBehaviors(2L, "fav", "iphone")).process(new SplitStreamFunction()); //获取分流之后购买行为的数据 splitStream.getSideOutput(buyTags).print("data_buy"); //获取分流之后加购行为的数据 splitStream.getSideOutput(cartTags).print("data_cart"); //获取分流之后收藏行为的数据 splitStream.getSideOutput(favTags).print("data_fav"); env.execute("ProcessFunctionExample"); }}

总结

本文首先介绍了Flink提供的几种底层Process Function API，这些API可以访问时间戳和水位线，同时支持注册一个计时器，进行调用回调函数onTimer()。接着从源码的角度解读了这些API的共同部分，详细解释了每个方法的具体含义和使用方式。最后，给出了一个Process Function常见使用场景案例，使用其实现分流处理。除此之外，用户还可以使用这些函数，通过注册计时器，在回调函数中定义处理逻辑，使用非常的灵活。

Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
FlinkCDC3.3 使用 Mysql 8.4 报错 _lizhiqiang mysql 数据库 flink flinkcdc seatunnel
一、报错日志Causedby:io.debezium.DebeziumException:org.apache.flink.util.FlinkRuntimeException:Cannotreadthebinlogfilenameandpositionvia'SHOWMASTERSTATUS'.Makesureyourserveriscorrectlyconfiguredatorg.apache
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

Flink DataStream API 中的多面手——Process Function详解

简介

源码

KeyedProcessFunction

TimerService

使用案例

总结

你可能感兴趣的:(Flink)