朝闻道，夕死足

flink.12 序列化

一.元组(Tuples and Case Classes )

对java来说Tuples是flink自带的一种类, 对于scala来说flink没有提供类似Tuples的类, 因为scala天生自带了一种特殊类 case class.

主要说说java版的Tuples, Java API 提供从Tuple1最高到Tuple25. 元组的每个字段都可以是任意 Flink 类型, 1 25这个数字的意思是参数的个数.
Tuple1 t1;
Tuple2 t2;
Tuple3 t3;
访问Tuple中的数据flink提供了便捷的方法,比如:tuple.getField(int position)。字段索引从 0 开始, 或者tuple.f格式, f后面跟数字,也是从0开始.

比如 Tuple3 t3=new Tuple3 String,Integer>(“张三”, “男”,20)
如果要访问年龄有下面两种方法:

t3.f2

t3.getField(2)

case class WordCount(word: String, count: Int)
val input = env.fromElements(
    WordCount("hello", 1),
    WordCount("world", 2)) // Case Class Data Set

2.java版

DataStream<Tuple2<String, Integer>> wordCounts = env.fromElements(
    new Tuple2<String, Integer>("hello", 1),
    new Tuple2<String, Integer>("world", 2));

wordCounts.map(new MapFunction<Tuple2<String, Integer>, Integer>() {
    @Override
    public Integer map(Tuple2<String, Integer> value) throws Exception {
        return value.f1;
    }
});

我们来看看java的Tuple,Tuple是一个实现了java序列化接口的一个顶层接口,Tuple2 Tupe3 …Tuple25是实现了Tuple接口的具体的类
Tuple接口实现了java的序列化接口,public abstract class Tuple implements java.io.Serializable
下面是Tuple2的源码:

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

// --------------------------------------------------------------
//  THIS IS A GENERATED SOURCE FILE. DO NOT EDIT!
//  GENERATED FROM org.apache.flink.api.java.tuple.TupleGenerator.
// --------------------------------------------------------------

package org.apache.flink.api.java.tuple;

import org.apache.flink.annotation.Public;
import org.apache.flink.util.StringUtils;

/**
 * A tuple with 2 fields. Tuples are strongly typed; each field may be of a separate type. The
 * fields of the tuple can be accessed directly as public fields (f0, f1, ...) or via their position
 * through the {@link #getField(int)} method. The tuple field positions start at zero.
 *
 * Tuples are mutable types, meaning that their fields can be re-assigned. This allows functions
 * that work with Tuples to reuse objects in order to reduce pressure on the garbage collector.
 *
 * 
Warning: If you subclass Tuple2, then be sure to either
 *
 * 

 *   not add any new fields, or
 *   
make it a POJO, and always declare the element type of your DataStreams/DataSets to your
 *       descendant type. (That is, if you have a "class Foo extends Tuple2", then don't use
 *       instances of Foo in a DataStream<Tuple2> / DataSet<Tuple2>, but declare it as
 *       DataStream<Foo> / DataSet<Foo>.)
 * 
 *
 * @see Tuple
 * @param  The type of field 0
 * @param  The type of field 1
 */
@Public
public class Tuple2<T0, T1> extends Tuple {

    private static final long serialVersionUID = 1L;

    /** Field 0 of the tuple. */
    public T0 f0;
    /** Field 1 of the tuple. */
    public T1 f1;

    /** Creates a new tuple where all fields are null. */
    public Tuple2() {}

    /**
     * Creates a new tuple and assigns the given values to the tuple's fields.
     *
     * @param f0 The value for field 0
     * @param f1 The value for field 1
     */
    public Tuple2(T0 f0, T1 f1) {
        this.f0 = f0;
        this.f1 = f1;
    }

    @Override
    public int getArity() {
        return 2;
    }

    @Override
    @SuppressWarnings("unchecked")
    public <T> T getField(int pos) {
        switch (pos) {
            case 0:
                return (T) this.f0;
            case 1:
                return (T) this.f1;
            default:
                throw new IndexOutOfBoundsException(String.valueOf(pos));
        }
    }

    @Override
    @SuppressWarnings("unchecked")
    public <T> void setField(T value, int pos) {
        switch (pos) {
            case 0:
                this.f0 = (T0) value;
                break;
            case 1:
                this.f1 = (T1) value;
                break;
            default:
                throw new IndexOutOfBoundsException(String.valueOf(pos));
        }
    }

    /**
     * Sets new values to all fields of the tuple.
     *
     * @param f0 The value for field 0
     * @param f1 The value for field 1
     */
    public void setFields(T0 f0, T1 f1) {
        this.f0 = f0;
        this.f1 = f1;
    }

    /**
     * Returns a shallow copy of the tuple with swapped values.
     *
     * @return shallow copy of the tuple with swapped values
     */
    public Tuple2<T1, T0> swap() {
        return new Tuple2<T1, T0>(f1, f0);
    }

    // -------------------------------------------------------------------------------------------------
    // standard utilities
    // -------------------------------------------------------------------------------------------------

    /**
     * Creates a string representation of the tuple in the form (f0, f1), where the individual
     * fields are the value returned by calling {@link Object#toString} on that field.
     *
     * @return The string representation of the tuple.
     */
    @Override
    public String toString() {
        return "("
                + StringUtils.arrayAwareToString(this.f0)
                + ","
                + StringUtils.arrayAwareToString(this.f1)
                + ")";
    }

    /**
     * Deep equality for tuples by calling equals() on the tuple members.
     *
     * @param o the object checked for equality
     * @return true if this is equal to o.
     */
    @Override
    public boolean equals(Object o) {
        if (this == o) {
            return true;
        }
        if (!(o instanceof Tuple2)) {
            return false;
        }
        @SuppressWarnings("rawtypes")
        Tuple2 tuple = (Tuple2) o;
        if (f0 != null ? !f0.equals(tuple.f0) : tuple.f0 != null) {
            return false;
        }
        if (f1 != null ? !f1.equals(tuple.f1) : tuple.f1 != null) {
            return false;
        }
        return true;
    }

    @Override
    public int hashCode() {
        int result = f0 != null ? f0.hashCode() : 0;
        result = 31 * result + (f1 != null ? f1.hashCode() : 0);
        return result;
    }

    /**
     * Shallow tuple copy.
     *
     * @return A new Tuple with the same fields as this.
     */
    @Override
    @SuppressWarnings("unchecked")
    public Tuple2<T0, T1> copy() {
        return new Tuple2<>(this.f0, this.f1);
    }

    /**
     * Creates a new tuple and assigns the given values to the tuple's fields. This is more
     * convenient than using the constructor, because the compiler can infer the generic type
     * arguments implicitly. For example: {@code Tuple3.of(n, x, s)} instead of {@code new
     * Tuple3(n, x, s)}
     */
    public static <T0, T1> Tuple2<T0, T1> of(T0 f0, T1 f1) {
        return new Tuple2<>(f0, f1);
    }
}

所以flink针对Tuple的序列化,底层还是用的java的序列化,并没有用其他的序列化框架.

二.java或者scala 遵循下述规范的类(POJOs )

普通类有以下要求:

必须是public 类
必须有一个不带参数的默认构造函数
字段必须也是公共的,或者提供get/set方法
字段的类型必须被注册的序列化器支持

下面是例子代码:

public class WordWithCount {

    public String word;
    public int count;

    public WordWithCount() {}

    public WordWithCount(String word, int count) {
        this.word = word;
        this.count = count;
    }
}

DataStream<WordWithCount> wordCounts = env.fromElements(
    new WordWithCount("hello", 1),
    new WordWithCount("world", 2));

wordCounts.keyBy(value -> value.word);

下面是scala
class WordWithCount(var word: String, var count: Int) {
//无参辅助构造器
    def this() {
      this(null, -1)
    }
}

val input = env.fromElements(
//下面这种是直接调用的主构造器,关于scala构造器请参考我的其他文章
    new WordWithCount("hello", 1),
    new WordWithCount("world", 2)) // Case Class Data Set

input.keyBy(_.word)

下面来说说工作原理:对于你自己定义的普通类,flink首先会对你的这个类做类的检测,比如针对第一条检测是否是public 修饰的类–>Modifier.isPublic([类].getModifiers()), 检测完了之后发现符合上述四条规则,那么就会对当前类调用PojoSerializer 序列化器进行封装,下面是继承关系:

public final class PojoSerializer extends TypeSerializer {…}
public abstract class TypeSerializer implements Serializable{…}

可以看出最后用的序列化还是java的序列化. TypeSerializer是一个顶层接口,基本上所有的序列化的类都是TypeSerializer的一种实现包括PojoSerializer,下面是一些实现了TypeSerializer的类.

如果检测不符合上述四条规则,那么flink默认的序列化器是上图中的:KryoSerializer ,这个序列化器就是用的 Kryo框架.打开KryoSerializer 类发现有下面的注释:

A type serializer that serializes its type using the Kryo serialization framework (https://github.com/EsotericSoftware/kryo).
This serializer is intended as a fallback serializer for the cases that are not covered by the basic types, tuples, and POJOs.
Type parameters:
– The type to be serialized.
public class KryoSerializer extends TypeSerializer {…代码省略}

三.原始类型(Primitive Types )

flink支持所有scala/java 的所有原始类型:Integer String Double

四.通用类(General Class Types)

java/scala 不遵守二中所说的规范,那么scala会将此类按照统一的序列化标准进行序列化,这个序列化标准采用的序列化框架是Kryo

五.flink内置的Values类型

你需要实现org.apache.flink.types.Value 接口的 read 和write方法. 和通用类(General Class Types) 相比Values接口序列化方式更加高效.
Flink提供了预定义的Value类型，与基本数据类型相对应。(ByteValue, ShortValue, IntValue, LongValue, FloatValue, DoubleValue, StringValue, CharValue, BooleanValue)。这些Value类型充当基本数据类型的可变变量:它们的值可以更改，从而允许程序员重用对象，减轻垃圾收集器的压力。
下图展示了预定义的类型和接口Value的关系:

六.Hadoop Writables

您可以使用实现org.apache.hadoop.Writable接口的类型。write()和方法中定义的序列化逻辑readFields()将用于序列化。

七.特殊类型

您可以使用特殊类型，包括 Scala 的Either、Option和Try. Java API 有自己的自定义实现Either。与 Scala 类似Either，它表示两种可能类型的值，左或右。 Either对于需要输出两种不同类型记录的错误处理或运算符非常有用。

关于java泛型类型擦除的问题’

Java 编译器在编译后丢弃了很多泛型类型信息。这在 Java中称为类型擦除。这意味着在运行时，对象的实例不再知道其泛型类型。例如，在 JVM 中DataStream和的实例DataStream看起来相同。

Flink 在准备程序执行时（调用程序的 main 方法时）需要类型信息。Flink Java API 试图以各种方式重构被丢弃的类型信息，并将其显式存储在数据集和运算符中。您可以通过检索类型DataStream.getType()。该方法返回一个的实例TypeInformation，这是 Flink 内部表示类型的方式。

类型推断有其局限性，在某些情况下需要程序员代码来“配合”。，例如 ExecutionEnvironment.fromCollection(),您可以在其中传递描述类型的参数。
但是像MapFunction这样的泛型函数可能需要额外的类型信息。

常见的问题

注册子类型：如果函数签名只描述超类型，但在执行过程中实际上使用了超类型的子类型，那么让 Flink
了解这些子类型可能会大大提高性能。为此，请.registerType(clazz)为每个子类型调用StreamExecutionEnvironmentor
ExecutionEnvironment。
注册自定义序列化器： Flink 回退到Kryo来处理它自己不能透明处理的类型。并非所有类型都由 Kryo（因此也由
Flink）无缝处理。例如，许多 Google Guava
集合类型在默认情况下无法正常工作。解决方案是为导致问题的类型注册额外的序列化程序。这句话是说有个特殊的类型既不是Integer也不是String,而是特殊的自定义的类型比如MyInt此时我们可以针对MyInt注册一个自定义的序列化器.调用。.getConfig().addDefaultKryoSerializer(clazz,
serializer)-许多库中提供了其他 Kryo
序列化程序。有关使用自定义序列化程序的更多详细信息，请参阅自定义序列化程序。此功能其实不常用,一般来说我们只会自定义对象,很少会自定义类型.
添加类型提示：有时，尽管 Flink 无法推断出泛型类型，但用户必须传递类型提示。这通常只在 Java API
中是必需的。类型提示部分更详细地描述了这一点。
手动创建TypeInformation:这对于某些 API 调用可能是必要的，因为 Java 的泛型类型擦除，Flink
无法推断数据类型。有关详细信息，请参阅创建 TypeInformation 或 TypeSerializer 。

关于TypeInfomation

flink实现了自己的类型系统,方便做类型检查.以及扁平化对象到schem ,TypeInfomation就是所有类型的基类,TypeInfomation描述了当前类型的类型是什么,以及它序列化器用的什么,下图是是实现此接口的基类:

我们来看一个BasicTypeInfo:
BasicTypeInfo for primitive types (int, long, double, byte, …), String, Date, Void, BigInteger, and BigDecimal.(BasicTypeInfo 是java基础类型的封装类,比如 int long double byte)

public static final BasicTypeInfo BOOLEAN_TYPE_INFO =
        new BasicTypeInfo<>(
                Boolean.class,
                new Class[] {},
                BooleanSerializer.INSTANCE,
                BooleanComparator.class);
注意参数:BooleanSerializer  这个序列化器其实就是实现了TypeSerializer.

上面说过: TypeSerializer是一个顶层接口,基本上所有的序列化的类都是TypeSerializer的一种实现.

10.jobManager初始化流程
JobManager初始化流程1.找到入口类StandaloneSessionClusterEntrypoint该类位于Flink源码的以下路径中：flink-runtime/src/main/java/org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint.java2.查看main方法/**Entrypoint
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
ARTS-第七周梧上擎天
Algorithm一、用链表和二叉树实现Set集合GitHub地址二、散列表散列表就是使用数组下标随机访问时候复杂度为O（1）的特性，当我们按照键值查找元素时，通过散列函数将key转化为下标然后进行访问，当有大量散列冲突时会退化为O（n）的时间复杂度。解决散列冲突的方法：开放寻址法和链表法ReviewFlink动态表概念原文地址流和表为什么可以相互转换呢？我们都知道传统Mysql的主从复制是通过b
如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题 fzip Flink flink java 大数据
在FlinkonYARN集群中提交第二个Job时出现Task的JavaHeapSizeOOM（内存溢出），核心原因是集群资源不足（第一个Job已占用大量资源，第二个Job分配的内存不够）或Job资源配置不合理（单个Job申请资源过多，或内存参数设置与实际需求不匹配）。解决需从“资源排查”“Job配置优化”“集群资源扩容”三个维度入手，具体步骤如下：一、先排查核心原因：确认资源占用与配置是否匹配1.
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
Flink cdc同步增量数据timestamp字段相差八小时（分析｜解决）不是粘贴复制的！ BUG FIXER 大数据 flink android 大数据
问题我使用flinkcdc同步mysql到mysql遇到了timestamp字段缺少八小时的问题。很少无语，flink,cdc,debezium时区都设置了，没有任何效果！分析问题出现在mysqlbinlog身上！！！因为默认mysql会使用UTC来存储binlog,你可以使用下方的sql验证：mysqlbinlog--base64-output=DECODE-ROWS-v--start-date
如何解决Flink CDC同步时间类型字段8小时时间差的问题，以MySQL为例智海观潮 Flink flink flink cdc 大数据实时数据同步
在使用FlinkCDC进行数据同步时，默认情况下经常会遇到时间类型的字段与实际值相差8个小时的问题。本文以MySQL为例提供解决方案，其他数据源也可以参考这类实现。原文链接：https://mp.weixin.qq.com/s/_f41ES8UquM-kj3Ie8JU_g1.设置server时区比如MySQL服务的时区为UTC时间，可以参考以下code设置时区。MySqlSourcemySqlSo
Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势 lifallen Paimon 大数据数据库数据结构 java 分布式 apache 数据仓库
弊端：数据重复->优势：Paimon主键表原生去重原方案弊端(Kafka)问题:消息队列（Kafka）是仅支持追加（Append-Only）的日志流。当Flink作业发生故障恢复（Failover）或业务逻辑迭代重跑数据时，同样的数据会被再次写入消息队列，形成重复数据。影响:下游应用（如DWS层、ADS层或直接对接的BI报表）必须自己实现复杂的去重逻辑，这不仅消耗大量计算资源（“资源消耗至少增加一
Flink 流处理的核心基石【时间语义、水位线、状态、检查点、反压】 csdn_tom_168 大数据 flink 核心时间语义水位线状态检查点反压
Flink流处理的核心基石【时间语义、水位线、状态、检查点、反压】，这些概念相互协作，构建了Flink高吞吐、低延迟、高容错的实时计算能力。以下是这些核心技术的深度解析及其内在联系：一、五大基石的内在联系驱动触发计算持久化保护恢复时间语义水位线状态管理检查点反压二、核心组件深度解析1.时间语义（TimeSemantics）核心作用：定义事件的时间维度//设置事件时间语义（关键配置）env.setS
用Flink实现的一个实时订单对账功能, Flink的双流实时对账
1.为什么业务订单数据不用Mysql之类的强事务性数据库监控反而用Flink的实时?一般这种涉及到订单的数据流都要用mysql监控实现,但是鉴于减少mysql的数据库压力和提高更实时性,可以考虑用Flink实时的数据流做实时的参考2.如何处理乱序数据?使用watermark水位保证第一层数据延迟.PS:这里的水位不能设置太长延迟使用processfuntion更加灵活的处理迟到数据,设置一个定时器
Flink 多流转换（三）CoProcessFunction合流操作案例 Alienware^ #Flink Flink
文章目录下面是CoProcessFunction的一个具体示例：我们可以实现一个实时对账的需求，也就是app的支付操作和第三方的支付操作的一个双流Join。App的支付事件和第三方的支付事件将会互相等待5秒钟，如果等不来对应的支付事件，那么就输出报警信息。程序如下：Gitee源代码如下publicclassBillCheckExample{publicstaticvoidmain(String[]
Flink双流处理：实时对账实现1
Flink双流处理：实时对账实现1去发现同类优质开源项目:https://gitcode.com/资源描述本资源文件详细介绍了Flink双流处理的实时对账实现。内容涵盖了基础概念、双流处理的方法以及实战案例，帮助开发者深入理解Flink在实时对账场景中的应用。内容概述基础概念介绍了Flink的基本概念和架构，为后续的双流处理打下基础。双流处理方法详细讲解了Flink中双流处理的核心方法和技巧，帮助
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Flink自定义函数的常用方式飞Link Water flink java 大数据
一、实现Flink提供的接口//自定义函数classMyMapFunctionimplementsMapFunction{publicIntegermap(Stringvalue){returnInteger.parseInt(value
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last 九师兄 kafka big data zookeeper
文章目录1.美图2.背景2.尝试方案13.尝试解决24.场景再现25.场景46.场景57.场景78.场景8M.拓展本文为博主九师兄（QQ:541711153欢迎来探讨技术）原创文章，未经允许博主不允许转载。1.美图问题与【Flink】Flink写入kafka报错FailedtosenddatatoKafka:Expiring4record(s)for20001mshaspassed重复了。2.背景
【Flink】flink Kafka报错 : Failed to send data to Kafka: This server is not the leader for that topic-pa 九师兄 flink kafka 大数据
1.背景出现这个问题的背景请参考：【Kafka】FailedtosenddatatoKafka:Expiring30record(s)forxxx732453mshaspassedsincelast[2020-09-0513:16:09
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
kafka单个生产者向具有多个partition的topic写数据（写入分区策略）
最近碰到生产环境现象一个flink程序单并行度（一个生产者），对应topic为8分区。每个分区都能消费到生产出的数据。整理知识点如下生产者写入消息到topic，kafka将依据不同的策略将数据分配到不同的分区中1.轮询分区策略2.随机分区策略3.按key分区分配策略4.自定义分区策略1.1轮询分区策略默认的策略，也是使用最多的策略，可以最大限度的保证所有消息平均分配到分区里面如果在生产消息时，ke
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&