枫叶的落寞

Flink1.9系列-StreamingFileSink vs BucketingSink篇

在完成以下两篇文章的操作后，我们基本就可以创建属于我们自己的Flink工程代码了。
1.Flink1.9系列-CDH版本源码编译篇
2.Flink1.9系列-Flink on Yarn配置篇

1.Flink Project代码结构

在开始之前，我们先大概浏览一下官方文档，Flink1.9 doc ，在programming-model模块我们可以看到一个简单的Flink demo，类似于flink源码中的WordCount代码一样。从demo中我们可以看到一个Flink Project简单可以分成以下两个部分：

source
sink

这次我们讲的StreamingFileSink和BucketingSink就是属于sink板块的一大支柱，为什么说明明是两个我们要说成是一大支柱呢？因为Bucketing从历史上看是StreamingFileSink的祖宗，而StreamingFileSink更像是一个正在茁壮成长的孩子，虽然问题很多，但是前景很好！

或者你遇到了如下的错误不知道怎么去解决

java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS and for Hadoop version 2.7 or newer
	at org.apache.flink.runtime.fs.hdfs.HadoopRecoverableWriter.(HadoopRecoverableWriter.java:57)
	at org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.createRecoverableWriter(HadoopFileSystem.java:202)
	at org.apache.flink.core.fs.SafetyNetWrapperFileSystem.createRecoverableWriter(SafetyNetWrapperFileSystem.java:69)
	at org.apache.flink.streaming.api.functions.sink.filesystem.Buckets.(Buckets.java:112)
	at org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink$RowFormatBuilder.createBuckets(StreamingFileSink.java:242)
	at org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink.initializeState(StreamingFileSink.java:327)
	at org.apache.flink.streaming.util.functions.StreamingFunctionUtils.tryRestoreFunction(StreamingFunctionUtils.java:178)
	at org.apache.flink.streaming.util.functions.StreamingFunctionUtils.restoreFunctionState(StreamingFunctionUtils.java:160)
	at org.apache.flink.streaming.api.operators.AbstractUdfStreamOperator.initializeState(AbstractUdfStreamOperator.java:96)
	at org.apache.flink.streaming.api.operators.AbstractStreamOperator.initializeState(AbstractStreamOperator.java:281)
	at org.apache.flink.streaming.runtime.tasks.StreamTask.initializeState(StreamTask.java:878)
	at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:392)
	at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:705)
	at org.apache.flink.runtime.taskmanager.Task.run(Task.java:530)
	at java.lang.Thread.run(Thread.java:748)

ok！开始正题。。。。。。

2.BucketingSink

我们先看一下使用的demo：

val bucketingsink = new BucketingSink[(String, String)](basePath)
bucketingsink.setBucketer(new KeyBucket())
bucketingsink.setWriter(new Tuple_2Writer())
bucketingsink.setBatchSize(1024 * 1024 * 20)
bucketingsink.setBatchRolloverInterval(20 * 60 * 1000)

使用方法很简单，我们再简单浏览一下BucketingSink的源码。。。
这个类属于package org.apache.flink.streaming.connectors.fs.bucketing，可以看到是属于connectors的一部分，接下来就是一些类的说明，类参数和子类的一些说明，如下：

/** * Sink that emits its input elements to {@link FileSystem} files within * buckets. This is integrated with the checkpointing mechanism to provide exactly once semantics. * * * When creating the sink a {@code basePath} must be specified. The base directory contains * one directory for every bucket. The bucket directories themselves contain several part files, * one for each parallel subtask of the sink. These part files contain the actual output data. * * * The sink uses a {@link Bucketer} to determine in which bucket directory each element should * be written to inside the base directory. The {@code Bucketer} can, for example, use time or * a property of the element to determine the bucket directory. The default {@code Bucketer} is a * {@link DateTimeBucketer} which will create one new bucket every hour. You can specify * a custom {@code Bucketer} using {@link #setBucketer(Bucketer)}. For example, use the * {@link BasePathBucketer} if you don't want to have buckets but still want to write part-files * in a fault-tolerant way. * * * The filenames of the part files contain the part prefix, the parallel subtask index of the sink * and a rolling counter. For example the file {@code "part-1-17"} contains the data from * {@code subtask 1} of the sink and is the {@code 17th} bucket created by that subtask. Per default * the part prefix is {@code "part"} but this can be configured using {@link #setPartPrefix(String)}. * When a part file becomes bigger than the user-specified batch size or when the part file becomes older * than the user-specified roll over interval the current part file is closed, the part counter is increased * and a new part file is created. The batch size defaults to {@code 384MB}, this can be configured * using {@link #setBatchSize(long)}. The roll over interval defaults to {@code Long.MAX_VALUE} and * this can be configured using {@link #setBatchRolloverInterval(long)}. * * * In some scenarios, the open buckets are required to change based on time. In these cases, the sink * needs to determine when a bucket has become inactive, in order to flush and close the part file. * To support this there are two configurable settings: * * the frequency to check for inactive buckets, configured by {@link #setInactiveBucketCheckInterval(long)}, * and * the minimum amount of time a bucket has to not receive any data before it is considered inactive, * configured by {@link #setInactiveBucketThreshold(long)} * * Both of these parameters default to {@code 60, 000 ms}, or {@code 1 min}. * * * Part files can be in one of three states: {@code in-progress}, {@code pending} or {@code finished}. * The reason for this is how the sink works together with the checkpointing mechanism to provide exactly-once * semantics and fault-tolerance. The part file that is currently being written to is {@code in-progress}. Once * a part file is closed for writing it becomes {@code pending}. When a checkpoint is successful the currently * pending files will be moved to {@code finished}. * * * If case of a failure, and in order to guarantee exactly-once semantics, the sink should roll back to the state it * had when that last successful checkpoint occurred. To this end, when restoring, the restored files in {@code pending} * state are transferred into the {@code finished} state while any {@code in-progress} files are rolled back, so that * they do not contain data that arrived after the checkpoint from which we restore. If the {@code FileSystem} supports * the {@code truncate()} method this will be used to reset the file back to its previous state. If not, a special * file with the same name as the part file and the suffix {@code ".valid-length"} will be created that contains the * length up to which the file contains valid data. When reading the file, it must be ensured that it is only read up * to that point. The prefixes and suffixes for the different file states and valid-length files can be configured * using the adequate setter method, e.g. {@link #setPendingSuffix(String)}. * * * NOTE: * * * If checkpointing is not enabled the pending files will never be moved to the finished state. In that case, * the pending suffix/prefix can be set to {@code ""} to make the sink work in a non-fault-tolerant way but * still provide output without prefixes and suffixes. * * * The part files are written using an instance of {@link Writer}. By default, a * {@link StringWriter} is used, which writes the result of {@code toString()} for * every element, separated by newlines. You can configure the writer using the * {@link #setWriter(Writer)}. For example, {@link SequenceFileWriter} * can be used to write Hadoop {@code SequenceFiles}. * * * {@link #closePartFilesByTime(long)} closes buckets that have not been written to for * {@code inactiveBucketThreshold} or if they are older than {@code batchRolloverInterval}. * * * * * Example: * {@code * new BucketingSink>(outPath) * .setWriter(new SequenceFileWriter()) * .setBucketer(new DateTimeBucketer("yyyy-MM-dd--HHmm") * } * *

This will create a sink that writes to {@code SequenceFiles} and rolls every minute. * * @see DateTimeBucketer * @see StringWriter * @see SequenceFileWriter * * @param Type of the elements emitted by this sink * * @deprecated Please use the * {@link org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink StreamingFileSink} * instead. * */

请着重看这两段注释

If case of a failure, and in order to guarantee exactly-once semantics, the sink should roll back to the state it
 * had when that last successful checkpoint occurred. To this end, when restoring, the restored files in {@code pending}
 * state are transferred into the {@code finished} state while any {@code in-progress} files are rolled back, so that
 * they do not contain data that arrived after the checkpoint from which we restore. If the {@code FileSystem} supports
 * the {@code truncate()} method this will be used to reset the file back to its previous state. If not, a special
 * file with the same name as the part file and the suffix {@code ".valid-length"} will be created that contains the
 * length up to which the file contains valid data. When reading the file, it must be ensured that it is only read up
 * to that point. The prefixes and suffixes for the different file states and valid-length files can be configured
 * using the adequate setter method, e.g. {@link #setPendingSuffix(String)}

* @deprecated Please use the
 * {@link org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink StreamingFileSink}
 * instead.

大概解释一下：Flink为了保证消息只消费一次，sink必须具有能回滚到上一次成功checkpoint的状态点，如果你指定的文件系统支持truncate操作，flink就会将之前保存的文件重新设置到上次成功的状态。相反，如果不支持的话，flink会创建一个同名的文件，并且增加一个后缀作为标识。这是非常重要的，而且也是BucketingSink和StreamingFileSink的主要不同点所在

下面那段注释则标识了新版本的Flink已经废弃该类，并用StreamingFileSink替代了，这时候BucketingSink的孩子就出现在人们的眼睛中了。当然，我没有深入考究StreamingFileSink是从Flink1.6还是Flink1.7或者其他版本开始的。既然官网推荐使用，我们接下来就讲一下StreamingFileSink这个类吧。

3.StreamingFileSink

同样的，我们看一下StreamingFileSink的源码和使用方法
先看一下简单的demo

val bucketingsink = StreamingFileSink
    .forRowFormat(new Path(basePath), new Tuple2Encoder())
    .withBucketAssigner(new KeyBucketAssigner())
    //      .withRollingPolicy(DefaultRollingPolicy[(String,String),String])
    .build()

使用方法也很简单，这里主要看一下几个方法

		@Override
		Buckets createBuckets(int subtaskIndex) throws IOException {
			return new Buckets<>(
					basePath,
					bucketAssigner,
					bucketFactory,
					new RowWisePartWriter.Factory<>(encoder),
					rollingPolicy,
					subtaskIndex);
		}

使用自定义或者默认的bucket创建目录及文件层级，接下来看一下这个方法里调用的Buckets类：

Buckets(
			final Path basePath,
			final BucketAssigner bucketAssigner,
			final BucketFactory bucketFactory,
			final PartFileWriter.PartFileFactory partFileWriterFactory,
			final RollingPolicy rollingPolicy,
			final int subtaskIndex) throws IOException {

		this.basePath = Preconditions.checkNotNull(basePath);
		this.bucketAssigner = Preconditions.checkNotNull(bucketAssigner);
		this.bucketFactory = Preconditions.checkNotNull(bucketFactory);
		this.partFileWriterFactory = Preconditions.checkNotNull(partFileWriterFactory);
		this.rollingPolicy = Preconditions.checkNotNull(rollingPolicy);
		this.subtaskIndex = subtaskIndex;

		this.activeBuckets = new HashMap<>();
		this.bucketerContext = new Buckets.BucketerContext();

		try {
			this.fsWriter = FileSystem.get(basePath.toUri()).createRecoverableWriter();
		} catch (IOException e) {
			LOG.error("Unable to create filesystem for path: {}", basePath);
			throw e;
		}

		this.bucketStateSerializer = new BucketStateSerializer<>(
				fsWriter.getResumeRecoverableSerializer(),
				fsWriter.getCommitRecoverableSerializer(),
				bucketAssigner.getSerializer()
		);

		this.maxPartCounter = 0L;
	}

请注意这一行代码：

this.fsWriter = FileSystem.get(basePath.toUri()).createRecoverableWriter();

创建文件，尤其是hdfs文件，这里我们在深入一层看一下

    @Override
	public RecoverableWriter createRecoverableWriter() throws IOException {
		// This writer is only supported on a subset of file systems, and on
		// specific versions. We check these schemes and versions eagerly for better error
		// messages in the constructor of the writer.
		return new HadoopRecoverableWriter(fs);
	}

public HadoopRecoverableWriter(org.apache.hadoop.fs.FileSystem fs) {
		this.fs = checkNotNull(fs);

		// This writer is only supported on a subset of file systems, and on
		// specific versions. We check these schemes and versions eagerly for
		// better error messages.
		if (!"hdfs".equalsIgnoreCase(fs.getScheme()) || !HadoopUtils.isMinHadoopVersion(2, 7)) {
			throw new UnsupportedOperationException(
					"Recoverable writers on Hadoop are only supported for HDFS and for Hadoop version 2.7 or newer");
		}
	}

看到问题了吗？StreamingFileSink在写hdfs时候，要求hadoop版本必须大于2.7，但是目前市面开源的稳定版本包含cloudera cdh在内，都是支持hadoop2.6，所以如果你使用hadoop版本<2.7,那建议你还是使用BucketingSink，不出什么错，毕竟是祖宗！！！

Flink CDC + Oracle Demo 缘上寒山 flink oracle
本文用于说明Flink集成oraclecdc的方式pom.xml1.13.32.12org.apache.flinkflink-java${flink.version}provided-->org.apache.flinkflink-clients_2.11${flink.version}com.ververicaflink-connector-oracle-cdcprovided-->
Flink CEP原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlinkCEP原理与代码实例讲解1.背景介绍1.1什么是复杂事件处理CEP复杂事件处理(ComplexEventProcessing,CEP)是一种用于分析事件流的技术。它可以从多个事件源中实时检测复杂的事件模式,进而推断有意义的事件或做出及时响应。CEP在金融、物联网、安全等领域有广泛应用。1.2FlinkCEP简介Flink是一个开源的分布式流处理框架,具有低延迟、高吞吐、准确性和良好的容错
【Flink银行反欺诈系统设计方案】反欺诈系统全生命周期设计 *星星之火* Flink反欺诈 flink 大数据
【Flink银行反欺诈系统设计方案】反欺诈系统全生命周期设计概要：1.事前反欺诈准备核心模块与架构：2.事中反欺诈发现与告警核心模块与架构：3.事后反欺诈事件分析核心模块与架构：4.反欺诈闭环架构设计整体技术栈：5.关键设计原则示例：高风险交易拦截流程6.演进方向概要：设计银行反欺诈系统需要构建一个覆盖事前、事中、事后的全生命周期闭环体系，结合实时检测、离线分析、动态策略调整与持续优化。以下是具体
Flink Oceanbase Connector详解 24k小善 flink 大数据 java
FlinkOceanBaseConnector是ApacheFlink提供的一个用于连接OceanBase数据库的插件。它允许Flink读取和写入OceanBase数据库中的数据，支持实时数据处理和流式数据集成。以下是对FlinkOceanBaseConnector的详细解析：1.核心功能FlinkOceanBaseConnector的核心功能包括：功能模块描述实时数据读取支持从OceanBase
小白进阶高手：使用Flink开发实时数仓的经验与技巧（理论结合超多实例）大模型大数据攻城狮 flink 大数据 flink开发 CEP flink反压 flink多流 flink容错
Flink作为一种流处理框架，在实时数仓的开发中发挥着关键作用。它能够处理大量实时数据流，支持复杂的事件处理、实时计算和监控，具有高吞吐、低延迟的优势。本文将结合实际开发经验，深入探讨如何利用Flink构建高效的实时数仓，包括系统架构、开发技巧和常见问题的解决方法。目录一、实时数仓的架构概览1.实时数仓架构的关键组件2.典型的架构流程3.数据模型设计二、Flink实时数仓的开发流程1.准备环境2.
Flink学习方法狮歌~资深攻城狮大数据
嘿，各位小白小伙伴们！如果你正打算学习Flink，或者刚刚开始接触Flink，别担心，很多人都是从这个阶段走过来的今天我就来给大家分享一些学习Flink的建议，希望能帮到你一、了解Flink是什么在正式开始学习之前，我们得先搞清楚Flink到底是个啥简单来说，Flink就像是一个超级高效的数据处理“小能手”它可以快速地处理大量的数据，就像一个勤劳的快递员能够迅速准确地把包裹送到目的地。比如说，在电
FlinkCEP社区资源指南：学习与交流平台 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlinkCEP社区资源指南：学习与交流平台1.背景介绍ApacheFlink是一个开源的分布式大数据处理引擎,支持有状态计算和准确一次的流处理语义。Flink提供了强大的流处理能力,其中FlinkCEP(复杂事件处理)是一个非常重要的特性,允许从无边界的事件流中发现有趣的事件模式。CEP在许多领域都有广泛应用,例如:金融服务:检测欺诈行为、交易模式等物联网:监控传感器数据,检测异常情况业务流程监
深入探秘FlinkCDC：实时数据处理的新利器 lucky_syq 大数据大数据 flink
一、写在前面在大数据领域持续蓬勃发展的当下，数据的实时处理与分析变得愈发关键。随着企业数字化转型进程的加速，业务系统产生的数据量呈爆发式增长，传统的数据处理方式已难以满足对数据时效性和分析实时性的严苛要求。在这样的大背景下，FlinkCDC应运而生，它作为一种强大的实时数据同步与处理工具，为大数据处理带来了全新的解决方案，在大数据生态体系中占据着举足轻重的地位。FlinkCDC，即FlinkCha
Flink keyBy 算子源码与设计理念分析 java
大家好，我是大圣，很高兴又和大家见面。今天我们来探究一下Flink使用keyBy算子的时候到底发生了什么，看完这篇文章，你会豁然开朗。keyBy算子基本知识keyBy会发生什么专业解释keyBy使得相同key的数据会进入同一个并行子任务，每一个子任务可以处理多个不同的key。这样使数据保证了有序性，并且每个子任务直接相互隔离。我们确保了相同键的数据在逻辑上是有序的。即使在高度并行的环境中，具有相同
Flink----常见故障排除天冬忘忧 Flink 大数据 flink
目录常见故障排除1非法配置异常2Java堆空间异常3直接缓冲存储器异常4元空间异常5网络缓冲区数量不足6超出容器内存异常7Checkpoint失败7.1CheckpointDecline7.2CheckpointExpire8Checkpoint慢SourceTriggerCheckpoint慢：使用增量Checkpoint：作业存在反压或者数据倾斜：Barrier对齐慢主线程太忙，导致没机会做s
Flink SQL的Top-N实战听挽风讲大数据 Flink flink 大数据
1Top-N目前仅Blink计划器支持Top-N。Top-N查询时根据列排序找到N个最大或最小的值。最大值集合最小值集都被视为是一种Top-N的查询。若在批处理或流处理的表中需要显示出满足条件的N个最底层记录或最顶层记录，Top-N查询将会十分有用。得到的结果集将可以进行进一步的分析。Flink使用OVER窗口条件和过滤条件相结合以进行Top-N查询。利用OVER窗口的PARTITIONBY子句的
数栈基于Flink CEP与规则热更新扩展的深度解析大数据
本文通过实际案例深入探讨了FlinkCEP在复杂事件处理中的核心作用，详细分析了其优缺点，并探讨了在实时计算平台中规则热更新的重要性和创新实现方式，旨在帮助读者更好地理解和应用FlinkCEP。FlinkCEP1.1什么是FlinkCEPFlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型，并允许用户做出针对性的处理。它更多被应用在实时营销、实时风控
【大数据专题】Flink题库我思故我在6789 大数据专栏大数据 flink
1.简述什么是ApacheFlink？ApacheFlink是一个开源的基于流的有状态计算框架。它是分布式地执行的，具备低延迟、高吞吐的优秀性能，并且非常擅长处理有状态的复杂计算逻辑场景2.简述Flink的核心概念？Flink的核心概念主要有四个：EventStreams、State、Time和Snapshots。（1）EventStreams：即事件流，事件流可以是实时的也可以是历史的。Flin
14个Flink SQL性能优化实践分享快乐非自愿 flink sql 性能优化
在大数据处理领域，ApacheFlink以其流处理和批处理一体化的能力，成为许多企业的首选。然而，随着数据量的增长，性能优化变得至关重要。本文将深入浅出地探讨FlinkSQL的常见性能问题、调优方法、易错点及调优技巧，并提供代码示例。1.常见性能问题1.1数据源读取效率低并行度不足：默认的并行度可能无法充分利用硬件资源。--设置并行度SET'parallelism.default'=16;1.2状
Flink SQL 底层封装的原理 goTsHgo Flink 大数据分布式 flink sql 大数据
ApacheFlink是一个分布式流处理引擎，而FlinkSQL是其提供的一个SQL层，允许用户通过标准SQL查询对流式或批量数据进行查询和分析。FlinkSQL的实现基于ApacheCalcite，这是一个通用的SQL解析和优化引擎，Flink在其基础上进行了扩展和优化，以支持流数据的查询语义（如窗口、事件时间等）。要理解FlinkSQL的底层实现，首先需要理解Flink是如何通过SQL解析、优
Flink如何做流计算？大数据世界的“实时魔法” 狮歌~资深攻城狮 struts servlet java
Flink如何做流计算？大数据世界的“实时魔法”揭秘✨嘿，各位小伙伴！今天咱们来聊聊Flink是怎么做流计算的。想象一下，你身处一个数据如水流般源源不断的大数据世界，Flink就像是一位神奇的魔法师能够实时处理这些流动的数据，为我们揭示其中的奥秘。那它到底是怎么施展魔法的呢？让我们一起来揭开这个神秘的面纱吧一、流计算是啥玩意儿？在深入了解Flink的流计算之前，咱们得先搞清楚流计算到底是什么。简单
Flink SQL的使用超人在良家-阿启 Flink 1024程序员节 flink
文章目录一、FlinkSQL简介1.1FlinkSQL特点1.2工作原理1.3应用场景二、FlinkSQL语法2.1CREATEcreate语句2.2SELECTselect语句2.2.1简单查询2.2.2过滤操作2.2.3聚合操作2.2.4窗口操作（针对流数据）2.3INSERT语句2.4输出到控制台（用于调试）三、基础流程3.1、所有Flink的操作都是基于StreamExecutionEnv
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案后端java
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
Flink同步数据mysql到doris问题合集土豆沒加常用工具 flink mysql 大数据
Flink同步数据mysql到doris官方同步流程Doris安装下载地址导入镜像启动配置Flink-cdc安装（自制）下载地址导入镜像启动命令启动问题修复Flink报错Couldnotacquiretheminimumrequiredresources.作业报错Mysql8.0PublicKeyRetrievalisnotallowed作业报错Connectto127.0.0.1:8040[/1
Flink架构体系：深入解析Apache Flink的架构与工作原理雨中徜徉的思绪漫溢 flink 架构 apache 大数据
Flink架构体系：深入解析ApacheFlink的架构与工作原理ApacheFlink是一种高性能、分布式、流式处理引擎，被广泛应用于大数据处理和实时分析场景。本文将深入解析Flink的架构体系和工作原理，包括核心组件和数据流处理过程，并提供相应的示例代码。Flink架构概述ApacheFlink的架构基于流式处理模型，它通过将数据流划分为有向无环图（DAG）的形式，将大规模的数据处理任务划分为
Flink的架构体系 GDDGHS_ flink 架构大数据
Flink中的重要角⾊JobManager处理器JobManager处理器也称之为Master，用于协调分布式执行，它们用来调度task，协调检查点，协调失败时恢复等。Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个master处理器，它们其中有一个是leader，而其他的都是standby。TaskManager处理器TaskManager处理器也称之为Worker
Streampark 入门到生产实践大数据学习爱好者 spark开发和机器学习数据仓库数据仓库大数据
Streampark入门到生产实践1.StreamPark初探1.1什么是StreamPark1.2Features1.3架构2.环境安装要求如何插入一段漂亮的代码片3.安装apache-streampark最新版4.使用教程4.1配置Flink_home4.2git拉取项目和构建项目4.3企业微信告警4.4相关参数配置4.5相关参数配置yarn-session1.StreamPark初探1.1什
Flink——部署StreamPark penghaichao 实时-Flink篇 flink 大数据
环境准备提前部署好了Flink1.18，官方要求1.12及以上jdk1.8Mysql5.7，官方要求5.6及以上，也可省略，系统自带h2Step1：通过streampark官网下载安装包Step2：跟着官网的userguide进行操作部署成功后即可通过http://host:10000进行访问，ui界面如下图遇到的问题：原因是mysql数据库默认为localhost主机进行访问，修改权限为'%'后
Flink K8s Application任务的使用老哥哥-老刘 flink
FlinkK8sApplication任务的使用FlinkK8sApplication任务的使用构键k8s集群提供flink运行任务的环境下载flink客户端任务编程任务jar生成过程k8sApplication运行Application模式架构启动命令PodTemplateFlinkK8sApplication任务的使用构键k8s集群在这里，我们需要搭建一个K8S环境用于提供flink任务的运行
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
StreamPark发布：Flink迎来首个Apache版本 MfvShell flink apache 大数据 Flink
近日，流处理计算平台StreamPark重磅发布了其首个Apache版本，为用户带来了更强大的功能和性能优化。这一版本的发布标志着StreamPark与ApacheFlink的融合迈出了重要的一步，为用户提供了更好的流处理体验。ApacheFlink是一个开源的流处理框架，具有强大的扩展性和容错性，被广泛应用于实时数据处理和分析场景。而StreamPark则是基于ApacheFlink构建的流处理
Flink CDC LonelyProgramme flink 数据库大数据
我先说说我的业务需求,我想要实时从mysql数据库中读取配置数据,我以前没接触这个技术之前是定时从数据库中获取数据,但是将数据间隔设置太小就会出现问题,所以达不到纯实时的效果.下面开始介绍一下准备工作:支持的数据库(下面是官方的建议:MySQL|ApacheFlinkCDC)ConnectorDatabaseDrivermysql-cdcMySQL:5.6,5.7,8.0.xRDSMySQL:5.
Doris、ClickHouse 和 Flink 这三个技术典型的应用场景每天瞎忙的农民工大数据 clickhouse flink 大数据 doris
Doris、ClickHouse和Flink这三个技术在不同业务场景下有各自的成功落地方案，主要用于数据分析、实时计算和高性能查询。以下是一些典型的应用场景：1.ApacheDoris落地方案应用场景Doris适用于海量数据的实时查询和分析，尤其适用于报表查询、OLAP分析和BI工具对接。案例某互联网广告公司业务背景：广告业务需要分析用户点击行为，监测广告投放效果，并进行精准推荐。技术方案：数据来
使用 Flink CDC 实现 MySQL 数据,表结构实时入 Apache Doris 一天两晒网 doris mysql flink doris flink cdc
背景现有数据库：mysql数据：库表较多，每个企业用户一个分库，每个企业下的表均不同，无法做到聚合,且表可以被用户随意改动，增删改列等，增加表分析：用户自定义分析，通过拖拽定义图卡，要求实时，点击确认即出现相应结果，其中有无法预判的过滤问题：随业务增长，企业用户越来越多，mysql压力越来越大，已经出现一些图卡加载过慢[mysqlsql]同步流程脚本读取mysql中需要同步的企业，在获取需要同步的
Streaming ELT 同步 MySQL 到 StarRocks 慧一居士大数据 mysql 数据库
StreamingELT同步MySQL到StarRocks这篇教程将展示如何基于FlinkCDC快速构建MySQL到StarRocks的StreamingELT作业，包含整库同步、表结构变更同步和分库分表同步的功能。本教程的演示都将在FlinkCDCCLI中进行，无需一行Java/Scala代码，也无需安装IDE。准备阶段准备一台已经安装了Docker的Linux或者MacOS电脑。准备Flink
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

Flink1.9系列-StreamingFileSink vs BucketingSink篇

1.Flink Project代码结构

2.BucketingSink

3.StreamingFileSink

你可能感兴趣的:(Flink)