大数据计算-Flink 第37页

Flink 使用watermark

自定义一个watermark生成策略watermark生成策略一般有两种，一种是自定义周期性的watermark，另一种是触发式的watermark。WatermarkGenerator接口代码如下：@PublicpublicinterfaceWatermarkGenerator{/***每来一条事件数据调用一次，可以检查或者记录事件的时间戳，或者也可以基于事件数据本身去生成watermark。*

hopyGreat·2023-11-24 15:42

40、Flink 的Apache Kafka connector（kafka source 和sink 说明及使用示例）完整版

Flink系列文章1、Flink部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink的tableapi与sql的基本概念、通用

一瓢一瓢的饮 alanchan·2023-11-24 15:41

Flink-WordCount

本文基于Flink1.14pom.xmlUTF-81.14.32.19.0org.apache.flinkflink-java${flink.version}org.apache.flinkflink-streaming-java

hopyGreat·2023-11-24 15:11

Flink自定义Source之读取url

importcom.fasterxml.jackson.databind.ObjectMapper;importcom.telecom.journal.model.Api;importorg.apache.flink.stream

雷神乐乐·2023-11-24 15:08

Flink Table API 读写MySQL

FlinkTableAPI读写MySQLimportorg.apache.flink.connector.jdbc.table.JdbcConnectorOptions;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment

hopyGreat·2023-11-24 15:35

Flink运行wordcount——读写hdfs

packagecom.test;importorg.apache.flink.api.common.functions.FlatMapFunction;importorg.apache.flink.api.java.tuple.Tuple2

雷神乐乐·2023-11-24 15:05

Flink基础系列27-ProcessFunction API(底层API)

概述:我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStreamAPI提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件，例如超时事件等。ProcessFunction用来构建事件

只是甲·2023-11-24 14:55

flink 问题总结（5）如何读取Kerberos认证的hadoop数据

问题：flink1.8如何读取待Kerberos认证的hdfs数据？

ZYvette·2023-11-24 14:39

centos7上用docker部署mysql 5.7，并解决中文乱码问题

1.安装docker查看这篇文章的前半部分即可：虚拟机上安装docker，并安装flink镜像2.安装mysql5.72.1下载mysql镜像可以使用dockersearchmysql命令查看远程镜像仓库中的镜像信息

码上无bug·2023-11-24 13:06

flink的异常concurrent.TimeoutException: Heartbeat of TaskManager with id的解决

背景在使用flink进行集成测试时，我们会使用MiniClusterWithClientResource类，但是当我们断点导致在某个方法执行的时间比较长时，会有错误发生，那么该如何解决这个错误呢？

lixia0417mul2·2023-11-24 11:40

flink的java.lang.IllegalStateException: Buffer pool is destroyed 异常

背景最近flink的在线应用出现错误java.lang.IllegalStateException:Bufferpoolisdestroyed，本文记录下这个错误的原因错误原因详细的日志堆栈如下:Causedby

lixia0417mul2·2023-11-24 11:40

flink的集成测试

背景日常测试中我们使用flink的TestHarness只能测试单个算子，很多情况下我们需要集成测试来测试真正的问题，所以在flink中进行集成测试还是非常有必要的，本文就来记录下如何在flink中进行集成测试

lixia0417mul2·2023-11-24 11:10

flink和机器学习模型的常用组合方式

背景flink是一个低延迟高吞吐的系统，每秒处理的数据量高达数百万，而机器模型一般比较笨重，虽然功能强大，但是qps一般都比较低，日常工作中，我们一般是如何把flink和机器学习模型组合起来一起使用呢?

lixia0417mul2·2023-11-24 11:05

Flink-Exactly Once(如何保证数据的唯一性和不重复!)

Flink-ExactlyOnce(如何保证数据的唯一性和不重复!)

a-tao必须奥利给·2023-11-24 11:52

Flink SQL深度篇

FlinkSQL深度篇问题导读怎样优化LogicalPlan?怎样优化StreamGraph?TimeWindow,EventTime,ProcessTime和Watermark四者之间的关系是什么?

不爱吃鱼的馋猫·2023-11-24 11:22

思考: 为什么 Flink 要弃用Scala API呢？

1.问题描述最近在学习FlinkAPI的时候，发现官网声明要废弃ScalaAPI，但是为什么呢？

广阔天地大有可为·2023-11-24 11:22

一网打尽Flink中的时间、窗口和流Join

接下来，我们将会使用Flink的windowAPI，它提供了通常使用的各种窗口类型的内置实现。我们将会学到如何进行用户自定义窗口操作符，以及窗口的核心功能：assigners（分配器）

王知无(import_bigdata)·2023-11-24 11:20

大数据之使用Flink消费Kafka中topic为ods_mall_data的数据，根据数据中不同的表将数据分别分发至kafka的DWD层

由于设备问题，代码执行结果以及数据的展示无法给出，可参照我以往的博客其中有相同数据源展示题目：提示：以下是本篇文章正文内容，下面案例可供参考（使用Scala语言编写）一、读题分析涉及组件：Scala，Flink

约定Da于配置·2023-11-24 11:49

Day77_Flink(三）Flink时间语义和水印

课程大纲课程内容学习效果掌握目标时间语义EventTime掌握IngestionTime掌握ProcessingTime掌握水印水印掌握一、时间语义scala的集合分为了两类，一类是可变的集合（集合可以执行增删改查操作），另一类是不可变集合（集合元素在初始化的时候确定，后续只能进行查，有的可以进行修改，有的不可以）。二者可能名称一样，但是在不同的包下面，对应的包为：scala.collection

dogedong·2023-11-24 11:49

Flink 迟到元素的处理

前言前面文章Flink中的时间语义和WaterMark有详细介绍过FlinkWaterMark。WaterMark的出现是用来解决乱序时间的处理也就是处理迟到元素的。

shenjianyu_rex·2023-11-24 11:49

Flink部署安装及其WorldCount执行

Flink启动及其WorldCount执行大家好，是瓜哥，最近几年，大数据处理组件Flink非常火，作为一个从事多年java的老程序员，也得跟上时代的技步伐，不然迟早就会被这个技术千变万化的时代抛弃。

IT瓜哥-杨得朝·2023-11-24 11:18

Flink State and Checkpoint、Scala中获取类对象、通过checkpoint来恢复之前的状态、process...

目录FlinkStateandCheckpointStateValueStateCheckpoint通过checkpoint来恢复之前的状态1、从Flinkweb页面2、通过flink命令StateListStateReducingStateFlinkStateandCheckpointFlink

赤兔胭脂小吕布·2023-11-24 11:18

Flink的状态管理机制

一、前言有状态的计算是流处理框架要实现的重要功能，因为稍复杂的流处理场景都需要记录状态，然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能：数据流中的数据有重复，想对重复数据去重，需要记录哪些数据已经流入过应用，当新数据流入时，根据已流入过的数据来判断去重。检查输入流是否符合某个特定的模式，需要将之前流入的元素以状态的形式缓存下来。比如，判断一个温度传感器数据流中的温度

江畔独步·2023-11-24 11:17

flink从入门到精通-flink简介

文章目录flink简介名称的由来什么是flink为什么需要flink流式计算框架比较模型StreamingModelAPI形式保证机制容错机制状态管理flink基本概念flink架构图JobManagerJobManager

星&海·2023-11-24 11:16

Flink 窗口 Window

官网地址窗口|ApacheFlinkWindowsareattheheartofprocessinginfinitestreams.Windowssplitthestreaminto“buckets”offinitesize

GrassEva·2023-11-24 11:43

为什么 Flink 抛弃了 Scala

可如今，Flink竟然公开宣布弃用Scala在Flink1.18的官方文档里，有一句非常严肃的话：所有的FlinkScalaAPIs已被标记为废弃，且将在未来版本中予以移除。

shengjk1·2023-11-24 10:40

Flink SQL 1.11新功能详解：Hive 数仓实时化 & Flink SQL + CDC 实践

问题导读1.Flink1.11有哪些新功能？2.如何使用flink-cdc-connectors捕获MySQL和Postgres的数据变更?

000X000·2023-11-24 06:18

Flink实战（八十二）：flink-sql使用（九）Flink sql 解析复杂（嵌套）JSON

原文链接：http://apache-flink.147419.n8.nabble.com/flink-1-10-sql-kafka-format-json-schema-json-object-td4665

王知无(import_bigdata)·2023-11-24 06:44

《十堂课学习 Flink SQL》第一章：引言和背景

第一章是关于FlinkSQL课程的引言和背景。这一章旨在概述有关大数据处理、流处理以及FlinkSQL的基础知识，以便接下来能够更好地结合上下文进行学习。

smile-yan·2023-11-24 06:05

Flink的状态管理

目录Flink中的状态管理状态的原因Flink的状态分类ManagedState和RawStateOperatorStateKeyedState状态一致性原文地址：https://program-park.github.io

大Null·2023-11-24 06:01

Flink状态管理之状态清除StateTtlConfig

1、Flink状态去重场景在Flink运行的时候，往往是无休止的运行，在整个Flink程序运行的长河中，往往会出现很多状态的出现，那么状态的生命周期，也就是创建、使用和销毁，那么在我们写flink程序过程中

中国好胖子、·2023-11-24 06:29

flink状态管理

flink的状态管理机制由于flink考虑到程序可能会因为某些不可预知的问题导致任务失败，而恢复作业又需要找到上次任务的断点，因此引出了flink状态机制。

呆呆敲代码敲到呆·2023-11-24 06:29

Flink状态管理及状态后端配置

Flink状态管理及状态后端配置目录Flink状态管理及状态后端配置1.什么是状态2.为什么需要管理状态3.Flink中的状态分类4.ManagedState的分类5.算子状态的使用案例1:列表状态案例

大数据面壁者·2023-11-24 06:58

【Flink】Standalone运行模式

2、单作业模式部署Flink的Standalone集群并不支持单作业模式部署。因为单作业模式需要借助一些

lxtx-0510·2023-11-24 06:57

Flink 状态管理和容错

Flink状态管理和容错一有状态的计算1.1原生方式1.2托管方式1.2.1keyedstate1.2.1.1ValueState1.2.1.2ListState1.2.1.3ReducingState1.2.1.4MapState

m0_夏黎·2023-11-24 06:54

【Flink】状态管理

目录1、状态概述1.1无状态算子1.2有状态算子2、状态分类编辑2.1算子状态2.1.1列表状态（ListState）2.1.2联合列表状态（UnionListState）2.1.3广播状态（BroadcastState）2.2按键分区状态2.2.1值状态（ValueState）2.2.2列表状态（ListState）2.2.3Map状态（MapState）2.2.4归约状态（ReducingSt

lxtx-0510·2023-11-24 06:47

Kafka集成Flink

集成Flink一、Flink环境准备二、Flink生产者1.在包名下创建java类：FlinkKafkaProducer三、Flink消费者Flink是一个在大数据开发中非常常用的组件。

Smartaotao·2023-11-24 04:46

Hbase - 自定义Rowkey规则

>在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet

kikiki5·2023-11-23 23:03

使用JMX监控ZooKeeper和Kafka

JVM默认会通过JMX的方式暴露基础指标，很多中间件也会通过JMX的方式暴露业务指标，比如Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink等等。

跟着大数据和AI去旅行·2023-11-23 23:16

flink quick start

1.flink安装与环境变量配置1.1下载安装flinkhttps://www.apache.org/dyn/closer.lua/flink/flink-1.11.1/flink-1.11.1-bin-scala

夏天_edbf·2023-11-23 23:59

Flink 替换 Logstash 解决日志收集丢失问题

在某客户日志数据迁移到火山引擎使用ELK生态的案例中，由于客户反馈之前Logstash经常发生数据丢失和收集性能较差的使用痛点，我们尝试使用Flink替代了传统的Logstash来作为日志数据解析、转换以及写入

字节跳动云原生计算·2023-11-23 18:31

Kallisto原理及应用

《Near-optimalprobabilisticRNA-seqquantification》（http://dx.doi.org/10.1038/nbt.3519）这款软件对比TopHat+cufflinks

小潤澤·2023-11-23 09:44

Flink CDC + OceanBase 全增量一体化数据集成方案

本文整理自OceanBase技术专家王赫（川粉）在5月21日FlinkCDCMeetup的演讲。

Apache Flink·2023-11-23 09:44

基于流计算 Oceanus（Flink） CDC 做好数据集成场景

作者：黄龙，腾讯CSIG高级工程师数据时代，企业对技术创新和服务水准的要求不断提高，数据已成为企业极其重要的资产。无论是在在企业数据中台的建设，亦或者是打造一站式数据开发和数据治理的PASS平台。首先需要做的就是进行跨应用的数据融合计算，需要将数据从孤立的数据源中采集出来，汇集到可被计算平台高效访问的目的地。此过程称之为ETL。通常所说的同步大致分为离线全量ETL、离线增量+离线全量的ETL、实时

腾讯云大数据·2023-11-23 09:07

实时数仓：基于 Flink CDC 实现 Oracle 数据实时更新到 Kudu

作者：于乐，腾讯CSIG工程师解决方案描述概述FlinkCDC于2021年11月15日发布了最新版本2.1，该版本通过引入内置Debezium组件，增加了对Oracle的支持。