大数据框架flink 第83页

Flink的分布式快照（检查点算法）原理--基于Chandy-Lamport算法

Flink的恢复机制的核心就是应用状态的一致性检查点，有状态流的一致性检查点，其实就是所有状态在某个时间点的一份快照拷贝，而这个时间点应该是所有任务都恰好处理完同一个输入数据。

大地你王哥·2023-08-24 21:42

Spark学习-事件日志EventLog

事件日志EventLog背景系统结构SparkEvent介绍事件类型事件内容事件日志事件分析背景最近工作需要使用Flink对Spark的应用事件日志进行处理，帮助发现Spark应用中常见异常问题，为用户提供方便快捷的常见问题排查

迷途思凡·2023-08-24 21:08

Flink的Standalone集群部署

在上篇进行单机的Standalone部署-Flink的Standalone部署实战，本篇介绍Flink的Standalone集群部署。

梦幻通灵·2023-08-24 21:00

Flink流批一体计算（15）：PyFlink Tabel API之SQL写入Sink

目录举个例子写入Sink的各种情况1.将结果数据收集到客户端2.将结果数据转换为PandasDataFrame，并收集到客户端3.将结果写入到一张Sink表中4.将结果写入多张Sink表中举个例子将计算结果写入给sink表#将TableAPI结果表数据写入sink表：result_table.execute_insert("print").wait()#或者通过SQL查询语句来写入sink表：ta

victory0508·2023-08-24 21:26

Flink流批一体计算（16）：PyFlink DataStream API

目录概述PipelineDataflow代码示例WorldCount.py执行脚本WorldCount.py概述ApacheFlink提供了DataStreamAPI，用于构建健壮的、有状态的流式应用程序

victory0508·2023-08-24 20:25

【学习笔记】尚硅谷大数据项目之Flink实时数仓---DWM层

DWM层第1章DWS层与DWM层的设计1.1设计思路1.2需求梳理第2章DWM层-访客UV计算2.1需求分析与思路2.2代码实现2.2.1从Kafka的dwd_page_log主题接收数据2.2.2核心的过滤代码2.2.3将过滤处理后的UV写入到Kafka的dwm_unique_visit2.2.4测试第3章DWM层-跳出明细计算3.1需求分析与思路3.1.1什么是跳出3.1.2计算跳出行为的思路

在学习的王哈哈·2023-08-24 17:52

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

Flink系列文章1、Flink部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink的tableapi与sql的基本概念、通用

一瓢一瓢的饮 alanchan·2023-08-24 16:54

Flink_state 的优化与 remote_state 的探索

摘要：本文整理自bilibili资深开发工程师张杨，在FlinkForwardAsia2022核心技术专场的分享。

·2023-08-24 16:40

Flink_state 的优化与 remote_state 的探索

摘要：本文整理自bilibili资深开发工程师张杨，在FlinkForwardAsia2022核心技术专场的分享。

·2023-08-24 16:40

美团增量数仓建设新进展

摘要：本文整理自美团系统研发工程师汤楚熙，在FlinkForwardAsia2022实时湖仓专场的分享。

·2023-08-24 16:36

flink sql 知其所以然（十五）：改了改源码，实现了个 batch lookup join（附源码）

1.序篇flinksql知其所以然（十四）：维表join的性能优化之路（上）附源码书接上回，上节说到了博主发现由于在flinksql中lookupjoin访问外部维表存在的性能问题。

程序员的隐秘角落·2023-08-24 15:30

Flink-ContinuousProcessingTimeTrigger源码解析及一个小问题处理

背景工作中遇到一个需求，需要按天划分窗口，并且每隔固定时间段触发一次窗口计算，时间语义为ProcessingTime。在测试过程中发现，使用ContinuousProcessingTimeTrigger会有一个问题：当窗口到达EndTime时并不会触发。测试在本地测试时使用自造数据：类别，数量，时间。然后统计每分钟的总量，每10秒钟触发一次窗口计算，并且触发窗口计算后立即清除已经计算过的所有数据，

风筝flying·2023-08-24 13:13

Flink-Basic API Concepts-overview

Flink程序会在分布式的集合上进行各类转化操作（如，filter,map,updatestate,join,group,window,aggregate）。

耳边的火·2023-08-24 12:50

Flink中批处理优化器的作用以及流程调试（一）

以批处理程序中的wordCount为例，调试一下Plan的生成以及对于优化计划OptimizedPlan的转化过程。至于如何进入Execute接口的上述过程将要放到以后进行说明，直接从生成批处理计划Plan开始：LocalExecutor类的一个方法我们可以见到当用户使用env.ecxecute（）的时候，进入Localexecutor类生成Plan，Planp来接收createProgramPl

北子萌·2023-08-24 11:20

flink checkpoint时exact-one模式和atleastone模式的区别

背景：flink在开启checkpoint的时候有两种模式可以选择，exact-one和atleastone模式，那么这两种模式有什么区别呢？

lixia0417mul2·2023-08-24 06:47

对比flink cdc和canal获取mysql binlog优缺点

FlinkCDC和Canal都是用于获取MySQLbinlog的工具，但是有以下几点优缺点对比：FlinkCDC是一个基于Flink的库，可以直接在Flink中使用，无需额外的组件或服务，而Canal是一个独立的服务

linweidong·2023-08-24 06:47

Flink CDC获取mysql 主从分库，分库分表的binlog

FlinkCDC可以获取MySQL主从分库，分库分表的binlog，但是需要注意以下几点：FlinkCDC需要配置MySQL的binlog模式为row，以及开启GTID（全局事务标识符），以便正确地识别和处理

linweidong·2023-08-24 06:46

flink cdc初始全量速度很慢原因和优化点

flinkcdc初始全量速度很慢的原因之二是，它使用了Debezium作为捕获数据变化的引擎，而Debezium在读取数据时，会使用全局锁或者快照隔离级别，这样会影响源端数据库的性能和并发能力。

linweidong·2023-08-24 06:14

Apache StreamPark系列教程第一篇——安装和体验

一、StreamPark介绍实时即未来,在实时处理流域ApacheSpark和ApacheFlink是一个伟大的进步,尤其是ApacheFlink被普遍认为是下一代大数据流计算引擎,我们在使用Flink

诸葛子房_·2023-08-24 04:58

Dinky:问题总结

一、启动时指定flink版本，因为dinky本身也集成了部分flink./auto.shstart1.12二、数据源管理新增mysql时的urljdbc:mysql://ip:3306/dinky?

Joseph25·2023-08-24 04:25

Flink：FlinkSql 问题总结

问题一，连接kudu，org.apache.kudu.shaded.com.google.common.collect.Sets解决：缺jar包，将kudu-client放到%flink_home%/lib

Joseph25·2023-08-24 04:25

【Flink】Flink架构及组件

我们学习大数据知识的时候，需要知道大数据组件如何安装以及架构组件，这将帮助我们更好的了解大数据组件对于大数据Flink，架构图图下：整个架构图有三种关键组件1、Client：负责作业的提交。

一杯咖啡半杯糖·2023-08-24 04:25

【Flink】工程搭建（java版）

不论是开发还是自己测试，都需要搭建flink工程，下面就一步步教大家实现第一个flink程序1、新建一个空的maven工程

一杯咖啡半杯糖·2023-08-24 04:24

【Flink】流数据生成器（DataGenerator）

在我们编写Flink程序的时候，常常需要测试自己程序的正确性以及给Kafka中造一些测试数据，那我们如何用Flink实现制作模拟数据呢？

一杯咖啡半杯糖·2023-08-24 04:24

【Flink】Flink广播变量

在Flink中，taskmanager中划分不同slot，计算过程中算子在多个Slot中进行，因此不同算子的计算数据之间不能像Java数组之间一样互相访问，Broadcast可以解决这个问题。

一杯咖啡半杯糖·2023-08-24 04:54

【Flink】参数不生效

提交flink的时候使用下面命令进行提交flinkrun-myarn-cluster-Djobmanager.memory.process.size=2048mb-ccom.test.Test/data

一杯咖啡半杯糖·2023-08-24 04:54

【Flink】jobmanager到底设置多少内存为好

本flink版本基于1.12在做flink开发过程中会遇到内存参数设置问题，如果设置过小会造成flink任务无法提交，那到底我们应该把flink的jobmanager设置多大才不会报错呢？

一杯咖啡半杯糖·2023-08-24 04:54

【Flink】taskmanager到底设置多少内存为好

本flink版本基于1.12在做flink开发过程中会遇到内存参数设置问题，如果设置过小会造成flink任务无法提交，那到底我们应该把flink的taskmanager设置多大才不会报错呢？

一杯咖啡半杯糖·2023-08-24 04:54

【Flink】Deployment took more than 60 seconds. Please check if the requested resources are available

flink任务提交到yarn集群出现如下问题，不断刷屏org.apache.flink.yarn.YarnClusterDescriptor[]-Deploymenttookmorethan60seconds.PleasecheckiftherequestedresourcesareavailableintheYARNclusterflinkrun-yd-myarn-cluster-ccom.te

一杯咖啡半杯糖·2023-08-24 04:24

【Flink】JobInitializationException: Could not start the JobMaster

新建了一个flink程序，提交到yarn上报错，yarn任务直接失败，异常如下：org.apache.flink.util.FlinkException:JobMasterforjob4df20274065bec19be8d933c760ebf44failed

一杯咖啡半杯糖·2023-08-24 04:24

【Flink】Could not get job jar and dependencies from JAR file: JAR file does not exist:

问题背景：使用flink客户端执行flink提交到yarn上，输入参数-yjm等调整flink参数，执行后出现下面问题/data/flink/flink-1.13.2/bin/flinkrun-yjm4096m-ytm4096m-ynmtest13

一杯咖啡半杯糖·2023-08-24 04:23

【Flink】本地访问webUI

1、加依赖org.apache.flinkflink-runtime-web_2.111.12.22、用下面方式创建flink环境StreamExecutionEnvironmentenv=StreamExecutionEnvironment.createLocalEnvironmentWithWebUI

一杯咖啡半杯糖·2023-08-24 04:23

【Flink】广播流

flink广播流适用于规则匹配，当规则数据比较少的情况，flink会把规则流广播，数据流就会拿到最新的规则流进行处理。

一杯咖啡半杯糖·2023-08-24 04:53

【Flink】FLINK-SQL 客户端

SQL客户端一般在常规Flink发行版中，如果用作日常测试则启动FLINK-SQL需要使用以下命令启动本地集群：1、找到FLINK客户端的bin目录.

一杯咖啡半杯糖·2023-08-24 04:53

【Flink】Flink提交流程

我们通常在学习的时候需要掌握大数据组件的原理以便更好的掌握这个大数据组件，Flink实际生产开发过程中最常见的就是提交到yarn上进行调度，模式使用的Per-Job模式，下面我们就给大家讲下Flink提交

一杯咖啡半杯糖·2023-08-24 04:23

flink 时间窗口

flink强大的窗口功能，是相较于其他流计算引擎比较有优势的地方。flink中窗口是如何设计的？一共有四个要素。1）windowassigner。

NazgulSun·2023-08-23 18:35

Apache Flink——输出算子（Sink）

前言Flink作为数据处理框架，最终还是要把计算处理的结果写入外部存储，为外部应用提供支持。

小波同学·2023-08-23 13:19

大数据架构师之路

这个方法被称作Lambda架构，它通过批量MapReduce作业提供了虽有些延迟但是结果准确的计算，同时通过flink/Storm将最新数据的计算结果初步展示出来。

laogooooog·2023-08-23 11:04

笔记：写Flink SQL Helper时学到的一些姿势

版本日期备注1.02023.8.23文章首发前阵子向大家分享了我写的插件https://marketplace.visualstudio.com/items?itemName=CamileSin...，最近梳理了我之前的学习相关知识时的笔记，希望能够帮到对这一块实现感兴趣的同学。1.TypeScirpt开发VSCode，可以选择使用了TypeScriptorJavaScript。虽然我没学过Typ

·2023-08-23 10:03

Flink1.17.1消费kafka3.5中的数据出现问题Failed to get metadata for topics [flink].

问题呈现Failedtogetmetadatafortopics[flink].atorg.apache.flink.connector.kafka.source.enumerator.subscriber.KafkaSubscriberUtils.getTopicMetadata

程序员 Harry·2023-08-23 08:18

美团增量数仓建设新进展

摘要：本文整理自美团系统研发工程师汤楚熙，在FlinkForwardAsia2022实时湖仓专场的分享。

Apache Flink·2023-08-23 07:34

基于阿里云 Flink+Hologres 搭建实时数仓

摘要：本文作者阿里云Hologres高级研发工程师张高迪&阿里云Flink技术内容工程师张英男，本篇内容将为您介绍如何通过实时计算Flink版和实时数仓Hologres搭建实时数仓。

Apache Flink·2023-08-23 07:33

官宣 | Apache Flink 1.12.0 正式发布，流批一体真正统一运行！

‍‍翻译|付典Review|徐榜江、朱翥ApacheFlink社区很荣幸地宣布Flink1.12.0版本正式发布！近300位贡献者参与了Flink1.12.0的开发，提交了超过1000多个修复或优化。

Apache Flink·2023-08-23 07:03

Apache Flink 实时计算在美的多业务场景下的应用与实践

摘要：本文整理自美的集团实时数据负责人、资深数据架构师董奇，在FlinkForwardAsia2022主会场的分享。

Apache Flink·2023-08-23 07:03

阿里巴巴大规模应用Flink的踩坑经验：如何大幅降低 HDFS 压力？

作者：邱从贤（山智）众所周知Flink是当前广泛使用的计算引擎，Flink使用checkpoint机制进行容错处理[1]，Flink的checkpoint会将状态快照备份到分布式存储系统，供后续恢复使用

Apache Flink·2023-08-23 07:02

flink exactly-once系列之两阶段提交概述

flinkexactly-once系列目录：一、两阶段提交概述二、TwoPhaseCommitSinkFunction与FlinkKafkaProducer源码分析三、StreamingFileSink

Flink实战剖析·2023-08-23 07:37

Flink-sql平台怎么做？

2.用户udfjar包如何被flink客户端加载3.flinkjm与tm如何加载udfjar1.sql何执行?

键盘上的艺术家w·2023-08-23 05:08

1.Flink源码编译

目录目录1.1软件安装1.1.1jdk1.1.2maven1.1.3nodejs1.2下载flink源码1.3编译源码1.4idea打开flink源码1.5运行wordcount1.1软件安装软件地址链接

键盘上的艺术家w·2023-08-23 05:07

GraphScope，开源图数据分析引擎的领航者

Github地址：https://github.com/alibaba/GraphScopeGraphScope的重要特点分布式计算引擎：GraphScope基于分布式计算框架ApacheFlink和Apac

Walter Sun·2023-08-23 05:50

Flink Table API/SQL 多分支sink

两次调用execute,阿里云Flinkvvr引擎报错：publicstaticvoidmain(String[]args){finalStreamExecutionEnvironmentenv=StreamExecutionEnvironment.getEx

desmond_assis·2023-08-23 05:50

推荐频道

大数据框架flink

Flink的分布式快照（检查点算法）原理--基于Chandy-Lamport算法

Spark学习-事件日志EventLog

Flink的Standalone集群部署

Flink流批一体计算（15）：PyFlink Tabel API之SQL写入Sink

Flink流批一体计算（16）：PyFlink DataStream API

【学习笔记】尚硅谷大数据项目之Flink实时数仓---DWM层

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

Flink_state 的优化与 remote_state 的探索

Flink_state 的优化与 remote_state 的探索

美团增量数仓建设新进展

flink sql 知其所以然（十五）：改了改源码，实现了个 batch lookup join（附源码）

Flink-ContinuousProcessingTimeTrigger源码解析及一个小问题处理

Flink-Basic API Concepts-overview

Flink中批处理优化器的作用以及流程调试（一）

flink checkpoint时exact-one模式和atleastone模式的区别

对比flink cdc和canal获取mysql binlog优缺点

Flink CDC获取mysql 主从分库，分库分表的binlog

flink cdc初始全量速度很慢原因和优化点

Apache StreamPark系列教程第一篇——安装和体验

Dinky:问题总结

Flink：FlinkSql 问题总结

【Flink】Flink架构及组件

【Flink】工程搭建（java版）

【Flink】流数据生成器（DataGenerator）

【Flink】Flink广播变量

【Flink】参数不生效

【Flink】jobmanager到底设置多少内存为好

【Flink】taskmanager到底设置多少内存为好

【Flink】Deployment took more than 60 seconds. Please check if the requested resources are available

【Flink】JobInitializationException: Could not start the JobMaster

【Flink】Could not get job jar and dependencies from JAR file: JAR file does not exist:

【Flink】本地访问webUI

【Flink】广播流

【Flink】FLINK-SQL 客户端

【Flink】Flink提交流程

flink 时间窗口

Apache Flink——输出算子（Sink）

大数据架构师之路

笔记：写Flink SQL Helper时学到的一些姿势

Flink1.17.1消费kafka3.5中的数据出现问题Failed to get metadata for topics [flink].

美团增量数仓建设新进展

基于阿里云 Flink+Hologres 搭建实时数仓

官宣 | Apache Flink 1.12.0 正式发布，流批一体真正统一运行！

Apache Flink 实时计算在美的多业务场景下的应用与实践

阿里巴巴大规模应用Flink的踩坑经验：如何大幅降低 HDFS 压力？

flink exactly-once系列之两阶段提交概述

Flink-sql平台怎么做？

1.Flink源码编译

GraphScope，开源图数据分析引擎的领航者

Flink Table API/SQL 多分支sink