--Flink 第52页

幸福里基于 Flink & Paimon 的流式数仓实践

本次分享主要介绍幸福里业务基于Flink&Paimon构建流式数仓的实践经验，从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案，借助Paimon最终能拿到的收益，以及未来规划方面进行介绍。

字节跳动云原生计算·2023-10-27 23:18

flink 在idea中编写的wordcount 重新启动后没有从检查点恢复之前的数据，为什么？

启用了检查点和状态后端，看hdfs目录确实有内容，然而重新启动后并没有从检查点恢复数据，这是为什么？？objectkafkatest{defmain(args:Array[String]){valenv=StreamExecutionEnvironment.getExecutionEnvironmentvalproperties=newProperties()properties.setPrope

Jaming R·2023-10-27 22:18

flink 关于何时编写分配watermark

我的电脑是8线程，当我运行下面这段代码时，可以输出结果，但是当把并行度注释掉时，就不输出结果了，这是为什么呢？输入数据一样，watermark应该都是一样的啊输入数据为：1585721697000,xiao,81585721700000,xiao,101585721705000,xiao,41585721715000,xiao,9caseclassLine(id:Long,name:String,

Jaming R·2023-10-27 22:18

Apache Calcite 框架原理入门和生产应用

例如列式存储(HBase)、流处理引擎(Flink)、文档搜索引擎(Elasticsearch)等等。

王知无(import_bigdata)·2023-10-27 16:47

【优化器框架】Apache Calcite - 一种用于异构数据源查询优化处理的基础框架

概要ApacheCalcite是一支持多种开源数据处理系统，例如：ApacheHive，Storm，Flink，Druid和MapD，为其提供查询处理、优化和查询语言的基础框架。

抡着鼠标扛大旗·2023-10-27 16:16

flink sql 知其所以然（六）| flink sql 约会 calcite（看这篇就够了）

1.序篇-本文结构大数据羊说用数据提升美好事物发生的概率~32篇原创内容公众号本文主要介绍flinksql与calcite之间的关系。flinksql的解析主要依赖calcite。

大数据羊说·2023-10-27 16:45

FlinkSql 使用总结

一、FlinkSQL底层实现理解FlinkSQL在flinkFramework的位置FlinkTable&SQLAPI是在DataStream和DataSet之上封装的一层高级API。

Fiona Hitane·2023-10-27 16:09

Flink CDC 2.0 主要是借鉴 DBLog 算法

DBLog算法原理DBLog这个算法的原理分成两个部分，第一部分是分chunk，第二部分是读chunk。分chunk就是把一张表分为多个chunk（桶/片）。我可以把这些chunk分发给不同的并发的task去做。例如：有reader1和reader2，不同的reader负责读不同的chunk。其实只要保证每个reader读的那个chunk是完整的，也能跟最新的Binlog能够匹配在一起就可以了。在

wangqiaowq·2023-10-27 12:42

Flink详解系列之八--Checkpoint和Savepoint

一、Checkpoint获取分布式数据流和算子状态的一致性快照是Flink容错机制的核心，这些快照在Flink作业恢复时作为一致性检查点存在。

wrr-cat·2023-10-27 11:30

Flink任务中的checkpoing与savepoint相关问题

##一、现象：checkpoint正常，savepoint不可做问题：flink-conf.yaml中缺少相应的配置解决方案：在flink-conf.yaml中增加配置state.backend:filesystem

鬼谷第九徒·2023-10-27 11:59

flink savepoint 和 checkpoint对比

flink设计checkpoint为什么还要设计savepoint？

笔墨新城·2023-10-27 11:58

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQLClient从savepoint恢复作业。

BigDataToAI·2023-10-27 11:28

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

点击上方蓝色字体，选择“设为星标”回复”面试“获取更多惊喜在阅读本文之前，你应该阅读过的系列：《Flink重点难点：时间、窗口和流Join》《Flink重点难点：网络流控和反压》《Flink重点难点：维表关联理论和

王知无(import_bigdata)·2023-10-27 11:56

Flink Native Kubernetes (二）基于阿里云OSS的checkpoint和savepoint测试

目录准备开始制作镜像编写测试应用发布应用测试checkpoint测试Savepoint准备前提已经有一定flink基础上一篇文章环境搭建Demo运行已经完成基础的Demo试跑接下来测试精确一次语义source

Xiaohuansong·2023-10-27 11:26

Flink-Checkpoint&Savepoint-任务恢复，任务保障制度

异同1.savepoint和checkpoint的区别checkpoint是代码中flinkjob定期做的检测点,savepoint是需要更新程序jar或升级停止job时人为指定的保存状态目录，savepoint

for your wish·2023-10-27 11:26

Flink：从业务实践角度聊聊Checkpoint、Savepoint、容错机制和业务升级

接着状态缓存和内存管理后，再聊聊容错机制上文：Flink：从业务实践角度聊聊状态缓存和内存管理多说一句，说实话个人之前研究这部分内容时，有时也会百度，但是很烦的就是，不知道是搜索引擎问题还是大家都喜欢粘贴复制

小明同学YYDS·2023-10-27 11:55

Flink savepoint | checkpoint 恢复

savepoint手动触发savepointroot@flink-jobmanager-0:/opt/flink/bin#.

胖胖胖胖胖虎·2023-10-27 11:55

flink版本升级之 checkpoint和savepoint 代码和SQL

savepoint可以恢复.亲测2SQL和TableAPI这两个官方不担保版本升级兼容chk/savepointstreamAPI基本兼容官网有提到连接自己找总结如果你的checkpoint不能丢且后续可能存在flink

Thomas2143·2023-10-27 11:20

flinksql kafka到mysql累计指标练习

flinksql累计指标练习数据流向：kafka->kafka->mysql模拟写数据到kafkatopic：wxt中importcom.alibaba.fastjson.JSONObject;importorg.apache.kafka.clients.producer.KafkaProducer

小涛手记·2023-10-27 08:29

Apache Flink 1.10.0 重磅发布，年度最大规模版本升级！

新特性及优化内存管理及配置优化Flink目前的TaskExecutor内存模型存在着一些缺陷，导致优化资源利用率比较困难，例如：流和批处理内存占用的配置模型不同；流处理中的RocksDBstatebackend

阿里云技术·2023-10-27 07:04

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

翻译｜宋辛童校对｜李钰ApacheFlink社区迎来了激动人心的两位数位版本号，Flink1.10.0正式宣告发布！

Apache Flink·2023-10-27 07:04

Flink UDF 自动注册实践

https://www.bilibili.com/video/AV36166554/日前，在更新UDF函数这块的一些功能时，发现一些较为细小但大家都会遇到的问题，作为趟过的坑发出来，希望大家能够避免。1.注册UDF函数1.1注册相关方法此处，我们使用的udf函数为标量函数，它继承的是ScalarFunction，该类在我们的使用中，发现它继承自UserDefinedFunction这个类，该处的u

小白程序员的翻身之旅·2023-10-27 07:31

Apache Flink 1.10.0 最新发布，年度最大规模版本升级！

ApacheFlink社区迎来了激动人心的两位数位版本号，Flink1.10.0正式宣告发布！

少年阿峣_从零单排·2023-10-27 07:28

Flink on yarn 加载失败plugins失效问题解决

Flinkonyarn加载失败plugins失效问题解决flink版本：1.13.61.问题flink任务运行在yarn集群,plugins加载失效,导致通过扩展资源获取任务参数失效2.问题定位yarn

老鼠扛刀满街找猫@·2023-10-27 07:28

展望Flink各版本及新特性

展望Flink各版本及新特性一Flink1.9版本1.1细粒度批作业恢复1.2StateProcessorAPI1.3Stop-with-Savepoint1.4新BlinkSQL查询处理器预览1.5TableAPI

奋斗的IT小白菜·2023-10-27 07:28

0基础学习PyFlink——用户自定义函数之UDAF

大纲UDAF入参并非表中一行（Row）的集合计算每个人考了几门课计算每门课有几个人考试计算每个人的平均分计算每课的平均分计算每个人的最高分和最低分入参是表中一行（Row）的集合计算每个人的最高分、最低分以及所属的课程计算每课的最高分数、最低分数以及所属人完整代码入参并非表中一行（Row）的集合入参是表中一行（Row）的集合在前面几篇文章中，我们学习了非聚合类的用户自定义函数。这节我们将介绍最简单的

breaksoftware·2023-10-27 07:14

Flink 源码笔记 — execute 后发生了什么？

前言我们知道，Flink程序的执行是在我们调用env.execute()后才会真正开始。

飞不高的老鸟·2023-10-27 07:54

Flink1.11升级填坑

背景现有集群版本是Flink1.10.1，想要升级到社区最新的版本Flink1.11.1.踩坑过程Nohostnamecouldberesolvedforipaddress详细的社区邮件讨论过程如下：http

GuoSmileSmile·2023-10-27 06:24

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE表基于SparkSQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi

笑一笑、·2023-10-27 01:04

使用Flink Streaming Query 查询Hudi(出现包冲突以及Hive 3.1.3 编译Hudi 时间戳异常)

org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormatClassNotFoundExceptionKeywords:Hudi编译Hive，Flink

Such Devotion·2023-10-27 01:31

Hudi 0.14.0 编译

1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3spark3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/

跟着大数据和AI去旅行·2023-10-27 01:00

0基础学习PyFlink——用户自定义函数之UDF

大纲标量函数入参并非表中一行（Row）入参是表中一行（Row）aliasPyFlink中关于用户定义方法有：UDF：用户自定义函数。UDTF：用户自定义表值函数。UDAF：用户自定义聚合函数。

breaksoftware·2023-10-27 01:50

0基础学习PyFlink——用户自定义函数之UDTF

大纲表值函数完整代码在《0基础学习PyFlink——用户自定义函数之UDF》中，我们讲解了UDF。

breaksoftware·2023-10-27 01:15

技本功丨用短平快的方式告诉你：Flink-SQL的扩展实现 ...

回馈给ApacheFlink社区。官方称，计算延迟已经降到毫秒级，也就是你在浏览网页的时候，眨了一下眼睛，淘宝、天猫处理的信息已经刷新了17亿次。

weixin_34081595·2023-10-26 18:00

flink sql 知其所以然（一）| source\sink 原理

1.序篇-本文结构本文从以下五个小节介绍flinksqlsource\sink\format的概念、原理。

大数据羊说·2023-10-26 18:29

Flink、Iceberg和Hive的Catalog比较研究

所谓Catalog即数据目录，简单讲，Catalog是企业用于管理数据资产的方式，Catalog借助元数据来管理数据，包括数据收集、组织、访问、发现和治理。可见，Catalog在数据资产管理中处于核心位置。元数据本身内容非常丰富，包括技术元数据、业务元数据和操作元数据，本文仅仅研究大数据计算存储框架本身的技术元数据，比如数据库、数据表、分区、视图、函数等。限于篇幅，参与比较的计算存储框架为Flin

滴普科技·2023-10-26 18:55

flink学习（一）

前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎

Daivei_lai·2023-10-26 18:25

（二开）Flink 修改源码拓展 SQL 语法

1、Flink扩展calcite中的语法解析1）定义需要的SqlNode节点类-以SqlShowCatalogs为例a）类位置flink/flink-table/flink-sql-parser/src

猫猫爱吃小鱼粮·2023-10-26 18:54

k8s 1.28版本：使用StorageClass动态创建PV，SelfLink 问题修复

k8s中提供了一套自动创建PV的机制，就是基于StorageClass进行的，通过StorageClass可以实现仅仅配置PVC，然后交由StorageClass根据PVC的需求动态创建PV。问题：使用k8s1.28版本，通过kubectlgetpvc，发现PVC一直处于Pending状态。通过kubectldescribepvc[pvc名称]描述，发现如下错误：Waitingforavo

扛麻袋的少年·2023-10-26 16:38

flink接入mqtt数据源

flink没有原生的mqtt数据源，但可以通过自定义数据源进行添加mqtt的数据源。

如果丶可以坑·2023-10-26 14:45

流式计算系统

从2018年年中参与Flink社区的开发，到在阿里巴巴BLINK团队和鹅厂数据中心的FLINK团队基于Flink支持了诸多流式计算作业的运行，这段时间的经历使

slivelight·2023-10-26 13:14

Flink写入HDFS（文本，parquet，parquet+snappy）

flink版本：1.10.0code://构建env环境valenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing

乖乖猪001·2023-10-26 12:43

【Flink 实战系列】Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS（parquet 格式 + snappy 压缩）

FlinkSQL同步Kafka数据到HDFS（parquet+snappy）在上一篇文章中，我们用datastreamAPI实现了从Kafka读取数据写到HDFS并且用snappy压缩，今天这篇文章我们来实现一个

JasonLee实时计算·2023-10-26 12:12

flink on k8s (flink-1.13.0 最新版本 application 部署方式)

flinkonk8s(flink-1.13.0最新版本application部署方式)run-application模式（此方式一劳永逸，节省资源+数据隔离，集群之间不会相互影响）①，将自己的项目jar

静坛灵露·2023-10-26 12:10

实时数仓Hologres

实时更新、实时分析，支持标准SQL（兼容PostgreSQL协议），支持PB级数据多维分析（OLAP）与即席分析（AdHoc），支持高并发低延迟的在线数据服务（Serving），与MaxCompute、Flink

大数据开发工程师-宋权·2023-10-26 12:09

flink on k8s 访问hive hadoop

本文适用于flink1.10-1.12版本。

Yaphets丶混世大魔王·2023-10-26 12:09

行为分析环境安装手册：Nginx+Flume+Kafka+Flink+Clickhouse

一、Nginx1、简介Nginx("enginex")是一款是由俄罗斯的程序设计师IgorSysoev所开发高性能的Web和反向代理服务器，也是一个IMAP/POP3/SMTP代理服务器。在高连接并发的情况下，Nginx是Apache服务器不错的替代品。2、安装步骤系统平台：CentOSrelease6.664位●安装编译工具及库文件yum-yinstallmakezlibzlib-develgc

小象智慧·2023-10-26 12:08

修炼k8s+flink+hdfs+dlink（六：学习namespace，service）

一：什么是namespace？你可以认为namespaces是你kubernetes集群中的虚拟化集群。在一个Kubernetes集群中可以拥有多个命名空间，它们在逻辑上彼此隔离。他们可以为您和您的团队提供组织，安全甚至性能方面的帮助！二：怎么创建绑定namespace？1.创建。cat>>product_namespaces.yaml<

宇智波云·2023-10-26 12:36

大数据Flink（一百零二）：SQL 聚合函数（Aggregate Function）

文章目录SQL聚合函数（AggregateFunction）SQL聚合函数（AggregateFunction）PythonUDAF，即PythonAggregateFunction。PythonUDAF用来针对一组数据进行聚合运算，比如同一个window下的多条数据、或者同一个key下的多条数据等。针对同一组输入数据，PythonAggregateFunction产生一条输出数据。比如以下示例，

Lansonli·2023-10-26 10:41

【API篇】十一、Flink水位线传递与迟到数据处理

文章目录1、水位线传递2、水位线设置空闲等待3、迟到数据处理：窗口允许迟到4、迟到数据处理：侧流输出5、问1、水位线传递上游task处理完水位线，时钟改变后，要把数据和当前水位线继续往下游算子的task发送。当一个任务接收到多个上游并行任务传递来的水位线时，以最小的那个作为当前任务的事件时钟。如图：上游算子并行度为4，：-第一波的2.4.3.6传递到下游task，取2-其中一个上游task的数据4

-代号9527·2023-10-26 07:38

推荐频道

--Flink