Flink流处理第45页

flink中配置Rockdb的重要配置项

背景由于我们在flink中使用了状态比较大，无法完全把状态数据存放到tm的堆内存中，所以我们选择了把状态存放到rockdb上，也就是使用rockdb作为状态后端存储,本文就是简单记录下使用rockdb状态后端存储的几个重要的配置项使用

lixia0417mul2·2023-11-18 18:14

【kerberos】使用 curl 访问受 Kerberos HTTP SPNEGO 保护的 URL

由于我想获取flink任务的详情，且KNOX并不支持Flinkapi，查看KNOX直接的列表：https://docs.cloudera.com/cdp-private-cloud-base/7.1.7

kiraraLou·2023-11-17 16:33

实时数仓入门训练营：Hologres性能调优实践

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算Flink版和Hologres的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容

阿里云云栖号·2023-11-17 14:11

首次揭秘云原生Hologres存储引擎

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（Hologres）+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地，为大数据平台创下一项新纪录。

阿里云技术·2023-11-17 14:09

iceberg常见bug

TheequalityfielddayshouldbeNOTNULL建表时报错，原因是作为分区字段的day，应该是notnull属性，在dayint,后面加上dayintnotnull就可以了Causedby:org.apache.flink.table.api.ValidationException

Direction_Wind·2023-11-17 14:57

nebula graph 3.0.x 导入数据

适用场景优势前提条件操作步骤启动命令配置文件说明NebulaExchange版本系列适用场景产品优点数据源使用限制NebulaSparkConnector适用场景特性获取NebulaSparkConnectorNebulaFlinkConnector

大怀特·2023-11-17 06:07

kafka分布式安装部署

1.集群规划2.集群部署官方下载地址：http://kafka.apache.org/downloads.html（1）上传并解压安装包[zhangflink@9wmwtivvjuibcd2epackage

Appreciate(欣赏)·2023-11-17 06:54

【Doris】通过Stream Load解决Doris同步产生err=-235 or -215 or -238问题

文章目录任务流程异常说明StreamLoad介绍简单说明支持数据格式前置条件启动批量删除方式相关代码示例任务流程异常说明当MySQL端批量进行Delete或Update操作，产生大量Binlog，进入到Flink

鼠标左键·2023-11-17 01:25

Spark+Flink+DW+DB

6.Spark面试题（约9.8w字）1.介绍下SparkSpark是一个快速、通用、可扩展的大数据处理和分析引擎。它提供了一种高级编程模型和丰富的API，使开发人员能够轻松地处理大规模的结构化和非结构化数据。Spark的核心概念是弹性分布式数据集（RDD），它是一个可分区、可并行操作的容错数据集合。RDD具有容错性和高效性能，可以在内存中缓存数据，以支持多次迭代计算和快速数据共享，从而加速数据处理

我是Sol啊·2023-11-17 00:31

后季暖·2023-11-16 23:46

Kafka的重要组件，谈谈流处理引擎Kafka Stream

SpringBoot对接Kafka架构必备能力——kafka的选型对比及应用场景Kafka存取原理与实现分析，打破面试难关防止消息丢失与消息重复——Kafka可靠性分析及优化实践Kafka的重要组件，谈谈流处理引擎

战斧·2023-11-16 22:15

kafka应用场景

ApacheKafka是一个分布式流处理平台，通常用于处理和管理大量的实时数据流。它具有高吞吐量、可伸缩性和持久性等特点，因此在各种应用场景中都有广泛的应用。

风神.NET·2023-11-16 22:34

Kafka 的应用场景

Kafka不仅仅是一个消息队列，它还是一个开源的分布式流处理平台。Kafka的应用场景Kafka作为一款热门的消息队列中间件，具备高效可靠的消息异步传递机制，主要用于

旷野历程·2023-11-16 22:33

你的数据倾斜了吗？一文帮你数据处理再均衡

前言此篇主要总结到Hive,Flink,Spark出现数据倾斜的表现，原因和解决办法。首先会让大家认识到不同框架或者计算引擎处理倾斜的方案。最后你会发现计算框架只是“异曲”，文末总结才是“同工之妙”。

大数据左右手·2023-11-16 21:41

实时数据架构体系建设思路

实时数据架构体系建设思路（含一个很接地气的demo）DBAplus社群6天前以下文章来源于Flink中文社区，作者刘大龙@唯品会Flink中文社区ApacheFlink官微，FlinkPMC维护随着互联网的发展进入下半场

脆脆的玻璃心·2023-11-16 18:33

Flink入门教程

1.简介ApacheFlink是一个开源的分布式流处理框架，旨在提供高效、可扩展、容错的流式数据处理技术，支持实时流处理和批处理，并提供了Java、Scala、Python等语言的API。

zzy979·2023-11-16 18:21

《Flink原理、实战与性能优化》（Flink知识梳理一）

Flink原名StratosphereFlink是基于事件驱动的，而SparkStreaming微批模型，生成微小的数据批次Spark的弱点：Spark基于批处理原理，对流式计算相对较弱（本质上是对Hadoop

无影风Victorz·2023-11-16 18:40

Flink中的时间和窗口完整使用 (第六章)

Flink中的时间和窗口完整使用一、时间语义1、Flink中的时间语义1.处理时间（ProcessingTime）2.事件时间（EventTime）3、问题二、水位线1、事件时间和窗口2、什么是水位线1

小坏讲微服务·2023-11-16 18:36

【学习笔记】大数据技术之Flink(二)

大数据技术之Flink问题1.Flink中迟到数据如何解决？

在学习的王哈哈·2023-11-16 18:04

Flink入门第七课：Flink DataStaem Api的Window操作

importcom.atguigu.Fbeans.SensorReading;importorg.apache.commons.collections.IteratorUtils;importorg.apache.flink.api.common.functions.AggregateFunction

曹利荣·2023-11-16 18:03

Flink之OperatorState

在Flink中状态主要分为三种:OperatorState(算子状态)KeyedState(键控状态)BroadcastState(广播状态)这里简单介绍一下OperatorState的使用,说到使用State

飞天小老头·2023-11-16 17:59

Flink之数据擦除及自定义Evictor

1窗口数据移除机制Flink中窗口数据移除机制是通过Evictor来控制的,Flink内置的Evictor如下:DeltaEvictorTimeEvictorCountEvictorEvictor的作用就是在窗口触发前或窗口触发中将其中的某些数据进行移除

飞天小老头·2023-11-16 17:54

在KeyarchOS上搭建Flink 1.12.7

目录1概述2安装准备2.1操作系统环境2.2Flink版本3安装3.1安装JAVA3.2安装Flink3.3配置Flink4运行Flink4.1启动Flink4.2查看web页面4.3运行测试脚本4.4

KeyarchOS·2023-11-16 10:33

Flink 整合 hudi

1、hudi介绍：Hudi是一个开源的大数据存储和处理框架，通过提供数据表、写入、读取、更新和删除等功能，实现了高效的增量数据处理和数据管理。它广泛应用于大数据领域，为数据湖环境下的数据操作提供了强大的支持。不仅可以存储数据，也可以将元数据存在在其中。优点：不在只依赖于分布式的文件存储系统，对分布式具有解耦合，数据的存储位置可以不用固定，数据并不是只能存储在hdfs中了。主要的作用：计算引擎可以是

新手小农·2023-11-16 08:21

Flink Checkpoint 问题排查实用指南

作者：邱从贤（山智）在Flink中，状态可靠性保证由Checkpoint支持，当作业出现failover的情况下，Flink会从最近成功的Checkpoint恢复。

Apache Flink·2023-11-16 08:49

Flink on YARN（下）：常见问题与排查思路

Flink支持Standalone独立部署和YARN、Kubernetes、Mesos等集群部署模式，其中YARN集群部署模式在国内的应用越来越广泛。

worldchinalee·2023-11-16 08:19

Flink任务日志写到kafka【最新1.12，1.13】

Flink1.12开始默认的日志框架就是log4j2，那么配置的方式跟之前log4j的方式有了一些区别，这边也踩了一些坑才解决。

FishMAN_已存在·2023-11-16 08:49

Flink on YARN 常见问题与排查思路

杨弢（搏远），阿里巴巴计算平台事业部技术专家，ApacheHadoopCommitter，目前专注于YARN、Flink、YuniKorn等开源项目的资源调度方向。

zhisheng_blog·2023-11-16 08:48

Flink cdc +doris生产遇到的问题汇总-持续更新

知识备份：阿里云FlinkCDC文档地址：MySQL的CDC源表-实时计算Flink版-阿里云cdc参数:WITH参数参数说明是否

黄瓜炖啤酒鸭·2023-11-16 08:18

Flink故障排查

参考cpu问题https://www.cnblogs.com/wuchanming/p/7766994.htmlhttps://blog.csdn.net/m0_46449152/article/details/111936485内存问题https://www.jianshu.com/p/15637724ef161.查看TaskHeap是否经常达到100%2.查看老年代FullGC发生次数解决方法

画画的老顽童·2023-11-16 08:18

Flink on yarn任务日志怎么看

1、jobmanager日志在yarn上可以直接看2、taskmanager日志在flink的webui中可以看，但是flink任务失败后，webui就不存在了，那怎么看？

qzWsong·2023-11-16 08:47

入坑Flink - Flink on Yarn提交任务异常

入坑Flink-FlinkonYarn提交任务异常在通过flinkrun-myarn-cluster提交任务过程中任务一直created查看jobManager日志发现jar包冲突2021-01-2516

机智的大脚猴·2023-11-16 08:47

解决Flink输出日志中时间比当前时间晚8个小时的问题

解决Flink输出日志中时间比当前时间晚8个小时的问题在flinkstandalone集群上，发现log输出时间比当前时间晚8个小时，我的集群系统时间是CTM+8时区的。

张行之·2023-11-16 08:47

Flink on yarn日志收集

背景在Flinkonyarn的模式下,程序运行的日志会分散的存储在不同的DN上,当Flink任务发生异常的时候,我们需要查看日志来定位问题,一般我们会选择通过FlinkUI上面的logs来查看日志,或者登录到对应的服务器上去查看

'煎饼侠·2023-11-16 08:16

【Flink】Flink任务缺失Jobmanager日志的问题排查

Flink任务缺失Jobmanager日志的问题排查问题不是大问题，不是什么代码级别的高深问题，也没有影响任务运行，纯粹因为人员粗心导致，记录一下排查的过程。

Meepoljd·2023-11-16 08:44

【入门Flink】- 11Flink实现动态TopN

基本处理函数（ProcessFunction）stream.process(newMyProcessFunction())方法需要传入一个ProcessFunction作为参数，ProcessFunction不是接口，而是一个抽象类，继承了AbstractRichFunction，所有的处理函数，都是富函数（RichFunction），拥有富函数所有功能。//泛型：//Typeparameters

不进大厂不改名二号·2023-11-16 05:37

遇到bug的解决办法，测试再也不背锅了

原因明确，误报就会降低多个系统交互，可以明确指出是哪个系统的缺陷，防止“踢皮球”，提高问题解决的效率增强开发对测试的信任度，沟通更有效，配合的更好，开发修改bug时效增强更有效的了解系统的内部逻辑、数据流处理流程

测试界的飘柔·2023-11-16 05:05

Flink和Kafka连接时的精确一次保证

Flink写入Kafka两阶段提交端到端的exactly-once（精准一次）kafka->Flink->kafka1）输入端输入数据源端的Kafka可以对数据进行持久化保存，并可以重置偏移量（offset

不进大厂不改名二号·2023-11-16 05:29

Flume（一）【Flume 概述】

前言今天实在不知道学点什么好了，早上学了3个多小时的Flink，整天只学一门技术是很容易丧失兴趣的。那就学点新的东西Flume，虽然Kafka还没学完，但是大数据生态圈的基础组件也基本就剩这倆了。

让线程再跑一会·2023-11-16 01:46

2022年最新版 | Flink经典线上问题小盘点

2020年和2021年分别写了很多篇类似的文章，这篇文章是关于Flink生产环境中遇到的各种问题的汇总。这个版本在Flink新版本的基础上梳理了一个更加完整的版本。

王知无(import_bigdata)·2023-11-15 19:36

Flink SQL CDC 上线！我们总结了 13 条生产实践经验

摘要：7月，Flink1.11新版发布，在生态及易用性上有大幅提升，其中Table&SQL开始支持ChangeDataCapture（CDC）。

zhisheng_blog·2023-11-15 19:35

实时数据平台-Mysql到Mysql(Flink CDC和Debezium)

这里我们经常用到的组件是FlinkCDC，从下图我们看到对于FlinkCDC和Debezium的几个功能项都是支持的，区别为FlinkCDC可以做分布式，Debezium只能做单机。

diu_lei·2023-11-15 19:57

Flink 1.12的CDC

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代，其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。

'煎饼侠·2023-11-15 19:56

Flink-CDC 1.X 源码分享

1.FlinkCDC介绍1.1定义：CDC是变更数据捕获(ChangeDataCapture)技术的缩写，它可以将源数据库(Source)的增量变动记录，同步到一个或多个数据目的(Sink)。

'煎饼侠·2023-11-15 19:56

StarRocks × Apache Flink：如何构建简单强大的实时数仓架构

实时数据分析正在成为企业数字化经营的核心，如何有效构建实时数据分析系统是每个企业都在面临的挑战。当前在构建实时数仓时，由于数据源的多样性，需要使用不同的采集工具，如Flume、Canal、Logstash。对于不同的业务，我们通常会采用不同的分析引擎。比如，对于固定报表业务，根据已知的查询语句可以预先将事实表与维度表打平成宽表，充分利用ClickHouse强大的单表查询能力；对于高并发的查询请求，

大数据技术架构·2023-11-15 16:27

数据同步工具调研选型：SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据

SeaTunnel·2023-11-15 16:20

从0开始学大数据15-流式计算的代表：Storm、Flink、SparkStreaming

15|流式计算的代表：Storm、Flink、SparkStreaming我前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据，这类计算也叫大数据批处理计算。

源码头·2023-11-15 15:18

Flink中的时间语义和WaterMark

1.Flink时间语义Flink定义了三类时间处理时间（ProcessTime）数据进入Flink被处理的系统时间（Operator处理数据的系统时间）事件时间（EventTime）数据在数据源产生的时间

shenjianyu_rex·2023-11-15 14:59

【Flink Scala】时间语义和Watermark

时间语义和Watermark时间语义Flink中的时间语义EventTime的引入Waterkmark（水位线）基本概念理解案例Watermark的导入自定义生成watermark时间语义Flink中的时间语义在

飝鱻.·2023-11-15 14:56

Flink 支持三种时间语义

在ApacheFlink中，时间在流处理中是一个重要的概念，而时间语义则用于定义事件发生的时间。

贾斯汀玛尔斯·2023-11-15 14:53

推荐频道

Flink流处理