大数据计算-Flink 第41页

iceberg常见bug

TheequalityfielddayshouldbeNOTNULL建表时报错，原因是作为分区字段的day，应该是notnull属性，在dayint,后面加上dayintnotnull就可以了Causedby:org.apache.flink.table.api.ValidationException

Direction_Wind·2023-11-17 14:57

Spark调优 | Spark性能优化实战手册

《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优篇》《Spark性能优化：shuffle调优篇》Spark性能优化：开发调优篇在大数据计算领域，Spark

大数据技术架构·2023-11-17 10:39

nebula graph 3.0.x 导入数据

适用场景优势前提条件操作步骤启动命令配置文件说明NebulaExchange版本系列适用场景产品优点数据源使用限制NebulaSparkConnector适用场景特性获取NebulaSparkConnectorNebulaFlinkConnector

大怀特·2023-11-17 06:07

kafka分布式安装部署

1.集群规划2.集群部署官方下载地址：http://kafka.apache.org/downloads.html（1）上传并解压安装包[zhangflink@9wmwtivvjuibcd2epackage

Appreciate(欣赏)·2023-11-17 06:54

【Doris】通过Stream Load解决Doris同步产生err=-235 or -215 or -238问题

文章目录任务流程异常说明StreamLoad介绍简单说明支持数据格式前置条件启动批量删除方式相关代码示例任务流程异常说明当MySQL端批量进行Delete或Update操作，产生大量Binlog，进入到Flink

鼠标左键·2023-11-17 01:25

Spark+Flink+DW+DB

6.Spark面试题（约9.8w字）1.介绍下SparkSpark是一个快速、通用、可扩展的大数据处理和分析引擎。它提供了一种高级编程模型和丰富的API，使开发人员能够轻松地处理大规模的结构化和非结构化数据。Spark的核心概念是弹性分布式数据集（RDD），它是一个可分区、可并行操作的容错数据集合。RDD具有容错性和高效性能，可以在内存中缓存数据，以支持多次迭代计算和快速数据共享，从而加速数据处理

我是Sol啊·2023-11-17 00:31

后季暖·2023-11-16 23:46

腾讯云轻量服务器和云服务器区别

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

腮帮子疼·2023-11-16 23:36

你的数据倾斜了吗？一文帮你数据处理再均衡

前言此篇主要总结到Hive,Flink,Spark出现数据倾斜的表现，原因和解决办法。首先会让大家认识到不同框架或者计算引擎处理倾斜的方案。最后你会发现计算框架只是“异曲”，文末总结才是“同工之妙”。

大数据左右手·2023-11-16 21:41

实时数据架构体系建设思路

实时数据架构体系建设思路（含一个很接地气的demo）DBAplus社群6天前以下文章来源于Flink中文社区，作者刘大龙@唯品会Flink中文社区ApacheFlink官微，FlinkPMC维护随着互联网的发展进入下半场

脆脆的玻璃心·2023-11-16 18:33

Flink入门教程

1.简介ApacheFlink是一个开源的分布式流处理框架，旨在提供高效、可扩展、容错的流式数据处理技术，支持实时流处理和批处理，并提供了Java、Scala、Python等语言的API。

zzy979·2023-11-16 18:21

《Flink原理、实战与性能优化》（Flink知识梳理一）

Flink原名StratosphereFlink是基于事件驱动的，而SparkStreaming微批模型，生成微小的数据批次Spark的弱点：Spark基于批处理原理，对流式计算相对较弱（本质上是对Hadoop

无影风Victorz·2023-11-16 18:40

Flink中的时间和窗口完整使用 (第六章)

Flink中的时间和窗口完整使用一、时间语义1、Flink中的时间语义1.处理时间（ProcessingTime）2.事件时间（EventTime）3、问题二、水位线1、事件时间和窗口2、什么是水位线1

小坏讲微服务·2023-11-16 18:36

【学习笔记】大数据技术之Flink(二)

大数据技术之Flink问题1.Flink中迟到数据如何解决？

在学习的王哈哈·2023-11-16 18:04

Flink入门第七课：Flink DataStaem Api的Window操作

importcom.atguigu.Fbeans.SensorReading;importorg.apache.commons.collections.IteratorUtils;importorg.apache.flink.api.common.functions.AggregateFunction

曹利荣·2023-11-16 18:03

Flink之OperatorState

在Flink中状态主要分为三种:OperatorState(算子状态)KeyedState(键控状态)BroadcastState(广播状态)这里简单介绍一下OperatorState的使用,说到使用State

飞天小老头·2023-11-16 17:59

Flink之数据擦除及自定义Evictor

1窗口数据移除机制Flink中窗口数据移除机制是通过Evictor来控制的,Flink内置的Evictor如下:DeltaEvictorTimeEvictorCountEvictorEvictor的作用就是在窗口触发前或窗口触发中将其中的某些数据进行移除

飞天小老头·2023-11-16 17:54

ApachePulsar原理解析与应用实践（学习笔记一）

大数据系统往往需要处理流式数据，通过消息队列将数据进行采集和汇总，然后导入大数据计算引擎或者存储。目前各种云原生技术都比较丰富，但是消息中间件MQ的云原生技术目前了解到的只有pulsa

坚持学习的Lele·2023-11-16 14:17

在KeyarchOS上搭建Flink 1.12.7

目录1概述2安装准备2.1操作系统环境2.2Flink版本3安装3.1安装JAVA3.2安装Flink3.3配置Flink4运行Flink4.1启动Flink4.2查看web页面4.3运行测试脚本4.4

KeyarchOS·2023-11-16 10:33

Flink 整合 hudi

1、hudi介绍：Hudi是一个开源的大数据存储和处理框架，通过提供数据表、写入、读取、更新和删除等功能，实现了高效的增量数据处理和数据管理。它广泛应用于大数据领域，为数据湖环境下的数据操作提供了强大的支持。不仅可以存储数据，也可以将元数据存在在其中。优点：不在只依赖于分布式的文件存储系统，对分布式具有解耦合，数据的存储位置可以不用固定，数据并不是只能存储在hdfs中了。主要的作用：计算引擎可以是

新手小农·2023-11-16 08:21

Flink Checkpoint 问题排查实用指南

作者：邱从贤（山智）在Flink中，状态可靠性保证由Checkpoint支持，当作业出现failover的情况下，Flink会从最近成功的Checkpoint恢复。

Apache Flink·2023-11-16 08:49

Flink on YARN（下）：常见问题与排查思路

Flink支持Standalone独立部署和YARN、Kubernetes、Mesos等集群部署模式，其中YARN集群部署模式在国内的应用越来越广泛。

worldchinalee·2023-11-16 08:19

Flink任务日志写到kafka【最新1.12，1.13】

Flink1.12开始默认的日志框架就是log4j2，那么配置的方式跟之前log4j的方式有了一些区别，这边也踩了一些坑才解决。

FishMAN_已存在·2023-11-16 08:49

Flink on YARN 常见问题与排查思路

杨弢（搏远），阿里巴巴计算平台事业部技术专家，ApacheHadoopCommitter，目前专注于YARN、Flink、YuniKorn等开源项目的资源调度方向。

zhisheng_blog·2023-11-16 08:48

Flink cdc +doris生产遇到的问题汇总-持续更新

知识备份：阿里云FlinkCDC文档地址：MySQL的CDC源表-实时计算Flink版-阿里云cdc参数:WITH参数参数说明是否

黄瓜炖啤酒鸭·2023-11-16 08:18

Flink故障排查

参考cpu问题https://www.cnblogs.com/wuchanming/p/7766994.htmlhttps://blog.csdn.net/m0_46449152/article/details/111936485内存问题https://www.jianshu.com/p/15637724ef161.查看TaskHeap是否经常达到100%2.查看老年代FullGC发生次数解决方法

画画的老顽童·2023-11-16 08:18

Flink on yarn任务日志怎么看

1、jobmanager日志在yarn上可以直接看2、taskmanager日志在flink的webui中可以看，但是flink任务失败后，webui就不存在了，那怎么看？

qzWsong·2023-11-16 08:47

入坑Flink - Flink on Yarn提交任务异常

入坑Flink-FlinkonYarn提交任务异常在通过flinkrun-myarn-cluster提交任务过程中任务一直created查看jobManager日志发现jar包冲突2021-01-2516

机智的大脚猴·2023-11-16 08:47

解决Flink输出日志中时间比当前时间晚8个小时的问题

解决Flink输出日志中时间比当前时间晚8个小时的问题在flinkstandalone集群上，发现log输出时间比当前时间晚8个小时，我的集群系统时间是CTM+8时区的。

张行之·2023-11-16 08:47

Flink on yarn日志收集

背景在Flinkonyarn的模式下,程序运行的日志会分散的存储在不同的DN上,当Flink任务发生异常的时候,我们需要查看日志来定位问题,一般我们会选择通过FlinkUI上面的logs来查看日志,或者登录到对应的服务器上去查看

'煎饼侠·2023-11-16 08:16

【Flink】Flink任务缺失Jobmanager日志的问题排查

Flink任务缺失Jobmanager日志的问题排查问题不是大问题，不是什么代码级别的高深问题，也没有影响任务运行，纯粹因为人员粗心导致，记录一下排查的过程。

Meepoljd·2023-11-16 08:44

【入门Flink】- 11Flink实现动态TopN

基本处理函数（ProcessFunction）stream.process(newMyProcessFunction())方法需要传入一个ProcessFunction作为参数，ProcessFunction不是接口，而是一个抽象类，继承了AbstractRichFunction，所有的处理函数，都是富函数（RichFunction），拥有富函数所有功能。//泛型：//Typeparameters

不进大厂不改名二号·2023-11-16 05:37

Flink和Kafka连接时的精确一次保证

Flink写入Kafka两阶段提交端到端的exactly-once（精准一次）kafka->Flink->kafka1）输入端输入数据源端的Kafka可以对数据进行持久化保存，并可以重置偏移量（offset

不进大厂不改名二号·2023-11-16 05:29

Flume（一）【Flume 概述】

前言今天实在不知道学点什么好了，早上学了3个多小时的Flink，整天只学一门技术是很容易丧失兴趣的。那就学点新的东西Flume，虽然Kafka还没学完，但是大数据生态圈的基础组件也基本就剩这倆了。

让线程再跑一会·2023-11-16 01:46

2022年最新版 | Flink经典线上问题小盘点

2020年和2021年分别写了很多篇类似的文章，这篇文章是关于Flink生产环境中遇到的各种问题的汇总。这个版本在Flink新版本的基础上梳理了一个更加完整的版本。

王知无(import_bigdata)·2023-11-15 19:36

Flink SQL CDC 上线！我们总结了 13 条生产实践经验

摘要：7月，Flink1.11新版发布，在生态及易用性上有大幅提升，其中Table&SQL开始支持ChangeDataCapture（CDC）。

zhisheng_blog·2023-11-15 19:35

实时数据平台-Mysql到Mysql(Flink CDC和Debezium)

这里我们经常用到的组件是FlinkCDC，从下图我们看到对于FlinkCDC和Debezium的几个功能项都是支持的，区别为FlinkCDC可以做分布式，Debezium只能做单机。

diu_lei·2023-11-15 19:57

Flink 1.12的CDC

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代，其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。

'煎饼侠·2023-11-15 19:56

Flink-CDC 1.X 源码分享

1.FlinkCDC介绍1.1定义：CDC是变更数据捕获(ChangeDataCapture)技术的缩写，它可以将源数据库(Source)的增量变动记录，同步到一个或多个数据目的(Sink)。

'煎饼侠·2023-11-15 19:56

StarRocks × Apache Flink：如何构建简单强大的实时数仓架构

实时数据分析正在成为企业数字化经营的核心，如何有效构建实时数据分析系统是每个企业都在面临的挑战。当前在构建实时数仓时，由于数据源的多样性，需要使用不同的采集工具，如Flume、Canal、Logstash。对于不同的业务，我们通常会采用不同的分析引擎。比如，对于固定报表业务，根据已知的查询语句可以预先将事实表与维度表打平成宽表，充分利用ClickHouse强大的单表查询能力；对于高并发的查询请求，

大数据技术架构·2023-11-15 16:27

数据同步工具调研选型：SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据

SeaTunnel·2023-11-15 16:20

从0开始学大数据15-流式计算的代表：Storm、Flink、SparkStreaming

15|流式计算的代表：Storm、Flink、SparkStreaming我前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据，这类计算也叫大数据批处理计算。

源码头·2023-11-15 15:18

Flink中的时间语义和WaterMark

1.Flink时间语义Flink定义了三类时间处理时间（ProcessTime）数据进入Flink被处理的系统时间（Operator处理数据的系统时间）事件时间（EventTime）数据在数据源产生的时间

shenjianyu_rex·2023-11-15 14:59

【Flink Scala】时间语义和Watermark

时间语义和Watermark时间语义Flink中的时间语义EventTime的引入Waterkmark（水位线）基本概念理解案例Watermark的导入自定义生成watermark时间语义Flink中的时间语义在

飝鱻.·2023-11-15 14:56

Flink 支持三种时间语义

在ApacheFlink中，时间在流处理中是一个重要的概念，而时间语义则用于定义事件发生的时间。

贾斯汀玛尔斯·2023-11-15 14:53

Flink教程(4) DataStream 常用算子（上）

DataStream常用算子（上）一、前言二、Map2.1JavaLambda的Map2.2Flink的Map三、FlatMap3.1JavaLambda的FlatMap3.2Flink的FlatMap

瑟王·2023-11-15 12:33

Flink DataStream常用算子

Flink中的算子是将一个或多个DataStream转换为新的DataStream，可以将多个转换组合成复杂的数据流拓扑。

Mr.梧桐·2023-11-15 12:32

【Flink】基本转换算子使用之fliter、flatMap，键控流转换算子和分布式转换算子

文章目录一FlinkDataStreamAPI1基本转换算子的使用（1）flitera使用匿名类实现b使用外部类函数实现b使用flatMap实现（2）flatMapa使用匿名类实现b使用匿名函数实现2键控流转换算子

OneTenTwo76·2023-11-15 12:01

（十）Flink Datastream API 编程指南算子-1 （转换算子、物理分区、任务链、资源组、算子和作业）等基本介绍

本节将描述基本的转换、应用这些转换后的有效物理分区以及对Flink的operatorchain（链）的深入了解。

京河小蚁·2023-11-15 12:29

【Flink】DataStream API—执行环境、源算子、转换算子、输出算子

2、源算子种类3、Flink支持的数据类型三、转换算子（Transformation）1、基本转换算子2、聚合算子（Aggregation）3、匿名函数（Lambda）4、富函数类（RichFunctionClasses

不断学习的克里斯·2023-11-15 11:26

推荐频道

大数据计算-Flink