大数据框架flink 第19页

Flink集成Hive之Hive Catalog

流程流程:Flink消费Kafka,逻辑处理后将实时流转换为表视图,利用HiveCataLog创建Hive表,将实时流表insert进Hive,注意分区时间字段需要为yyyy-MM-dd形式,否则抛出异常

实时即未来·2024-01-13 09:44

Spark Streaming

人们对于大数据的实时性处理要求也在不断提高，传统的MapReduce等批处理框架在某些特定领域，例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求，因此诞生了一批如S3、Samza、Storm、Flink

奋斗的蛐蛐·2024-01-13 06:13

Flink

GoogleFileSystemBigTableMapReduceHDFSHBaseHadoopHadoop基于硬盘，可以处理海量数据；Spark基于内存，性能提高百倍，微批（500ms）；Flink基于

三半俊秀·2024-01-13 01:53

Flink State 和 Fault Tolerance（一）

Overview有状态函数（Statefulfunction）和算子（Operator）在处理独立的数据或事件时存储数据，使得状态（State）成为任何复杂算子中的关键部分，例如：当应用检索特定的事件模式，State将存储到接收到的事件的序列当按照分钟/小时/天的唯独聚合事件时，状态将保留待处理的聚合状态当在流数据上进行机器学习的模型训练时，状态保存模型当前版本的参数当需要管理历史数据时，状态允许

Alex90·2024-01-12 22:29

Flink会话集群docker-compose一键安装

spm=1001.2014.3001.55012、flink-conf.yamlflink-conf.yaml放在/home/flink/conf/job、/home/flink/conf/task下面

core512·2024-01-12 17:30

Hadoop 的核心 —— HDFS（1）

Hadoop是一个开源的大数据框架Hadoop是一个分布式计算的解决方案Hadoop=HDFS（分布式文件系统）+MapReduce（分布式计算）Hadoop的两个核心：HDFS分布式文件系统：存储是大数据技术的基础

土冥王·2024-01-12 16:13

准备数据集用于flink学习

GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；在学习和开发flink

程序员欣宸·2024-01-12 16:35

Flink SQL CDC 实践以及一致性分析

摘要：本文由民生银行王健、文乔分享，主要介绍民生银行FlinkSQLCDC实践以及一致性分析。

Apache Flink·2024-01-12 15:10

自定义Flink SourceFunction定时读取数据库

文章目录前言一、自定义FlinkSourceFunction定时读取数据库二、java代码实现总结前言Source是Flink获取数据输入的地方，可以用StreamExecutionEnvironment.addSource

shandongwill·2024-01-12 15:08

flink 保存点测试

首先需要去flinkui上找到自己的jobid，ui端口默认是8081执行命令flinkcancel--withSavepoint/flinkCDC/saveeaf2a70b59827948a1cef7ecc9723206

向他一样rap·2024-01-12 14:07

Github 2024-01-12Java开源项目日报 Top10

根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Java项目10Vue项目3ApacheFlink:开源流处理框架创建周期：3506天开发语言：Java协议类型：ApacheLicense2.0Star

孙琦Ray·2024-01-12 12:49

深入理解 Flink（七）Flink Slot 管理详解

2.Flink的资源管理机制资源调度的大体流程如下：a.TaskExecutor注册Register：当TaskExecutor启动之后，会向Resource

我很ruo·2024-01-12 11:23

【大数据面试】Flink面试题附答案

目录1、背压问题2、Flink是如何支持批流一体的3、Flink任务延迟高，想解决这个问题，你会如何入手4、Flink的监控页面，有了解吗，主要关注那些指标？5、你们之前Flink集群规模有多大？

话数Science·2024-01-12 11:51

深入理解 Flink（六）Flink Job 提交和 Flink Graph 详解

FlinkProgram编程套路回顾1、获取执行环境对象StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment

我很ruo·2024-01-12 10:48

java编写flink连接kafka常见问题总结

文章目录控制台输出问题没有执行计划问题不能执行sql问题动态表转为动态流问题控制台输出问题问题描述代码运行一会就结束，没有错误提示，也没有运行结果解决方法两种情况第一种日志没配好添加依赖org.apache.logging.log4jlog4j-slf4j-impl${log4j.version}org.apache.logging.log4jlog4j-api${log4j.version}or

一只小呆呆·2024-01-12 10:44

【hudi】hudi表常用字段类型SQL api测试

一、flinksqlapidroptablemy_db.hudi_type_flink;CREATETABLEmy_db.hudi_type_flink(boolean_tboolean,tinyint_ttinyint

lisacumt·2024-01-12 09:39

Flink异步IO

本文讲解Flink用于访问外部数据存储的异步I/OAPI。对于不熟悉异步或者事件驱动编程的用户，建议先储备一些关于Future和事件驱动编程的知识。

大数据技术派·2024-01-12 07:00

Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive

说明Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive完全分布式高可用集群搭建下载https://archive.apache.org/dist/我最终选择Zookeeper3.7.1

nsa65223·2024-01-12 06:08

数据同步工具chunjun(flinkx)-1.12.7 使用tips

目录本文旨在记录chunjun使用过程中的tips，并且记录与官网描述不符的地方，以减少学习成本1、在编写json的时候推荐使用在线json编辑器：2、类似MySQLMySQL这种需要编写带jdbcUrl的任务，注意reader和writer中jdbcUrl类型不一致3、以kafka—>mysql举例解释字段间的映射关系4、kafka—>mysql，当kafka输入脏数据时，mysql会写入空行5

省略号的搬运工·2024-01-12 01:36

kafka查看Topic列表及消费状态等常用命令

/kafka-topics--zookeeper166.188.xx.xx--create--topicflink_source--partitions1--replication-factor1replication-factor

码农九珍·2024-01-12 00:45

Kafka - Topic 消费状态常用命令

/kafka-topics--zookeeper166.188.xx.xx--create--topicflink_source--partitions1--replication-factor1replication-factor

放羊的牧码·2024-01-12 00:13

Flink中的状态管理

一.Flink中的状态1.1概述在Flink中，算子任务可以分为有状态和无状态两种状态。无状态的算子任务只需要观察每个独立事件，根据当前输入的数据直接转换输出结果。

- Hola -·2024-01-11 23:46

Flink 源码之 KafkaSource

Flink源码分析系列文档目录请点击：Flink源码分析系列文档目录前言FLIP-27:RefactorSourceInterface-ApacheFlink-ApacheSoftwareFoundation

AlienPaul·2024-01-11 21:53

【动态读取配置文件】ParameterTool读取带环境的配置信息

不同环境Flink配置信息是不同的，为了区分不同环境的配置文件，使用ParameterTool工具读取带有环境的配置文件信息区分环境的配置文件三个配置文件：flink.properties：决定那个配置文件生效

不进大厂不改名二号·2024-01-11 15:26

PiflowX组件 - Filter

计算引擎flink组件分组common端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子conditioncondition“”无是过滤条件。

暗影八度·2024-01-11 13:47

PiflowX-MysqlCdc组件

计算引擎flink组件分组cdc端口Inport：默认端口outport：默认端口组件属性名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是MySQL数据库服务器的IP地址或主机名

暗影八度·2024-01-11 13:14

The Next Generation of Apache Flink

摘要：本文整理自阿里云智能Flink分布式执行负责人、ApacheFlinkPMC成员、Flink2.0ReleaseManager宋辛童老师在FlinkForwardAsia2023主会场的分享。

Apache Flink·2024-01-11 13:39

Apache Flink 和 Paimon 在自如数据集成场景中的使用

业务背景自如目前线上有基于Hive的离线数仓和基于Flink、Kafka的实时数仓，随着业务发展，我们也在探索引入湖仓一体的架构更好的支持业务，我们对比了Iceberg、Hudi、Paimon后，最终选择

Apache Flink·2024-01-11 13:09

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

本文整理自阿里云Flink存储引擎团队李晋忠，兰兆千，梅源关于阿里云实时计算企业级状态存储引擎Gemini的研究，内容主要分为以下五部分：流计算状态访问的痛点企业级状态存储引擎GeminiGemini性能评测

Apache Flink·2024-01-11 13:36

基于Hologres+Flink的曹操出行实时数仓建设作者：林震｜曹操出行实时计算负责人

作者：林震｜曹操出行实时计算负责人曹操出行业务背景介绍曹操出行创立于2015年5月21日，是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务，以“科技重塑绿色共享出行”为使命，将全球领先的互联网、车联网、自动驾驶技术以及新能源科技，创新应用于共享出行领域，以“用心服务国民出行”为品牌主张，致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台，主要提供了网约车、顺风车、专车等一些出行服务。

阿里云大数据AI技术·2024-01-11 09:40

flink中的row类型详解

在ApacheFlink中，`Row`是一个通用的数据结构，用于表示一行数据。它是FlinkTableAPI和FlinkDataSetAPI中的基本数据类型之一。

后季暖·2024-01-11 09:10

深入理解 Flink（四）Flink Time+WaterMark+Window 深入分析

FlinkWindow常见需求背景需求描述每隔5秒，计算最近10秒单词出现的次数——滑动窗口每隔5秒，计算最近5秒单词出现的次数——滚动窗口关于Flinktime种类TimeCharacteristicProcessingTimeIngestionTimeEventTimeWindowAssigner

我很ruo·2024-01-11 09:39

Flink/Doris生产环境方案选型的一些思考

以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会遇到的问题。

王知无(import_bigdata)·2024-01-11 09:37

Flink-CEP 实战教程

文章目录1.基本概念1.1CEP是什么1.2模式（Pattern）1.3应用场景2.快速上手2.1引入依赖2.2入门实例3.模式API（PatternAPI）3.1个体模式3.1.1基本形式3.1.2量词（Quantifiers）3.1.3条件（Conditions）3.2组合模式3.2.1初始模式（InitialPattern）3.2.2近邻条件（ContiguityConditions）3.2

阿moments·2024-01-11 09:06

FlinkAPI开发之窗口（Window）

案例用到的测试数据请参考文章：Flink自定义Source模拟数据流原文链接：https://blog.csdn.net/m0_52606060/article/details/135436048窗口的概念

Appreciate(欣赏)·2024-01-11 09:05

深入理解 Flink（五）Flink Standalone 集群启动源码剖析

前言Flink集群的逻辑概念：JobManager(StandaloneSessionClusterEntrypoint)+TaskManager(TaskManagerRunner)Flink集群的物理概念

我很ruo·2024-01-11 09:03

【Kafka-3.x-教程】-【六】Kafka 外部系统集成【Flume、Flink、SpringBoot、Spark】

【Kafka-3.x-教程】专栏：【Kafka-3.x-教程】-【一】Kafka概述、Kafka快速入门【Kafka-3.x-教程】-【二】Kafka-生产者-Producer【Kafka-3.x-教程】-【三】Kafka-Broker、Kafka-Kraft【Kafka-3.x-教程】-【四】Kafka-消费者-Consumer【Kafka-3.x-教程】-【五】Kafka-监控-Eagle【K

bmyyyyyy·2024-01-11 06:50

Flink复习3-2-4-6-1(v1.17.0)：应用开发 - DataStream API - 状态和容错 - 数据类型&序列化 - 概述

DataTypes&SerializationSupportedDataTypes（支持的数据类型）TuplesandCaseClassesPOJOsPrimitiveTypes（基本数据类型）GeneralClassTypes（一般类型）ValuesHadoopWritablesSpecialTypes（特殊类型）TypeErasure&TypeInference（类型擦除和类型推断）Typeh

ε(´ο｀*)))·2024-01-11 05:30

Flink｜《Flink 官方文档 - DataStream API - 状态与容错 - 数据类型以及序列化 - 概览》学习笔记

学习文档：《Flink官方文档-DataStreamAPI-状态与容错-数据类型以及序列化-概览》学习笔记如下：Flink使用独特的方式来处理数据类型以及序列化。

长行·2024-01-11 05:59

FlinkSQL设置sink的并行度

createtableaaa(pt_dtstring,proc_timetimestamp,ctimetimestamp,PRIMARYKEY(tqi_id)NOTENFORCED)with('connector'='upsert-kafka','topic'='bbb','properties.bootstrap.servers'='${sql.kafka.bootstrap.server}',

青云游子·2024-01-10 15:51

第 7 节 Flink standalone集群HA配置

上篇：第6节Flinkonyarn内部实现1、Flink-HA高可用JobManager高可用(HA)jobManager协调每个flink任务部署。它负责任务调度和资源管理。

江湖侠客·2024-01-10 12:04

Flink 1.15本地集群部署Standalone模式(独立集群模式)

一.环境准备1、集群规划，CentOS7环境192.168.11.10411.104(DB测试)centf11104192.168.11.10511.105(DB测试)centf11105192.168.11.10611.106(DB测试)centf11106jdk安装参考：linux环境javajdk12.0.2部署_天一道长--玄彬的博客-CSDN博客2、jdk12安装》配置免密登入》三个节点

天一道长--玄彬·2024-01-10 12:04

Flink集群安装部署（Standalone，Yarn模式）

目录一.环境准备二.Flink集群安装步骤三.FlinkOnYarn一.环境准备需要提前安装配置JDK，Hadoop二.Flink集群安装步骤1.下载安装包下载地址：Indexof/dist/flink

MJK祺·2024-01-10 12:03

flink Standalone独立集群模式配置和部署：

1.在conf/flink-conf.yaml文件下配置机器地址，jobmanger.rpc.addresssjia加上机器名下面红的地方配置就好，注意3台机器都是一样的IP，这样保证这台是主机器2，配置每个文件

平凡天下·2024-01-10 12:33

Flink standalone集群部署配置

文章目录简介软件依赖部署方案二、安装1.下载并解压2.ssh免密登录3.修改配置文件3.启动集群4.访问WebUI简介Flink独立模式（Standalone）是部署Flink最基本也是最简单的方式：所需要的所有

shandongwill·2024-01-10 12:27

5.MapReduce之Combiner-预聚合

目录概述本地预计算Combiner意义实践前提代码日志观察结束概述在MR、Spark、Flink中，常用的减少网络传输的手段。

流月up·2024-01-10 12:49

4.MapReduce 序列化

序列化序列化对象-->字节序例：存储到磁盘或者网络传输MR、Spark、Flink：分布式的执行框架必然会涉及到网络传输ja

流月up·2024-01-10 12:46

深入理解 Flink（三）Flink 内核基础设施源码级原理详解

Hadoop生态各大常见组件的RPC技术实现FlinkRPC网络通信框架Akka详解1、ActorSystem是管理Actor生命周期的组件，Actor是负责进行通信的组件。

我很ruo·2024-01-10 08:20

详解flink exactly-once和两阶段提交

以下是我们常见的三种flink处理语义：最多一次（At-most-Once）：用户的数据只会被处理一次，不管成功还是失败，不会重试也不会重发。

后季暖·2024-01-10 08:58

深入理解 Flink（一）Flink 架构设计原理

大数据分布式计算引擎设计实现剖析MapReduceMapReduce执行引擎解析MapReduce的组件设计实现图Spark执行引擎解析Spark相比于RM的真正优势的地方在哪里：（Simple、Fast、Scalable、Unified）DAG引擎中间计算结果可以进行内存持久化基于内存计算(不完全对，确切地说是把数据都加载（从内存中间件中读取）到内存中，然后来执行计算)生态多样，算子丰富，API

我很ruo·2024-01-10 08:57

推荐频道

大数据框架flink